Học máy
Học máy là làm cho máy tính học từ việc nghiên cứu dữ liệu và thống kê.
Học máy (Machine Learning) là một bước đi theo hướng của trí tuệ nhân tạo (AI).
Học máy là một chương trình phân tích dữ liệu và học cách dự đoán kết quả.
Bắt đầu từ đâu?
Trong hướng dẫn này, chúng ta sẽ quay lại toán học và nghiên cứu thống kê, cũng như cách tính toán các con số quan trọng dựa trên các tập dữ liệu.
Chúng tôi cũng sẽ học cách sử dụng các mô-đun Python khác nhau để có được câu trả lời mà chúng tôi cần.
Và chúng ta sẽ học cách tạo ra các hàm có thể dự đoán kết quả dựa trên những gì chúng ta đã học.
Tập dữ liệu
Trong tâm trí của máy tính, tập dữ liệu là bất kỳ tập hợp dữ liệu nào. Nó có thể là bất cứ thứ gì từ một mảng đến một cơ sở dữ liệu hoàn chỉnh.
Ví dụ về một mảng:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
Ví dụ về cơ sở dữ liệu:
Tên xe | Màu sắc | Già đi | Tốc độ, vận tốc | AutoPass |
xe BMW | màu đỏ | 5 | 99 | Y |
Volvo | màu đen | 7 | 86 | Y |
VW | xám | số 8 | 87 | n |
VW | trắng | 7 | 88 | Y |
Ford | trắng | 2 | 111 | Y |
VW | trắng | 17 | 86 | Y |
Tesla | màu đỏ | 2 | 103 | Y |
xe BMW | màu đen | 9 | 87 | Y |
Volvo | xám | 4 | 94 | n |
Ford | trắng | 11 | 78 | n |
Toyota | xám | 12 | 77 | n |
VW | trắng | 9 | 85 | n |
Toyota | màu xanh lam | 6 | 86 | Y |
Bằng cách nhìn vào mảng, chúng ta có thể đoán rằng giá trị trung bình có thể là khoảng 80 hoặc 90 và chúng ta cũng có thể xác định giá trị cao nhất và giá trị thấp nhất, nhưng chúng ta có thể làm gì khác?
Và bằng cách xem xét cơ sở dữ liệu, chúng ta có thể thấy rằng màu phổ biến nhất là màu trắng và chiếc xe lâu đời nhất là 17 năm, nhưng điều gì sẽ xảy ra nếu chúng ta có thể dự đoán nếu một chiếc xe có AutoPass, chỉ bằng cách nhìn vào các giá trị khác?
Đó là công dụng của Học máy! Phân tích dữ liệu và dự đoán kết quả!
Trong Học máy, người ta thường làm việc với các tập dữ liệu rất lớn. Trong hướng dẫn này, chúng tôi sẽ cố gắng làm cho việc hiểu các khái niệm khác nhau của máy học dễ dàng nhất có thể và chúng tôi sẽ làm việc với các tập dữ liệu nhỏ dễ hiểu.
Loại dữ liệu
Để phân tích dữ liệu, điều quan trọng là phải biết loại dữ liệu chúng ta đang xử lý.
Chúng tôi có thể chia các loại dữ liệu thành ba loại chính:
- Số
- Phân loại
- Bình thường
Dữ liệu số là các số và có thể được chia thành hai loại số:
- Dữ liệu rời rạc
- các số được giới hạn ở số nguyên. Ví dụ: Số ô tô chạy qua. - Dữ liệu liên tục
- các số có giá trị vô hạn. Ví dụ: Giá của một mặt hàng hoặc kích thước của một mặt hàng
Dữ liệu phân loại là các giá trị không thể đo lường được với nhau. Ví dụ: giá trị màu hoặc bất kỳ giá trị có / không.
Dữ liệu thứ tự giống như dữ liệu phân loại, nhưng có thể được đo lường với nhau. Ví dụ: điểm trường nơi A tốt hơn B, v.v.
Bằng cách biết kiểu dữ liệu của nguồn dữ liệu, bạn sẽ có thể biết kỹ thuật nào nên sử dụng khi phân tích chúng.
Bạn sẽ tìm hiểu thêm về thống kê và phân tích dữ liệu trong các chương tiếp theo.