Dữ liệu AI
Có tới 80% dự án Trí tuệ nhân tạo là về Thu thập dữ liệu :
- Dữ liệu nào là bắt buộc ?
- Dữ liệu nào có sẵn ?
- Làm thế nào để Chọn dữ liệu?
- Làm thế nào để thu thập dữ liệu?
- Làm thế nào để làm sạch dữ liệu?
- Làm thế nào để chuẩn bị dữ liệu?
- Làm thế nào để sử dụng dữ liệu?
Dữ liệu là gì?
Dữ liệu có thể là nhiều thứ. Với Trí tuệ nhân tạo, nó phải là một tập hợp các sự kiện:
Loại | Các ví dụ |
---|---|
Con số | Giá cả. Ngày. |
Đo | Kích cỡ. Chiều cao. Trọng lượng. |
Từ | Tên và Địa điểm. |
Quan sát | Đếm xe. |
Mô tả | Trời lạnh. |
Dữ liệu nhu cầu thông minh
Trí thông minh của con người cần dữ liệu:
Một nhà môi giới bất động sản cần dữ liệu về những ngôi nhà đã bán để ước tính giá cả.
Trí tuệ nhân tạo cần dữ liệu:
Một chương trình máy tính cũng cần dữ liệu để ước tính giá cả.
Lưu trữ dữ liệu
Dữ liệu phổ biến nhất để thu thập là Số và Phép đo.
Thông thường dữ liệu được lưu trữ trong các mảng biểu diễn mối quan hệ giữa các giá trị.
Bảng này chứa giá nhà so với kích thước:
Giá | 7 | số 8 | số 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
Kích cỡ | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Định lượng so với Định tính
Dữ liệu định lượng là số:
- 55 ô tô
- 15 mét
- 35 em
Dữ liệu định tính mang tính mô tả:
- Trời lạnh
- Nó dài
- Thật là vui
Điều tra dân số hoặc lấy mẫu
Điều tra dân số là khi chúng tôi thu thập dữ liệu của mọi thành viên trong nhóm.
Mẫu là khi chúng tôi thu thập dữ liệu của một số thành viên trong nhóm.
Nếu chúng tôi muốn biết có bao nhiêu người Mỹ hút thuốc lá, chúng tôi có thể hỏi từng người ở Mỹ (điều tra dân số), hoặc chúng tôi có thể hỏi 10.000 người (một mẫu).
Một cuộc điều tra dân số là chính xác , nhưng khó thực hiện. Một mẫu không chính xác , nhưng dễ thực hiện hơn.
Điều khoản lấy mẫu
Một Quần thể là một nhóm các cá nhân (đối tượng) mà chúng ta muốn thu thập thông tin.
Điều tra dân số là thông tin về mọi cá nhân trong một quần thể.
Mẫu là thông tin về một phần của dân số (Để đại diện cho tất cả).
Mẫu ngẫu nhiên
Để một mẫu đại diện cho một quần thể, nó phải được lấy ngẫu nhiên.
Mẫu ngẫu nhiên , là mẫu mà mọi thành viên của quần thể đều có cơ hội xuất hiện trong mẫu như nhau.
Xu hướng lấy mẫu
Sai lệch lấy mẫu (Lỗi) xảy ra khi mẫu được thu thập theo cách mà một số cá thể ít (hoặc nhiều hơn) có khả năng được đưa vào mẫu.