Dữ liệu AI

Có tới 80% dự án Trí tuệ nhân tạo là về Thu thập dữ liệu :

  • Dữ liệu nào là bắt buộc ?
  • Dữ liệu nào có sẵn ?
  • Làm thế nào để Chọn dữ liệu?
  • Làm thế nào để thu thập dữ liệu?
  • Làm thế nào để làm sạch dữ liệu?
  • Làm thế nào để chuẩn bị dữ liệu?
  • Làm thế nào để sử dụng dữ liệu?

Dữ liệu là gì?

Dữ liệu có thể là nhiều thứ. Với Trí tuệ nhân tạo, nó phải là một tập hợp các sự kiện:

LoạiCác ví dụ
Con sốGiá cả. Ngày.
ĐoKích cỡ. Chiều cao. Trọng lượng.
TừTên và Địa điểm.
Quan sátĐếm xe.
Mô tảTrời lạnh.

Dữ liệu nhu cầu thông minh

Trí thông minh của con người cần dữ liệu:

Một nhà môi giới bất động sản cần dữ liệu về những ngôi nhà đã bán để ước tính giá cả.

Trí tuệ nhân tạo cần dữ liệu:

Một chương trình máy tính cũng cần dữ liệu để ước tính giá cả.


Lưu trữ dữ liệu

Dữ liệu phổ biến nhất để thu thập là Số và Phép đo.

Thông thường dữ liệu được lưu trữ trong các mảng biểu diễn mối quan hệ giữa các giá trị.

Bảng này chứa giá nhà so với kích thước:

Giá7số 8số 89991011141415
Kích cỡ5060708090100 110120130140150

Định lượng so với Định tính

Dữ liệu định lượng là số:

  • 55 ô tô
  • 15 mét
  • 35 em

Dữ liệu định tính mang tính mô tả:

  • Trời lạnh
  • Nó dài
  • Thật là vui

Điều tra dân số hoặc lấy mẫu

Điều tra dân số là khi chúng tôi thu thập dữ liệu của mọi thành viên trong nhóm.

Mẫu khi chúng tôi thu thập dữ liệu của một số thành viên trong nhóm.

Nếu chúng tôi muốn biết có bao nhiêu người Mỹ hút thuốc lá, chúng tôi có thể hỏi từng người ở Mỹ (điều tra dân số), hoặc chúng tôi có thể hỏi 10.000 người (một mẫu).

Một cuộc điều tra dân số là chính xác , nhưng khó thực hiện. Một mẫu không chính xác , nhưng dễ thực hiện hơn.


Điều khoản lấy mẫu

Một Quần thể là một nhóm các cá nhân (đối tượng) mà chúng ta muốn thu thập thông tin.

Điều tra dân số là thông tin về mọi cá nhân trong một quần thể.

Mẫu là thông tin về một phần của dân số (Để đại diện cho tất cả).


Mẫu ngẫu nhiên

Để một mẫu đại diện cho một quần thể, nó phải được lấy ngẫu nhiên.

Mẫu ngẫu nhiên , là mẫu mà mọi thành viên của quần thể đều có cơ hội xuất hiện trong mẫu như nhau.


Xu hướng lấy mẫu

Sai lệch lấy mẫu (Lỗi) xảy ra khi mẫu được thu thập theo cách mà một số cá thể ít (hoặc nhiều hơn) có khả năng được đưa vào mẫu.