Khoa học dữ liệu - Dữ liệu là gì?


Dữ liệu là gì?

Dữ liệu là một tập hợp thông tin.

Một mục đích của Khoa học dữ liệu là cấu trúc dữ liệu, làm cho dữ liệu có thể diễn giải được và dễ làm việc.

Dữ liệu có thể được phân loại thành hai nhóm:

  • Dữ liệu có cấu trúc
  • Dữ liệu phi cấu trúc

Dữ liệu phi cấu trúc

Dữ liệu phi cấu trúc không được tổ chức. Chúng ta phải tổ chức dữ liệu cho các mục đích phân tích.

Dữ liệu phi cấu trúc

Dữ liệu phi cấu trúc


Dữ liệu có cấu trúc

Dữ liệu có cấu trúc được sắp xếp và dễ làm việc hơn.

Dữ liệu có cấu trúc


Làm thế nào để cấu trúc dữ liệu?

Chúng ta có thể sử dụng một mảng hoặc một bảng cơ sở dữ liệu để cấu trúc hoặc trình bày dữ liệu.

Ví dụ về một mảng:

[80, 85, 90, 95, 100, 105, 110, 115, 120, 125]

Ví dụ sau cho thấy cách tạo một mảng trong Python:

Thí dụ

Array = [80, 85, 90, 95, 100, 105, 110, 115, 120, 125]
print(Array)

Người ta thường làm việc với các tập dữ liệu rất lớn trong Khoa học dữ liệu.

Trong hướng dẫn này, chúng tôi sẽ cố gắng làm cho việc hiểu các khái niệm của Khoa học Dữ liệu trở nên dễ dàng nhất có thể. Do đó, chúng tôi sẽ làm việc với một tập dữ liệu nhỏ dễ hiểu.