Khoa học dữ liệu - Python DataFrame


Tạo DataFrame với gấu trúc

Khung dữ liệu là một biểu diễn có cấu trúc của dữ liệu.

Hãy xác định một khung dữ liệu có 3 cột và 5 hàng với các số hư cấu:

Thí dụ

import pandas as pd

d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}

df = pd.DataFrame(data=d)

print(df)

Giải thích ví dụ

  • Nhập thư viện Pandas dưới dạng pd
  • Xác định dữ liệu với cột và hàng trong một biến có tên là d
  • Tạo khung dữ liệu bằng hàm pd.DataFrame ()
  • Khung dữ liệu chứa 3 cột và 5 hàng
  • In đầu ra khung dữ liệu bằng hàm print ()

Chúng tôi viết pd. trước DataFrame () để cho Python biết rằng chúng ta muốn kích hoạt hàm DataFrame () từ thư viện Pandas.

Hãy lưu ý chữ viết hoa D và F trong DataFrame!


Diễn giải đầu ra

Đây là đầu ra:

Đầu ra khung dữ liệu

Chúng ta thấy rằng "col1", "col2" và "col3" là tên của các cột.

Đừng nhầm lẫn về các số dọc khác nhau, từ 0-4. Chúng cho chúng ta biết thông tin về vị trí của các hàng.

Trong Python, việc đánh số các hàng bắt đầu bằng số không.

Bây giờ, chúng ta có thể sử dụng Python để đếm các cột và hàng.

Chúng ta có thể sử dụng df.shape [1] để tìm số cột:

Thí dụ

Đếm số cột:

count_column = df.shape[1]
print(count_column)

Chúng ta có thể sử dụng df.shape [0] để tìm số hàng:

Thí dụ

Đếm số hàng:

count_row = df.shape[0]
print(count_row)

Tại sao chúng ta không thể tự mình đếm các hàng và cột?

Nếu chúng ta làm việc với các tập dữ liệu lớn hơn với nhiều cột và hàng, sẽ rất khó hiểu khi tự đếm nó. Bạn có nguy cơ đếm sai. Nếu chúng tôi sử dụng các hàm tích hợp sẵn trong Python một cách chính xác, chúng tôi đảm bảo rằng số lượng là chính xác.