Gấu trúc - Phân tích DataFrames


Xem dữ liệu

Một trong những phương pháp được sử dụng nhiều nhất để có cái nhìn tổng quan nhanh về DataFrame, là head()phương pháp.

Phương head()thức này trả về các tiêu đề và một số hàng được chỉ định, bắt đầu từ trên cùng.

Thí dụ

Xem tổng quan nhanh bằng cách in 10 hàng đầu tiên của DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

Trong các ví dụ của chúng tôi, chúng tôi sẽ sử dụng tệp CSV có tên 'data.csv'.

Tải xuống data.csv hoặc mở data.csv trong trình duyệt của bạn.

Lưu ý: nếu số hàng không được chỉ định, head()phương thức sẽ trả về 5 hàng trên cùng.

Thí dụ

In 5 hàng đầu tiên của DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

Ngoài ra còn có một tail()phương pháp để xem các hàng cuối cùng của DataFrame.

Phương tail()thức trả về tiêu đề và một số hàng được chỉ định, bắt đầu từ dưới cùng.

Thí dụ

In 5 hàng cuối cùng của DataFrame:

print(df.tail()) 

w3schools CERTIFIED . 2021

Được chứng nhận!

Hoàn thành các mô-đun Pandas, làm bài tập, làm bài kiểm tra và bạn sẽ được chứng nhận w3schools!

$ 10 ĐĂNG KÝ

Thông tin về dữ liệu

Đối tượng DataFrames có một phương thức được gọi info(), cung cấp cho bạn thêm thông tin về tập dữ liệu.

Thí dụ

In thông tin về dữ liệu:

print(df.info()) 

Kết quả

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

Giải thích kết quả

Kết quả cho chúng ta biết có 169 hàng và 4 cột:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

Và tên của mỗi cột, với kiểu dữ liệu:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Giá trị rỗng

Phương info()pháp này cũng cho chúng ta biết có bao nhiêu giá trị Non-Null có trong mỗi cột và trong tập dữ liệu của chúng tôi, có vẻ như có 164 trong số 169 giá trị Non-Null trong cột "Calories".

Có nghĩa là có 5 hàng không có giá trị nào, trong cột "Calo", vì bất kỳ lý do gì.

Giá trị rỗng hoặc giá trị Null có thể không tốt khi phân tích dữ liệu và bạn nên cân nhắc loại bỏ các hàng có giá trị trống. Đây là một bước hướng tới cái được gọi là làm sạch dữ liệu và bạn sẽ tìm hiểu thêm về điều đó trong các chương tiếp theo.