Gấu trúc - Phân tích DataFrames
Xem dữ liệu
Một trong những phương pháp được sử dụng nhiều nhất để có cái nhìn tổng quan nhanh về DataFrame, là head()
phương pháp.
Phương head()
thức này trả về các tiêu đề và một số hàng được chỉ định, bắt đầu từ trên cùng.
Thí dụ
Xem tổng quan nhanh bằng cách in 10 hàng đầu tiên của DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
Trong các ví dụ của chúng tôi, chúng tôi sẽ sử dụng tệp CSV có tên 'data.csv'.
Tải xuống data.csv hoặc mở data.csv trong trình duyệt của bạn.
Lưu ý: nếu số hàng không được chỉ định, head()
phương thức sẽ trả về 5 hàng trên cùng.
Thí dụ
In 5 hàng đầu tiên của DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
Ngoài ra còn có một tail()
phương pháp để xem các
hàng cuối cùng của DataFrame.
Phương tail()
thức trả về tiêu đề và một số hàng được chỉ định, bắt đầu từ dưới cùng.
Thí dụ
In 5 hàng cuối cùng của DataFrame:
print(df.tail())
Được chứng nhận!
$ 10 ĐĂNG KÝ
Thông tin về dữ liệu
Đối tượng DataFrames có một phương thức được gọi info()
, cung cấp cho bạn thêm thông tin về tập dữ liệu.
Thí dụ
In thông tin về dữ liệu:
print(df.info())
Kết quả
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
Giải thích kết quả
Kết quả cho chúng ta biết có 169 hàng và 4 cột:
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
Và tên của mỗi cột, với kiểu dữ liệu:
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
Giá trị rỗng
Phương info()
pháp này cũng cho chúng ta biết có bao nhiêu giá trị Non-Null có trong mỗi cột và trong tập dữ liệu của chúng tôi, có vẻ như có 164 trong số 169 giá trị Non-Null trong cột "Calories".
Có nghĩa là có 5 hàng không có giá trị nào, trong cột "Calo", vì bất kỳ lý do gì.
Giá trị rỗng hoặc giá trị Null có thể không tốt khi phân tích dữ liệu và bạn nên cân nhắc loại bỏ các hàng có giá trị trống. Đây là một bước hướng tới cái được gọi là làm sạch dữ liệu và bạn sẽ tìm hiểu thêm về điều đó trong các chương tiếp theo.