Dữ liệu gấu trúc
DataFrame là gì?
Pandas DataFrame là một cấu trúc dữ liệu 2 chiều, giống như một mảng 2 chiều hoặc một bảng có các hàng và cột.
Thí dụ
Tạo một Pandas DataFrame đơn giản:
import pandas as pd
data = {
"calories": [420, 380, 390],
"duration":
[50, 40, 45]
}
#load data into a DataFrame object:
df = pd.DataFrame(data)
print(df)
Kết quả
calories duration 0 420 50 1 380 40 2 390 45
Định vị hàng
Như bạn có thể thấy từ kết quả ở trên, DataFrame giống như một bảng với các hàng và cột.
Gấu trúc sử dụng loc
thuộc tính để trả về một hoặc nhiều hàng được chỉ định
Thí dụ
Trả lại hàng 0:
#refer to the row index:
print(df.loc[0])
Kết quả
calories 420 duration 50 Name: 0, dtype: int64
Lưu ý: Ví dụ này trả về Chuỗi gấu trúc .
Thí dụ
Trả lại hàng 0 và 1:
#use a list of indexes:
print(df.loc[[0, 1]])
Kết quả
calories duration 0 420 50 1 380 40
Lưu ý: Khi sử dụng []
, kết quả là Pandas DataFrame .
Được chứng nhận!
$ 10 ĐĂNG KÝ
Chỉ mục được đặt tên
Với index
đối số, bạn có thể đặt tên cho các chỉ mục của riêng mình.
Thí dụ
Thêm danh sách tên để đặt tên cho mỗi hàng:
import pandas as pd
data = {
"calories": [420, 380, 390],
"duration":
[50, 40, 45]
}
df = pd.DataFrame(data, index = ["day1", "day2",
"day3"])
print(df)
Kết quả
calories duration day1 420 50 day2 380 40 day3 390 45
Xác định vị trí các chỉ mục được đặt tên
Sử dụng chỉ mục đã đặt tên trong loc
thuộc tính để trả về (các) hàng được chỉ định.
Thí dụ
Trả về "day2":
#refer to the named index:
print(df.loc["day2"])
Kết quả
calories 380 duration 40 Name: 0, dtype: int64
Tải tệp vào DataFrame
Nếu tập dữ liệu của bạn được lưu trữ trong một tệp, Pandas có thể tải chúng vào DataFrame.
Thí dụ
Tải tệp được phân tách bằng dấu phẩy (tệp CSV) vào DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df)
Bạn sẽ tìm hiểu thêm về cách nhập tệp trong các chương tiếp theo.