Gấu trúc - Tương quan dữ liệu
Tìm kiếm mối quan hệ
Một khía cạnh tuyệt vời của mô-đun Pandas là corr()
phương pháp.
Phương corr()
pháp tính toán mối quan hệ giữa mỗi cột trong tập dữ liệu của bạn.
Các ví dụ trong trang này sử dụng tệp CSV có tên: 'data.csv'.
Tải xuống dữ liệu.csv . hoặc Mở data.csv
Thí dụ
Hiển thị mối quan hệ giữa các cột:
df.corr()
Kết quả
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
Lưu ý:
Phương corr()
thức bỏ qua các cột "không phải số".
Giải thích kết quả
Kết quả của corr()
phương pháp là một bảng có nhiều số thể hiện mối quan hệ giữa hai cột tốt như thế nào.
Số thay đổi từ -1 đến 1.
1 có nghĩa là có mối quan hệ 1-1 (tương quan hoàn hảo) và đối với tập dữ liệu này, mỗi khi một giá trị tăng lên trong cột đầu tiên, thì cột kia cũng tăng theo.
0,9 cũng là một mối quan hệ tốt, và nếu bạn tăng một giá trị, giá trị kia có thể cũng sẽ tăng theo.
-0,9 sẽ là một mối quan hệ tốt như 0,9, nhưng nếu bạn tăng một giá trị, giá trị kia có thể sẽ giảm xuống.
0,2 KHÔNG có nghĩa là một mối quan hệ tốt, có nghĩa là nếu một giá trị tăng lên không có nghĩa là giá trị kia sẽ tăng.
Mối tương quan tốt là gì?
Nó phụ thuộc vào việc sử dụng, nhưng tôi nghĩ rằng nó là an toàn để nói rằng bạn phải có ít nhất 0.6
(hoặc -0.6
) để gọi nó là một mối tương quan tốt.
Tương quan hoàn hảo:
Chúng ta có thể thấy rằng "Thời lượng" và "Thời lượng" có số 1.000000
, điều này có ý nghĩa, mỗi cột luôn có mối quan hệ hoàn hảo với chính nó.
Tương quan tốt:
"Thời lượng" và "Lượng calo" có 0.922721
mối tương quan, đây là một mối tương quan rất tốt và chúng tôi có thể dự đoán rằng bạn tập luyện càng lâu thì lượng calo bạn đốt cháy càng nhiều và ngược lại: nếu bạn đốt cháy nhiều calo, bạn có lẽ đã có một công việc lâu dài.
Tương quan Xấu:
"Thời lượng" và "Maxpulse" có 0.009403
mối tương quan, đây là một mối tương quan rất xấu, có nghĩa là chúng ta không thể dự đoán xung tối đa bằng cách chỉ nhìn vào thời lượng của công việc và ngược lại.
Được chứng nhận!
$ 10 ĐĂNG KÝ