Gấu trúc - Tương quan dữ liệu


Tìm kiếm mối quan hệ

Một khía cạnh tuyệt vời của mô-đun Pandas là corr()phương pháp.

Phương corr()pháp tính toán mối quan hệ giữa mỗi cột trong tập dữ liệu của bạn.

Các ví dụ trong trang này sử dụng tệp CSV có tên: 'data.csv'.

Tải xuống dữ liệu.csv . hoặc Mở data.csv

Thí dụ

Hiển thị mối quan hệ giữa các cột:

df.corr()

Kết quả

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

Lưu ý: Phương corr()thức bỏ qua các cột "không phải số".

Giải thích kết quả

Kết quả của corr()phương pháp là một bảng có nhiều số thể hiện mối quan hệ giữa hai cột tốt như thế nào.

Số thay đổi từ -1 đến 1.

1 có nghĩa là có mối quan hệ 1-1 (tương quan hoàn hảo) và đối với tập dữ liệu này, mỗi khi một giá trị tăng lên trong cột đầu tiên, thì cột kia cũng tăng theo.

0,9 cũng là một mối quan hệ tốt, và nếu bạn tăng một giá trị, giá trị kia có thể cũng sẽ tăng theo.

-0,9 sẽ là một mối quan hệ tốt như 0,9, nhưng nếu bạn tăng một giá trị, giá trị kia có thể sẽ giảm xuống.

0,2 KHÔNG có nghĩa là một mối quan hệ tốt, có nghĩa là nếu một giá trị tăng lên không có nghĩa là giá trị kia sẽ tăng.

Mối tương quan tốt là gì? Nó phụ thuộc vào việc sử dụng, nhưng tôi nghĩ rằng nó là an toàn để nói rằng bạn phải có ít nhất 0.6(hoặc -0.6) để gọi nó là một mối tương quan tốt.

Tương quan hoàn hảo:

Chúng ta có thể thấy rằng "Thời lượng" và "Thời lượng" có số 1.000000, điều này có ý nghĩa, mỗi cột luôn có mối quan hệ hoàn hảo với chính nó.

Tương quan tốt:

"Thời lượng" và "Lượng calo" có 0.922721mối tương quan, đây là một mối tương quan rất tốt và chúng tôi có thể dự đoán rằng bạn tập luyện càng lâu thì lượng calo bạn đốt cháy càng nhiều và ngược lại: nếu bạn đốt cháy nhiều calo, bạn có lẽ đã có một công việc lâu dài.

Tương quan Xấu:

"Thời lượng" và "Maxpulse" có 0.009403mối tương quan, đây là một mối tương quan rất xấu, có nghĩa là chúng ta không thể dự đoán xung tối đa bằng cách chỉ nhìn vào thời lượng của công việc và ngược lại.


Kiểm tra bản thân với các bài tập

Bài tập:

Chèn một cú pháp đúng để tìm mối quan hệ giữa các cột trong DataFrame.

df.()


w3schools CERTIFIED . 2021

Được chứng nhận!

Hoàn thành các mô-đun Pandas, làm bài tập, làm bài kiểm tra và bạn sẽ được chứng nhận w3schools!

$ 10 ĐĂNG KÝ