Khoa học Dữ liệu - Tương quan Thống kê


Tương quan

Tương quan đo lường mối quan hệ giữa hai biến.

Chúng tôi đã đề cập rằng một hàm có mục đích để dự đoán một giá trị, bằng cách chuyển đổi đầu vào (x) thành đầu ra (f (x)). Chúng ta cũng có thể nói rằng một hàm sử dụng mối quan hệ giữa hai biến để dự đoán.


Hệ số tương quan

Hệ số tương quan đo lường mối quan hệ giữa hai biến.

Hệ số tương quan không bao giờ được nhỏ hơn -1 hoặc cao hơn 1.

  • 1 = có một mối quan hệ tuyến tính hoàn hảo giữa các biến (như Average_Pulse so với Calorie_Burnage)
  • 0 = không có mối quan hệ tuyến tính giữa các biến
  • -1 = có một mối quan hệ tuyến tính âm hoàn hảo giữa các biến (ví dụ: Làm việc ít giờ hơn, dẫn đến tiêu hao calo cao hơn trong một buổi tập)

Ví dụ về mối quan hệ tuyến tính hoàn hảo (Hệ số tương quan = 1)

Chúng tôi sẽ sử dụng scatterplot để trực quan hóa mối quan hệ giữa Average_Pulse và Calorie_Burnage (chúng tôi đã sử dụng tập dữ liệu nhỏ của đồng hồ thể thao với 10 quan sát).

Lần này, chúng tôi muốn các biểu đồ phân tán, vì vậy chúng tôi thay đổi loại thành "phân tán":

Thí dụ

import matplotlib.pyplot as plt

health_data.plot(x ='Average_Pulse', y='Calorie_Burnage', kind='scatter')
plt.show()

Đầu ra:

Hệ số tương quan = 1

Như chúng ta đã thấy trước đó, nó tồn tại một mối quan hệ tuyến tính hoàn hảo giữa Average_Pulse và Calorie_Burnage.



Ví dụ về mối quan hệ tuyến tính phủ định hoàn hảo (Hệ số tương quan = -1)

Hệ số tương quan = -1

Chúng tôi đã vẽ dữ liệu hư cấu ở đây. Trục x thể hiện số giờ làm việc tại công việc của chúng ta trước một buổi đào tạo. Trục y là Calorie_Burnage.

Nếu chúng ta làm việc nhiều giờ hơn, chúng ta có xu hướng tiêu thụ calo thấp hơn vì chúng ta đã kiệt sức trước buổi tập.

Hệ số tương quan ở đây là -1.

Thí dụ

import pandas as pd
import matplotlib.pyplot as plt

negative_corr = {'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage': [220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)

negative_corr.plot(x ='Hours_Work_Before_Training', y='Calorie_Burnage', kind='scatter')
plt.show()

Ví dụ về Không có mối quan hệ tuyến tính (Hệ số tương quan = 0)

Hệ số tương quan = 0

Ở đây, chúng tôi đã lập biểu đồ Max_Pulse chống lại Duration từ tập dữ liệu full_health_data.

Như bạn có thể thấy, không có mối quan hệ tuyến tính giữa hai biến. Có nghĩa là thời gian đào tạo dài hơn không dẫn đến Max_Pulse cao hơn.

Hệ số tương quan ở đây là 0.

Thí dụ

import matplotlib.pyplot as plt

full_health_data.plot(x ='Duration', y='Max_Pulse', kind='scatter')
plt.show()