Khoa học Dữ liệu - Tương quan Thống kê
Tương quan
Tương quan đo lường mối quan hệ giữa hai biến.
Chúng tôi đã đề cập rằng một hàm có mục đích để dự đoán một giá trị, bằng cách chuyển đổi đầu vào (x) thành đầu ra (f (x)). Chúng ta cũng có thể nói rằng một hàm sử dụng mối quan hệ giữa hai biến để dự đoán.
Hệ số tương quan
Hệ số tương quan đo lường mối quan hệ giữa hai biến.
Hệ số tương quan không bao giờ được nhỏ hơn -1 hoặc cao hơn 1.
- 1 = có một mối quan hệ tuyến tính hoàn hảo giữa các biến (như Average_Pulse so với Calorie_Burnage)
- 0 = không có mối quan hệ tuyến tính giữa các biến
- -1 = có một mối quan hệ tuyến tính âm hoàn hảo giữa các biến (ví dụ: Làm việc ít giờ hơn, dẫn đến tiêu hao calo cao hơn trong một buổi tập)
Ví dụ về mối quan hệ tuyến tính hoàn hảo (Hệ số tương quan = 1)
Chúng tôi sẽ sử dụng scatterplot để trực quan hóa mối quan hệ giữa Average_Pulse và Calorie_Burnage (chúng tôi đã sử dụng tập dữ liệu nhỏ của đồng hồ thể thao với 10 quan sát).
Lần này, chúng tôi muốn các biểu đồ phân tán, vì vậy chúng tôi thay đổi loại thành "phân tán":
Thí dụ
import matplotlib.pyplot as plt
health_data.plot(x ='Average_Pulse', y='Calorie_Burnage',
kind='scatter')
plt.show()
Đầu ra:
Như chúng ta đã thấy trước đó, nó tồn tại một mối quan hệ tuyến tính hoàn hảo giữa Average_Pulse và Calorie_Burnage.
Ví dụ về mối quan hệ tuyến tính phủ định hoàn hảo (Hệ số tương quan = -1)
Chúng tôi đã vẽ dữ liệu hư cấu ở đây. Trục x thể hiện số giờ làm việc tại công việc của chúng ta trước một buổi đào tạo. Trục y là Calorie_Burnage.
Nếu chúng ta làm việc nhiều giờ hơn, chúng ta có xu hướng tiêu thụ calo thấp hơn vì chúng ta đã kiệt sức trước buổi tập.
Hệ số tương quan ở đây là -1.
Thí dụ
import pandas as pd
import matplotlib.pyplot as plt
negative_corr =
{'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage':
[220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)
negative_corr.plot(x ='Hours_Work_Before_Training',
y='Calorie_Burnage', kind='scatter')
plt.show()
Ví dụ về Không có mối quan hệ tuyến tính (Hệ số tương quan = 0)
Ở đây, chúng tôi đã lập biểu đồ Max_Pulse chống lại Duration từ tập dữ liệu full_health_data.
Như bạn có thể thấy, không có mối quan hệ tuyến tính giữa hai biến. Có nghĩa là thời gian đào tạo dài hơn không dẫn đến Max_Pulse cao hơn.
Hệ số tương quan ở đây là 0.
Thí dụ
import matplotlib.pyplot as plt
full_health_data.plot(x ='Duration', y='Max_Pulse',
kind='scatter')
plt.show()