Khoa học Dữ liệu - Tương quan Thống kê so với Nhân quả


Tương quan không bao hàm nhân quả

Tương quan đo lường mối quan hệ bằng số giữa hai biến số.

Hệ số tương quan cao (gần bằng 1) không có nghĩa là chúng ta có thể kết luận chắc chắn về mối quan hệ thực tế giữa hai biến.

Một ví dụ cổ điển:

  • Vào mùa hè, việc bán kem ở bãi biển tăng lên
  • Đồng thời, tai nạn đuối nước cũng gia tăng

Điều này có nghĩa là việc tăng cường bán kem là nguyên nhân trực tiếp làm gia tăng tai nạn đuối nước?


Ví dụ về bãi biển bằng Python

Ở đây, chúng tôi đã xây dựng một tập dữ liệu hư cấu để bạn thử:

Thí dụ

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

Đầu ra:

Mối tương quan so với Nhân quả

Tương quan vs Nhân quả - Ví dụ về Bãi biển

Nói cách khác: chúng ta có thể dùng việc bán kem để dự đoán tai nạn đuối nước không?

Câu trả lời là - Có lẽ là không.

Có khả năng là hai biến này vô tình tương quan với nhau.

Nguyên nhân nào gây ra chết đuối sau đó?

  • Những người chưa có kinh nghiệm bơi lội
  • Sóng
  • Chuột rút
  • Rối loạn co giật
  • Thiếu sự giám sát
  • Sử dụng rượu (sai)
  • Vân vân.

Hãy để chúng tôi đảo ngược lập luận:

Hệ số tương quan thấp (gần bằng 0) có nghĩa là sự thay đổi của x không ảnh hưởng đến y?

Quay lại câu hỏi:

  • Chúng ta có thể kết luận rằng Average_Pulse không ảnh hưởng đến Calorie_Burnage vì hệ số tương quan thấp không?

Câu trả lời là không.

Có một sự khác biệt quan trọng giữa mối tương quan và quan hệ nhân quả:

  • Tương quan là một con số đo lường mức độ liên quan chặt chẽ của dữ liệu
  • Nhân quả là kết luận rằng x gây ra y.

Do đó, điều quan trọng là phải phản ánh một cách nghiêm khắc khái niệm về quan hệ nhân quả khi chúng ta thực hiện các dự đoán!