Khoa học dữ liệu - Bảng hồi quy: P-Value


"Thống kê Phần Hệ số" trong Bảng hồi quy

Bảng hồi quy - Thống kê hệ số

Bây giờ, chúng tôi muốn kiểm tra xem các hệ số từ hàm hồi quy tuyến tính có tác động đáng kể đến biến phụ thuộc (Calorie_Burnage) hay không.

Điều này có nghĩa là chúng tôi muốn chứng minh rằng nó tồn tại mối quan hệ giữa Average_Pulse và Calorie_Burnage, bằng cách sử dụng các bài kiểm tra thống kê.

Có bốn thành phần giải thích thống kê của các hệ số:

  • std err là viết tắt của Standard Error
  • t là "giá trị t" của các hệ số
  • P> | t | được gọi là "giá trị P"
  •  [0,025 0,975] đại diện cho khoảng tin cậy của các hệ số

Chúng ta sẽ tập trung vào việc tìm hiểu "P-value" trong mô-đun này.


Giá trị P

Giá trị P là một số thống kê để kết luận xem có mối quan hệ giữa Average_Pulse và Calorie_Burnage hay không.

Chúng tôi kiểm tra xem giá trị thực của hệ số có bằng 0 hay không (không có mối quan hệ). Kiểm tra thống kê cho điều này được gọi là kiểm tra giả thuyết.

  • Giá trị P thấp (<0,05) có nghĩa là hệ số có khả năng không bằng 0.
  • Giá trị P cao (> 0,05) có nghĩa là chúng ta không thể kết luận rằng biến giải thích ảnh hưởng đến biến phụ thuộc (ở đây: nếu Average_Pulse ảnh hưởng đến Calorie_Burnage).
  • Giá trị P cao còn được gọi là giá trị P không đáng kể.

Kiểm tra giả thuyết

Kiểm tra giả thuyết là một thủ tục thống kê để kiểm tra xem kết quả của bạn có hợp lệ hay không.

Trong ví dụ của chúng tôi, chúng tôi đang kiểm tra xem hệ số thực của Average_Pulse và hệ số chặn có bằng 0 hay không.

Kiểm tra giả thuyết có hai phát biểu. Giả thuyết vô hiệu và giả thuyết thay thế.

  • Giả thuyết rỗng có thể được viết ngắn gọn là H0
  • Giả thuyết thay thế có thể được viết ngắn gọn là HA

Được viết bằng toán học:

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

Dấu ≠ có nghĩa là "không bằng"


Kiểm tra giả thuyết và giá trị P

Giả thuyết vô hiệu có thể bị bác bỏ hoặc không.

Nếu chúng tôi bác bỏ giả thuyết rỗng, chúng tôi kết luận rằng nó tồn tại mối quan hệ giữa Average_Pulse và Calorie_Burnage. Giá trị P được sử dụng cho kết luận này.

Ngưỡng phổ biến của giá trị P là 0,05.

Lưu ý: Giá trị P là 0,05 có nghĩa là 5% số lần, chúng tôi sẽ bác bỏ giả thuyết vô hiệu một cách sai lầm. Có nghĩa là chúng ta chấp nhận rằng 5% số lần, chúng ta có thể đã kết thúc một mối quan hệ một cách sai lầm.

Nếu giá trị P thấp hơn 0,05, chúng ta có thể bác bỏ giả thuyết rỗng và kết luận rằng nó tồn tại mối quan hệ giữa các biến.

Tuy nhiên, giá trị P của Average_Pulse là 0,824. Vì vậy, chúng tôi không thể kết luận mối quan hệ giữa Average_Pulse và Calorie_Burnage.

Có nghĩa là có 82,4% khả năng hệ số thực của Average_Pulse bằng 0.

Hệ số chặn được sử dụng để điều chỉnh khả năng dự đoán chính xác hơn của hàm hồi quy. Do đó, việc giải thích giá trị P của điểm chặn là không phổ biến.