Khoa học dữ liệu - Bảng hồi quy: R-Squared


R - Bình phương

R-Squared và R-Squared được điều chỉnh mô tả mức độ phù hợp của mô hình hồi quy tuyến tính với các điểm dữ liệu:

Bảng hồi quy - Thống kê hệ số

Giá trị của R-Squared luôn nằm trong khoảng từ 0 đến 1 (0% đến 100%).

  • Giá trị R-Squared cao có nghĩa là nhiều điểm dữ liệu gần với đường hàm hồi quy tuyến tính.
  • Giá trị R-Squared thấp có nghĩa là đường hàm hồi quy tuyến tính không phù hợp với dữ liệu.

Ví dụ trực quan về giá trị R thấp - Bình phương (0,00)

Mô hình hồi quy của chúng tôi cho thấy giá trị R-Squared bằng 0, có nghĩa là đường hàm hồi quy tuyến tính không phù hợp với dữ liệu.

Điều này có thể được hình dung khi chúng ta vẽ biểu đồ của hàm hồi quy tuyến tính thông qua các điểm dữ liệu của Average_Pulse và Calorie_Burnage.

R thấp - Giá trị bình phương (0,00)

Ví dụ trực quan về giá trị R - Bình phương cao (0,79)

Tuy nhiên, nếu chúng ta lập biểu đồ DurationCalorie_Burnage , thì R-Squared sẽ tăng lên. Ở đây, chúng ta thấy rằng các điểm dữ liệu gần với đường hàm hồi quy tuyến tính:

R thấp - Giá trị bình phương (0,00)

Đây là mã bằng Python:

Thí dụ

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

Tóm tắt - Dự đoán Calorie_Burnage với Average_Pulse

Làm thế nào chúng ta có thể tóm tắt hàm hồi quy tuyến tính với Average_Pulse là biến giải thích?

  • Hệ số 0,3296, có nghĩa là Average_Pulse có ảnh hưởng rất nhỏ đến Calorie_Burnage.
  • Giá trị P cao (0,824), có nghĩa là chúng tôi không thể kết luận mối quan hệ giữa Average_Pulse và Calorie_Burnage.
  • Giá trị R-Bình phương của 0, có nghĩa là đường hàm hồi quy tuyến tính không phù hợp với dữ liệu.