Khoa học dữ liệu - Bảng hồi quy: R-Squared
R - Bình phương
R-Squared và R-Squared được điều chỉnh mô tả mức độ phù hợp của mô hình hồi quy tuyến tính với các điểm dữ liệu:
Giá trị của R-Squared luôn nằm trong khoảng từ 0 đến 1 (0% đến 100%).
- Giá trị R-Squared cao có nghĩa là nhiều điểm dữ liệu gần với đường hàm hồi quy tuyến tính.
- Giá trị R-Squared thấp có nghĩa là đường hàm hồi quy tuyến tính không phù hợp với dữ liệu.
Ví dụ trực quan về giá trị R thấp - Bình phương (0,00)
Mô hình hồi quy của chúng tôi cho thấy giá trị R-Squared bằng 0, có nghĩa là đường hàm hồi quy tuyến tính không phù hợp với dữ liệu.
Điều này có thể được hình dung khi chúng ta vẽ biểu đồ của hàm hồi quy tuyến tính thông qua các điểm dữ liệu của Average_Pulse và Calorie_Burnage.
Ví dụ trực quan về giá trị R - Bình phương cao (0,79)
Tuy nhiên, nếu chúng ta lập biểu đồ Duration và Calorie_Burnage , thì R-Squared sẽ tăng lên. Ở đây, chúng ta thấy rằng các điểm dữ liệu gần với đường hàm hồi quy tuyến tính:
Đây là mã bằng Python:
Thí dụ
import pandas as pd
import matplotlib.pyplot as plt
from scipy
import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Duration"]
y =
full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err =
stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
print(mymodel)
plt.scatter(x,
y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0,
xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")
plt.show()
Tóm tắt - Dự đoán Calorie_Burnage với Average_Pulse
Làm thế nào chúng ta có thể tóm tắt hàm hồi quy tuyến tính với Average_Pulse là biến giải thích?
- Hệ số 0,3296, có nghĩa là Average_Pulse có ảnh hưởng rất nhỏ đến Calorie_Burnage.
- Giá trị P cao (0,824), có nghĩa là chúng tôi không thể kết luận mối quan hệ giữa Average_Pulse và Calorie_Burnage.
- Giá trị R-Bình phương của 0, có nghĩa là đường hàm hồi quy tuyến tính không phù hợp với dữ liệu.