Khoa học dữ liệu - Phương sai thống kê


Phương sai

Phương sai là một con số khác cho biết mức độ dàn trải của các giá trị.

Trên thực tế, nếu bạn lấy căn bậc hai của phương sai, bạn sẽ có được độ lệch chuẩn. Hoặc ngược lại, nếu bạn nhân độ lệch chuẩn với chính nó, bạn sẽ có được phương sai!

Trước tiên, chúng tôi sẽ sử dụng tập dữ liệu với 10 quan sát để đưa ra ví dụ về cách chúng tôi có thể tính toán phương sai:

Khoảng thời gian Average_Pulse Max_Pulse Calorie_Burnage Hours_Work Hours_Sleep
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 số 8 7
45 95 130 270 số 8 7
45 100 140 280 0 7
60 105 140 290 7 số 8
60 110 145 300 7 số 8
60 115 145 310 số 8 số 8
75 120 150 320 0 số 8
75 125 150 330 số 8 số 8

Phương sai thường được biểu thị bằng ký hiệu Hình vuông Sigma: σ ^ 2


Bước 1 để tính phương sai: Tìm trung bình

Chúng tôi muốn tìm phương sai của Average_Pulse.

1. Tìm giá trị trung bình:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

Giá trị trung bình là 102,5


Bước 2: Đối với mỗi giá trị - Tìm sự khác biệt so với giá trị trung bình

2. Tìm sự khác biệt so với giá trị trung bình cho mỗi giá trị:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Bước 3: Đối với mỗi sự khác biệt - Tìm giá trị bình phương

3. Tìm giá trị bình phương cho mỗi hiệu số:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Lưu ý: Chúng ta phải bình phương các giá trị để có được tổng chênh lệch.



Bước 4: Phương sai là số trung bình của các giá trị bình phương này

4. Tính tổng các giá trị bình phương và tìm giá trị trung bình:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

Phương sai là 206,25.


Sử dụng Python để tìm sự khác biệt của dữ liệu_cung cấp

Chúng ta có thể sử dụng var()hàm từ Numpy để tìm phương sai (hãy nhớ rằng bây giờ chúng ta sử dụng tập dữ liệu đầu tiên với 10 quan sát):

Thí dụ

import numpy as np

var = np.var(health_data)
print(var)

Đầu ra:

Phương sai

Sử dụng Python để tìm phương sai của toàn bộ tập dữ liệu

Ở đây, chúng tôi tính toán phương sai cho mỗi cột cho toàn bộ tập dữ liệu:

Thí dụ

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

Đầu ra:

Phương sai