Khoa học dữ liệu - Phương sai thống kê
Phương sai
Phương sai là một con số khác cho biết mức độ dàn trải của các giá trị.
Trên thực tế, nếu bạn lấy căn bậc hai của phương sai, bạn sẽ có được độ lệch chuẩn. Hoặc ngược lại, nếu bạn nhân độ lệch chuẩn với chính nó, bạn sẽ có được phương sai!
Trước tiên, chúng tôi sẽ sử dụng tập dữ liệu với 10 quan sát để đưa ra ví dụ về cách chúng tôi có thể tính toán phương sai:
Khoảng thời gian | Average_Pulse | Max_Pulse | Calorie_Burnage | Hours_Work | Hours_Sleep |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | số 8 | 7 |
45 | 95 | 130 | 270 | số 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | số 8 |
60 | 110 | 145 | 300 | 7 | số 8 |
60 | 115 | 145 | 310 | số 8 | số 8 |
75 | 120 | 150 | 320 | 0 | số 8 |
75 | 125 | 150 | 330 | số 8 | số 8 |
Phương sai thường được biểu thị bằng ký hiệu Hình vuông Sigma: σ ^ 2
Bước 1 để tính phương sai: Tìm trung bình
Chúng tôi muốn tìm phương sai của Average_Pulse.
1. Tìm giá trị trung bình:
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
Giá trị trung bình là 102,5
Bước 2: Đối với mỗi giá trị - Tìm sự khác biệt so với giá trị trung bình
2. Tìm sự khác biệt so với giá trị trung bình cho mỗi giá trị:
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
Bước 3: Đối với mỗi sự khác biệt - Tìm giá trị bình phương
3. Tìm giá trị bình phương cho mỗi hiệu số:
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
Lưu ý: Chúng ta phải bình phương các giá trị để có được tổng chênh lệch.
Bước 4: Phương sai là số trung bình của các giá trị bình phương này
4. Tính tổng các giá trị bình phương và tìm giá trị trung bình:
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
Phương sai là 206,25.
Sử dụng Python để tìm sự khác biệt của dữ liệu_cung cấp
Chúng ta có thể sử dụng var()
hàm từ Numpy để tìm phương sai (hãy nhớ rằng bây giờ chúng ta sử dụng tập dữ liệu đầu tiên với 10 quan sát):
Thí dụ
import numpy as np
var = np.var(health_data)
print(var)
Đầu ra:
Sử dụng Python để tìm phương sai của toàn bộ tập dữ liệu
Ở đây, chúng tôi tính toán phương sai cho mỗi cột cho toàn bộ tập dữ liệu:
Thí dụ
import numpy as np
var_full = np.var(full_health_data)
print(var_full)
Đầu ra: