Học máy - Độ lệch chuẩn
Độ lệch chuẩn là gì?
Độ lệch chuẩn là một con số mô tả mức độ trải rộng của các giá trị.
Độ lệch chuẩn thấp có nghĩa là hầu hết các con số đều gần với giá trị trung bình (trung bình).
Độ lệch chuẩn cao có nghĩa là các giá trị được trải ra trên một phạm vi rộng hơn.
Ví dụ: Lần này chúng ta đã đăng ký tốc độ của 7 ô tô:
speed = [86,87,88,86,87,85,86]
Độ lệch chuẩn là:
0.9
Có nghĩa là hầu hết các giá trị nằm trong phạm vi 0,9 từ giá trị trung bình, là 86,4.
Hãy để chúng tôi làm điều tương tự với lựa chọn các số có phạm vi rộng hơn:
speed = [32,111,138,28,59,77,97]
Độ lệch chuẩn là:
37.85
Có nghĩa là hầu hết các giá trị nằm trong phạm vi 37,85 từ giá trị trung bình, là 77,4.
Như bạn có thể thấy, độ lệch chuẩn cao hơn cho thấy rằng các giá trị được trải ra trên một phạm vi rộng hơn.
Mô-đun NumPy có một phương pháp để tính toán độ lệch chuẩn:
Thí dụ
Sử dụng phương pháp NumPy std()
để tìm độ lệch chuẩn:
import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)
Thí dụ
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
Phương sai
Phương sai là một con số khác cho biết mức độ dàn trải của các giá trị.
Trong thực tế, nếu bạn lấy căn bậc hai của phương sai, bạn sẽ có được độ lệch chuẩn!
Hoặc ngược lại, nếu bạn nhân độ lệch chuẩn với chính nó, bạn sẽ có được phương sai!
Để tính toán phương sai, bạn phải làm như sau:
1. Tìm giá trị trung bình:
(32+111+138+28+59+77+97) / 7 = 77.4
2. Đối với mỗi giá trị: tìm sự khác biệt so với giá trị trung bình:
32 - 77.4 = -45.4
111 - 77.4 = 33.6
138
- 77.4 = 60.6
28 - 77.4 = -49.4
59 - 77.4 = -18.4
77
- 77.4 = - 0.4
97 - 77.4 = 19.6
3. Đối với mỗi hiệu số: tìm giá trị bình phương:
(-45.4)2 = 2061.16
(33.6)2 = 1128.96
(60.6)2 = 3672.36
(-49.4)2 = 2440.36
(-18.4)2 = 338.56
(- 0.4)2 = 0.16
(19.6)2 = 384.16
4. Phương sai là số trung bình của các khác biệt bình phương này:
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16)
/ 7 = 1432.2
May mắn thay, NumPy có một phương pháp để tính toán phương sai:
Thí dụ
Sử dụng phương pháp NumPy var()
để tìm phương sai:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)
Độ lệch chuẩn
Như chúng ta đã học, công thức để tìm độ lệch chuẩn là căn bậc hai của phương sai:
√1432.25 = 37.85
Hoặc, như trong ví dụ trước, sử dụng NumPy để tính độ lệch chuẩn:
Thí dụ
Sử dụng phương pháp NumPy std()
để tìm độ lệch chuẩn:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
Ký hiệu
Độ lệch Chuẩn thường được biểu thị bằng ký hiệu Sigma: σ
Phương sai thường được biểu thị bằng ký hiệu Hình vuông Sigma: σ 2
Tóm tắt chương
Độ lệch chuẩn và Phương sai là những thuật ngữ thường được sử dụng trong Học máy, vì vậy điều quan trọng là phải hiểu cách lấy chúng và khái niệm đằng sau chúng.