Khoa học Dữ liệu - Độ lệch Chuẩn Thống kê


Độ lệch chuẩn

Độ lệch chuẩn là một con số mô tả mức độ trải rộng của các quan sát.

Độ lệch chuẩn

Một hàm toán học sẽ gặp khó khăn trong việc dự đoán các giá trị chính xác, nếu các quan sát được "dàn trải". Độ lệch chuẩn là một thước đo của độ không đảm bảo.

Độ lệch chuẩn thấp có nghĩa là hầu hết các con số đều gần với giá trị trung bình (trung bình).

Độ lệch chuẩn cao có nghĩa là các giá trị được trải ra trên một phạm vi rộng hơn.

Độ lệch Chuẩn thường được biểu thị bằng ký hiệu Sigma: σ

Chúng ta có thể sử dụng std()hàm từ Numpy để tìm độ lệch chuẩn của một biến:

Thí dụ

import numpy as np

std = np.std(full_health_data)
print(std)

Đầu ra:

Độ lệch chuẩn

Những con số này có ý nghĩa gì?


Hệ số biến thiên

Hệ số biến thiên được sử dụng để biết độ lệch chuẩn lớn như thế nào.

Về mặt toán học, hệ số biến thiên được định nghĩa là:

Coefficient of Variation = Standard Deviation / Mean

 Chúng ta có thể làm điều này bằng Python nếu chúng ta tiếp tục với đoạn mã sau:

Thí dụ

import numpy as np

cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)

Đầu ra:

Hệ số biến thiên

Chúng tôi thấy rằng các biến Duration, Calorie_Burnage và Hours_Work có Độ lệch chuẩn cao so với Max_Pulse, Average_Pulse và Hours_Sleep.