Học máy - Phân phối dữ liệu thông thường
Phân phối dữ liệu bình thường
Trong chương trước, chúng ta đã học cách tạo một mảng hoàn toàn ngẫu nhiên, có kích thước cho trước và nằm giữa hai giá trị đã cho.
Trong chương này, chúng ta sẽ học cách tạo một mảng trong đó các giá trị tập trung xung quanh một giá trị nhất định.
Trong lý thuyết xác suất, loại phân phối dữ liệu này được gọi là phân phối dữ liệu chuẩn , hoặc phân phối dữ liệu Gaussian , theo tên nhà toán học Carl Friedrich Gauss, người đã đưa ra công thức của phân phối dữ liệu này.
Thí dụ
Phân phối dữ liệu chuẩn thông thường:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.normal(5.0, 1.0, 100000)
plt.hist(x, 100)
plt.show()
Kết quả:
Lưu ý: Đồ thị phân phối chuẩn còn được gọi là đường cong hình chuông vì nó có hình dạng đặc trưng của một cái chuông.
Biểu đồ được giải thích
Chúng tôi sử dụng mảng từ numpy.random.normal()
phương thức, với 100000 giá trị, để vẽ biểu đồ có 100 thanh.
Chúng tôi chỉ định rằng giá trị trung bình là 5,0 và độ lệch chuẩn là 1,0.
Có nghĩa là các giá trị nên được tập trung vào khoảng 5,0 và hiếm khi xa hơn 1,0 so với giá trị trung bình.
Và như bạn có thể thấy từ biểu đồ, hầu hết các giá trị đều nằm trong khoảng 4,0 đến 6,0, với giá trị cao nhất xấp xỉ 5,0.