Học máy - Lô phân tán
Lô phân tán
Biểu đồ phân tán là một biểu đồ trong đó mỗi giá trị trong tập dữ liệu được biểu thị bằng một dấu chấm.
Mô-đun Matplotlib có một phương pháp để vẽ biểu đồ phân tán, nó cần hai mảng có cùng độ dài, một mảng cho các giá trị của trục x và một cho các giá trị của trục y:
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
Mảng x
biểu thị tuổi của từng chiếc xe.
Mảng y
biểu thị tốc độ của từng ô tô.
Thí dụ
Sử dụng scatter()
phương pháp để vẽ một biểu đồ phân tán:
import matplotlib.pyplot as plt
x =
[5,7,8,7,2,17,2,9,4,11,12,9,6]
y =
[99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()
Kết quả:
Giải thích lô phân tán
Trục x biểu thị độ tuổi và trục y biểu thị tốc độ.
Kết quả ta có thể đọc được từ sơ đồ là hai ô tô nhanh nhất đều 2 tuổi và ô tô chậm nhất là 12 tuổi.
Lưu ý: Có vẻ như xe càng mới thì lái càng nhanh, nhưng đó có thể là sự trùng hợp ngẫu nhiên, sau cùng thì chúng tôi chỉ đăng ký 13 chiếc.
Phân phối dữ liệu ngẫu nhiên
Trong Học máy, các tập dữ liệu có thể chứa hàng nghìn hoặc thậm chí hàng triệu giá trị.
Bạn có thể không có dữ liệu thế giới thực khi bạn đang thử nghiệm một thuật toán, bạn có thể phải sử dụng các giá trị được tạo ngẫu nhiên.
Như chúng ta đã học trong chương trước, mô-đun NumPy có thể giúp chúng ta điều đó!
Chúng ta hãy tạo hai mảng đều chứa 1000 số ngẫu nhiên từ một phân phối dữ liệu chuẩn.
Mảng đầu tiên sẽ có giá trị trung bình được đặt thành 5,0 với độ lệch chuẩn là 1,0.
Mảng thứ hai sẽ có giá trị trung bình được đặt thành 10.0 với độ lệch chuẩn là 2.0:
Thí dụ
Một biểu đồ phân tán với 1000 chấm:
import numpy
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0,
1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)
plt.scatter(x, y)
plt.show()
Kết quả:
Giải thích lô phân tán
Chúng ta có thể thấy rằng các dấu chấm tập trung xung quanh giá trị 5 trên trục x và 10 trên trục y.
Chúng ta cũng có thể thấy rằng mức chênh lệch trên trục y rộng hơn trên trục x.