Học máy - Phân phối dữ liệu
Phân phối dữ liệu
Trước đó trong hướng dẫn này, chúng tôi đã làm việc với một lượng rất nhỏ dữ liệu trong các ví dụ của chúng tôi, chỉ để hiểu các khái niệm khác nhau.
Trong thế giới thực, các tập dữ liệu lớn hơn nhiều, nhưng có thể khó thu thập dữ liệu trong thế giới thực, ít nhất là ở giai đoạn đầu của một dự án.
Làm cách nào để chúng ta có được Tập dữ liệu lớn?
Để tạo tập dữ liệu lớn để thử nghiệm, chúng tôi sử dụng mô-đun Python NumPy, đi kèm với một số phương pháp để tạo tập dữ liệu ngẫu nhiên, ở bất kỳ kích thước nào.
Thí dụ
Tạo một mảng chứa 250 phao ngẫu nhiên từ 0 đến 5:
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
Biểu đồ
Để trực quan hóa tập dữ liệu, chúng tôi có thể vẽ biểu đồ với dữ liệu chúng tôi đã thu thập.
Chúng tôi sẽ sử dụng mô-đun Python Matplotlib để vẽ biểu đồ.
Tìm hiểu về mô-đun Matplotlib trong Hướng dẫn Matplotlib của chúng tôi .
Thí dụ
Vẽ biểu đồ:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
Kết quả:
Biểu đồ được giải thích
Chúng tôi sử dụng mảng từ ví dụ trên để vẽ một biểu đồ có 5 thanh.
Thanh đầu tiên biểu thị số lượng giá trị trong mảng từ 0 đến 1.
Thanh thứ hai đại diện cho bao nhiêu giá trị từ 1 đến 2.
Vân vân.
Cho chúng tôi kết quả này:
- 52 giá trị nằm trong khoảng từ 0 đến 1
- 48 giá trị nằm trong khoảng từ 1 đến 2
- 49 giá trị nằm trong khoảng từ 2 đến 3
- 51 giá trị nằm trong khoảng từ 3 đến 4
- 50 giá trị nằm trong khoảng từ 4 đến 5
Lưu ý: Các giá trị của mảng là số ngẫu nhiên và sẽ không hiển thị cùng một kết quả trên máy tính của bạn.
Phân phối dữ liệu lớn
Một mảng chứa 250 giá trị không được coi là quá lớn, nhưng bây giờ bạn đã biết cách tạo một tập hợp giá trị ngẫu nhiên và bằng cách thay đổi các tham số, bạn có thể tạo tập dữ liệu lớn như bạn muốn.
Thí dụ
Tạo một mảng với 100000 số ngẫu nhiên và hiển thị chúng bằng biểu đồ có 100 thanh:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()