Phân phối Zipf


Các biến dạng zipf được sử dụng để lấy mẫu dữ liệu dựa trên luật zipf.

Định luật Zipf: Trong một tập hợp, số hạng chung thứ n bằng 1 / n lần số hạng chung nhất. Ví dụ: từ phổ biến thứ 5 trong tiếng Anh đã xuất hiện gần 1/5 lần từ được sử dụng nhiều nhất.

Nó có hai tham số:

a - tham số phân phối.

size - Hình dạng của mảng được trả về.

Thí dụ

Vẽ ra một mẫu cho phân phối zipf với tham số phân phối 2 với kích thước 2x3:

from numpy import random

x = random.zipf(a=2, size=(2, 3))

print(x)

Hình ảnh hóa phân phối Zipf

Lấy mẫu 1000 điểm nhưng chỉ vẽ biểu đồ có giá trị <10 để có biểu đồ có ý nghĩa hơn.

Thí dụ

from numpy import random
import matplotlib.pyplot as plt
import seaborn as sns

x = random.zipf(a=2, size=1000)
sns.distplot(x[x<10], kde=False)

plt.show()

Kết quả