Phân phối Zipf
Các biến dạng zipf được sử dụng để lấy mẫu dữ liệu dựa trên luật zipf.
Định luật Zipf: Trong một tập hợp, số hạng chung thứ n bằng 1 / n lần số hạng chung nhất. Ví dụ: từ phổ biến thứ 5 trong tiếng Anh đã xuất hiện gần 1/5 lần từ được sử dụng nhiều nhất.
Nó có hai tham số:
a
- tham số phân phối.
size
- Hình dạng của mảng được trả về.
Thí dụ
Vẽ ra một mẫu cho phân phối zipf với tham số phân phối 2 với kích thước 2x3:
from numpy import random
x = random.zipf(a=2, size=(2, 3))
print(x)
Hình ảnh hóa phân phối Zipf
Lấy mẫu 1000 điểm nhưng chỉ vẽ biểu đồ có giá trị <10 để có biểu đồ có ý nghĩa hơn.
Thí dụ
from numpy import random
import matplotlib.pyplot as plt
import seaborn as sns
x = random.zipf(a=2, size=1000)
sns.distplot(x[x<10], kde=False)
plt.show()