Các cụm dữ liệu

  • Các cụm là tập hợp các dữ liệu tương tự nhau
  • Clustering là một loại hình học tập không có giám sát
  • Hệ số tương quan mô tả sức mạnh của một mối quan hệ.

Cụm

Các cụm là tập hợp dữ liệu dựa trên sự giống nhau.

Các điểm dữ liệu được nhóm lại với nhau trong một biểu đồ thường có thể được phân loại thành các cụm.

Trong biểu đồ bên dưới, chúng ta có thể phân biệt 3 cụm khác nhau:


Xác định các cụm

Các cụm có thể chứa nhiều thông tin có giá trị, nhưng các cụm có đủ loại hình dạng, vậy làm thế nào chúng ta có thể nhận ra chúng?

Hai phương pháp chính là:

  • Sử dụng trực quan hóa
  • Sử dụng thuật toán phân cụm

Phân cụm

Phân cụm là một loại Học tập không giám sát .

Clustering đang cố gắng:

  • Thu thập dữ liệu tương tự theo nhóm
  • Thu thập dữ liệu khác nhau trong các nhóm khác

Phương pháp phân cụm

  • Phương pháp mật độ
  • Phương pháp phân cấp
  • Phương pháp phân vùng
  • Phương pháp dựa trên lưới

Phương pháp Mật độ coi các điểm trong vùng dày đặc có nhiều điểm giống và khác nhau hơn so với các điểm trong vùng có mật độ thấp hơn. Phương pháp mật độ có độ chính xác tốt. Nó cũng có khả năng hợp nhất các cụm.
Hai thuật toán phổ biến là DBSCAN và OPTICS.

Phương pháp phân cấp tạo thành các cụm trong cấu trúc kiểu cây. Các cụm mới được hình thành bằng cách sử dụng các cụm đã hình thành trước đó.
Hai thuật toán phổ biến là CURE và BIRCH.

Phương pháp dựa trên lưới định dạng dữ liệu thành một số lượng hữu hạn ô tạo thành cấu trúc giống như lưới.
Hai thuật toán phổ biến là CLIQUE và STING

Phương pháp phân vùng phân vùng các đối tượng thành k cụm và mỗi phân vùng tạo thành một cụm.
Một thuật toán phổ biến là CLARANS.


Hệ số tương quan

Hệ số tương quan (r) mô tả độ mạnh và hướng của mối quan hệ tuyến tính và các biến x / y trên biểu đồ phân tán.

Giá trị của r luôn nằm trong khoảng từ -1 đến +1:

-1,00Xuống dốc hoàn hảoMối quan hệ tuyến tính phủ định.
-0,70Xuống dốc mạnh mẽMối quan hệ tuyến tính phủ định.
-0,50Xuống dốc vừa phảiMối quan hệ tuyến tính phủ định.
-0,30Xuống dốc yếuMối quan hệ tuyến tính phủ định.
0Không có mối quan hệ tuyến tính.
+0,30Lên dốc yếuMối quan hệ tuyến tính tích cực.
+0,50Lên dốc vừa phảiMối quan hệ tuyến tính tích cực.
+0,70Lên dốc mạnh mẽMối quan hệ tuyến tính tích cực.
+1,00Lên dốc hoàn hảoMối quan hệ tuyến tính tích cực.

Lên dốc hoàn hảo +1,00 :

Xuống dốc hoàn hảo -1,00 :

'

Lên dốc mạnh +0,61 :

Không có mối quan hệ :