Các cụm dữ liệu
- Các cụm là tập hợp các dữ liệu tương tự nhau
- Clustering là một loại hình học tập không có giám sát
- Hệ số tương quan mô tả sức mạnh của một mối quan hệ.
Cụm
Các cụm là tập hợp dữ liệu dựa trên sự giống nhau.
Các điểm dữ liệu được nhóm lại với nhau trong một biểu đồ thường có thể được phân loại thành các cụm.
Trong biểu đồ bên dưới, chúng ta có thể phân biệt 3 cụm khác nhau:
Xác định các cụm
Các cụm có thể chứa nhiều thông tin có giá trị, nhưng các cụm có đủ loại hình dạng, vậy làm thế nào chúng ta có thể nhận ra chúng?
Hai phương pháp chính là:
- Sử dụng trực quan hóa
- Sử dụng thuật toán phân cụm
Phân cụm
Phân cụm là một loại Học tập không giám sát .
Clustering đang cố gắng:
- Thu thập dữ liệu tương tự theo nhóm
- Thu thập dữ liệu khác nhau trong các nhóm khác
Phương pháp phân cụm
- Phương pháp mật độ
- Phương pháp phân cấp
- Phương pháp phân vùng
- Phương pháp dựa trên lưới
Phương pháp Mật độ coi các điểm trong vùng dày đặc có nhiều điểm giống và khác nhau hơn so với các điểm trong vùng có mật độ thấp hơn. Phương pháp mật độ có độ chính xác tốt. Nó cũng có khả năng hợp nhất các cụm.
Hai thuật toán phổ biến là DBSCAN và OPTICS.
Phương pháp phân cấp tạo thành các cụm trong cấu trúc kiểu cây. Các cụm mới được hình thành bằng cách sử dụng các cụm đã hình thành trước đó.
Hai thuật toán phổ biến là CURE và BIRCH.
Phương pháp dựa trên lưới định dạng dữ liệu thành một số lượng hữu hạn ô tạo thành cấu trúc giống như lưới.
Hai thuật toán phổ biến là CLIQUE và STING
Phương pháp phân vùng phân vùng các đối tượng thành k cụm và mỗi phân vùng tạo thành một cụm.
Một thuật toán phổ biến là CLARANS.
Hệ số tương quan
Hệ số tương quan (r) mô tả độ mạnh và hướng của mối quan hệ tuyến tính và các biến x / y trên biểu đồ phân tán.
Giá trị của r luôn nằm trong khoảng từ -1 đến +1:
-1,00 | Xuống dốc hoàn hảo | Mối quan hệ tuyến tính phủ định. |
-0,70 | Xuống dốc mạnh mẽ | Mối quan hệ tuyến tính phủ định. |
-0,50 | Xuống dốc vừa phải | Mối quan hệ tuyến tính phủ định. |
-0,30 | Xuống dốc yếu | Mối quan hệ tuyến tính phủ định. |
0 | Không có mối quan hệ tuyến tính. | |
+0,30 | Lên dốc yếu | Mối quan hệ tuyến tính tích cực. |
+0,50 | Lên dốc vừa phải | Mối quan hệ tuyến tính tích cực. |
+0,70 | Lên dốc mạnh mẽ | Mối quan hệ tuyến tính tích cực. |
+1,00 | Lên dốc hoàn hảo | Mối quan hệ tuyến tính tích cực. |
Lên dốc hoàn hảo +1,00 :
Xuống dốc hoàn hảo -1,00 :
Lên dốc mạnh +0,61 :
Không có mối quan hệ :