Xây dựng kho dữ liệu nâng cao hiệu quả quản lý VÀ BÁo cáo phân tích thống kê cho công ty âm nhạc chinook

tải về 2.13 Mb.

trang	7/14
Chuyển đổi dữ liệu	17.01.2024
Kích	2.13 Mb.
	#56351

1 2 3 4 5 6 7 8 9 10 ... 14

kpdl

3.2.2. Thuật toán Phân cụm K-means a. Định nghĩa

3.2.Thuật toán phân cụm
3.2.1. Tổng quan về Phân cụm dữ liệu
Phân cụm dữ liệu là một trong những hướng nghiên cứu trọng tâm của lĩnh vực khai phá dữ liệu (Data Mining) và lĩnh vực khám phá tri thức.
a. Định nghĩa Phân cụm dữ liệu
Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm tương tự với nhau và các phần tử trong các cụm khác nhau sẽ phi tương tự với nhau. Thuật toán này tìm cách phân cụm các đối tượng đã cho vào k cụm (k là số cụm được xác định trước, k nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm cụm (centroid) là nhỏ nhất. Về nguyên lý, có n đối tượng, mỗi đối tượng có m thuộc tính, các đối tượng được phân chia thành k cụm dựa trên các thuộc tính của đối tượng bằng việc áp dụng thuật toán K-means.

b. Khoảng cách Euclide
Phương pháp phân cụm dữ liệu thực hiện dựa trên khoảng cách Euclid là khoảng cách nhỏ nhất từ đối tượng đến phần tử trọng tâm của các cụm. Phần tử trọng tâm của cụm được xác định bằng giá trị trung bình các phần tử trong cụm.
Trong đó d (x, y): Khoảng cách Euclide từ xi đến yi
xi: Thuộc tính thứ i của x
yi: Thuộc tính thứ i của phần tử trọng tâm y
c. Các bước Phân cụm dữ liệu
- Xây dựng hàm tính độ tương tự.
- Xây dựng các tiêu chuẩn phân cụm.
- Xây dựng mô hình cho cấu trúc cụm dữ liệu.
- Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo.
- Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm
3.2.2. Thuật toán Phân cụm K-means
a. Định nghĩa
Là thuật toán phân cụm phẳng trong đó tâm của mỗi cụm là giá trị trung bình của tất cả các phần tử trong cụm.
Trong thuật toán k-Means mỗi cụm dữ liệu được đặc trưng bởi một tâm (centroid). Tâm là điểm đại diện nhất cho một cụm và có giá trị bằng trung bình của toàn bộ các quan sát nằm trong cụm. Chúng ta sẽ dựa vào khoảng cách từ mỗi quan sát tới các tâm để xác định nhãn cho chúng trùng thuộc về tâm gần nhất. Ban đầu thuật toán sẽ khởi tạo ngẫu nhiên một số lượng xác định trước tâm cụm. Sau đó tiến hành xác định nhãn cho từng điểm dữ liệu và tiếp tục cập nhật lại tâm cụm. Thuật toán sẽ dừng cho tới khi toàn bộ các điểm dữ liệu được phân về đúng cụm hoặc số lượt cập nhật tâm chạm ngưỡng.

tải về 2.13 Mb.

Chia sẻ với bạn bè của bạn:

1 2 3 4 5 6 7 8 9 10 ... 14