Chương 1: t ổng quan về kỹ thuật khám phá tri thức và khai phá d ữ liệu

tải về 235.12 Kb.

Chế độ xem pdf

trang	6/9
Chuyển đổi dữ liệu	24.05.2022
Kích	235.12 Kb.
	#52091

1 2 3 4 5 6 7 8 9

Chuong 1 Tong quandata mining

1.4.3. Khai thác m ẫu tuần tự (Sequential / Temporal patterns)
1.4.4. Phân nhóm- đoạn (Clustering / Segmentation)

1.4.2.

Lu
ật kết hợp (Association Rules)
Lu
ật kết hợp là dạng luật biểu diễn tri thức ở dạng tương đối đơn giản. Mục tiêu
c
ủa phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu
trong CSDL. M
ẫu đầu ra của giải thuật KPDL là tập luật kết hợp tìm được.
Tuy lu
ật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý nghĩa.
Thông tin mà d
ạng luật này đem lại rất có lợi trong các hệ hỗ trợ ra quyết định. Tìm
ki
ếm được những luật kết hợp đặc trưng và mang nhiều thông tin từ CSDL tác nghiệp
là m
ột trong những hướng tiếp cận chính của lĩnh vực khai phá dữ liệu.
1.4.3.

Khai thác m
ẫu tuần tự (Sequential / Temporal patterns)
Tương tự như khai thác luật kết hợp nhưng có thêm tính thứ tự và tính thời gian.
M
ột luật mô tả mẫu tuần tự có dạng tiêu biểu X -> Y phản ánh sự xuất hiện của biến cố
X s
ẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Hướng tiếp cận này có tính dự báo cao.
1.4.4.

Phân nhóm-
đoạn (Clustering / Segmentation)
M
ục tiêu chính của việc phân nhóm dữ liệu là nhóm các đối tượng tương tự nhau
trong t
ập dữ liệu vào các nhóm sao cho mức độ tương tự giữa các đối tượng trong cùng
m
ột nhóm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các nhóm khác
nhau là nh
ỏ nhất. Các nhóm có thể tách nhau hoặc phân cấp gối lên nhau và số lượng
các nhóm là chưa biết trước. Một đối tượng có thể vừa thuộc nhóm này, nhưng cũng có

14
th
ể vừa thuộc nhóm khác. Không giống như phân lớp dữ liệu, phân nhóm dữ liệu
không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi
phân nhóm d
ữ liệu là một cách học bằng quan sát (learning by observation), trong khi
phân l
ớp dữ liệu là học bằng ví dụ (learning by example). Trong phương pháp này bạn
s
ẽ không thể biết kết quả các nhóm thu được sẽ như thế nào khi bắt đầu quá trình. Vì
v
ậy, thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá các nhóm thu
được. Phân nhóm còn được gọi là học không có giám sát (unsupervised learning). Phân
nhóm d
ữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân
đoạn khách hàng, nhận dạng mẫu, phân loại trang Web, … Ngoài ra phân nhóm dữ liệu
còn có th
ể được sử dụng như một bước tiền xử lý cho các thuật toán KPDL khác.

tải về 235.12 Kb.

Chia sẻ với bạn bè của bạn:

1 2 3 4 5 6 7 8 9