Chương 1: t ổng quan về kỹ thuật khám phá tri thức và khai phá d ữ liệu



tải về 235.12 Kb.
Chế độ xem pdf
trang6/9
Chuyển đổi dữ liệu24.05.2022
Kích235.12 Kb.
#52091
1   2   3   4   5   6   7   8   9
Chuong 1 Tong quandata mining

1.4.2.
 
Lu
ật kết hợp (Association Rules) 
Lu
ật kết hợp là dạng luật biểu diễn tri thức ở dạng tương đối đơn giản. Mục tiêu 
c
ủa phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu 
trong CSDL. M
ẫu đầu ra của giải thuật KPDL là tập luật kết hợp tìm được.
Tuy lu
ật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý nghĩa. 
Thông tin mà d
ạng luật này đem lại rất có lợi trong các hệ hỗ trợ ra quyết định. Tìm 
ki
ếm được những luật kết hợp đặc trưng và mang nhiều thông tin từ CSDL tác nghiệp 
là m
ột trong những hướng tiếp cận chính của lĩnh vực khai phá dữ liệu. 
1.4.3.
 
 Khai thác m
ẫu tuần tự (Sequential / Temporal patterns) 
Tương tự như khai thác luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. 
M
ột luật mô tả mẫu tuần tự có dạng tiêu biểu X -> Y phản ánh sự xuất hiện của biến cố 
X s
ẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Hướng tiếp cận này có tính dự báo cao. 
1.4.4.
 
Phân nhóm- 
đoạn (Clustering / Segmentation) 
M
ục tiêu chính của việc phân nhóm dữ liệu là nhóm các đối tượng tương tự nhau 
trong t
ập dữ liệu vào các nhóm sao cho mức độ tương tự giữa các đối tượng trong cùng 
m
ột nhóm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các nhóm khác 
nhau là nh
ỏ nhất. Các nhóm có thể tách nhau hoặc phân cấp gối lên nhau và số lượng 
các nhóm là chưa biết trước. Một đối tượng có thể vừa thuộc nhóm này, nhưng cũng có 


14 
th
ể vừa thuộc nhóm khác. Không giống như phân lớp dữ liệu, phân nhóm dữ liệu 
không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi 
phân nhóm d
ữ liệu là một cách học bằng quan sát (learning by observation), trong khi 
phân l
ớp dữ liệu là học bằng ví dụ (learning by example). Trong phương pháp này bạn 
s
ẽ không thể biết kết quả các nhóm thu được sẽ như thế nào khi bắt đầu quá trình. Vì 
v
ậy, thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá các nhóm thu 
được. Phân nhóm còn được gọi là học không có giám sát (unsupervised learning). Phân 
nhóm d
ữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân 
đoạn khách hàng, nhận dạng mẫu, phân loại trang Web, … Ngoài ra phân nhóm dữ liệu 
còn có th
ể được sử dụng như một bước tiền xử lý cho các thuật toán KPDL khác. 

tải về 235.12 Kb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6   7   8   9




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương