Chương 1: t ổng quan về kỹ thuật khám phá tri thức và khai phá d ữ liệu

tải về 235.12 Kb.

Chế độ xem pdf

trang	5/9
Chuyển đổi dữ liệu	24.05.2022
Kích	235.12 Kb.
	#52091

1 2 3 4 5 6 7 8 9

Chuong 1 Tong quandata mining

1.4.1.

Phân l
ớp và dự đoán (Classification & Prediction)
L
à đặt các mẫu vào các lớp được xác định trước. Nhiệm vụ chính là tìm các hàm
ánh x
ạ các mẫu dữ liệu một cách chính xác vào trong các lớp.Ví dụ một ngân hàng
mu
ốn phân loại các khách hành của họ vào trong hai nhóm có nợ hay không nợ, từ đó
giúp h
ọ ra quyết định cho vay hay không cho vay. Quá trình phân lớp dữ liệu thường
g
ồm 2 bước: xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu.
-
Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu
s
ẵn có. Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là
thu
ộc tính lớp. Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện (training
data set). Các nhãn l
ớp của tập dữ liệu huấn luyện đều phải được xác định trước khi
xây d
ựng mô hình, vì vậy phương pháp này còn được gọi là học có giám sát
(supervised learning) khác v
ới phân nhóm dữ liệu là học không có giám sát
(unsupervised learning).

11
-
Bước 2: sử dụng mô hình để phân lớp dữ liệu. Trước hết chúng ta phải tính độ
chính xác c
ủa mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử
d
ụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai.
Trong k
ỹ thuật phân lớp chúng ta có thể sử dụng các phương pháp như: Cây quyết
định (Decision Tree), K-Láng giềng gần nhất (k-Nearest Neighbor), Mạng Nơron
(Neural networks), Gi
ải thuật di truyền (Genetic algorithms), Mạng Bayesian
(Bayesian networks), T
ập mờ và tập thô (Rough and Fuzzy Sets).
a) Cây quy
ết định (Decision Tree)
Các k
ỹ thuật phân lớp sử dụng cây quyết định để phân tách các dữ liệu cho đến khi
m
ỗi phần chứa đựng hầu hết các mẫu từ một lớp đặc trưng, kết quả của quá trình sẽ cho
ra m
ột cây quyết định. Điểm phân tách trong cây quyết định là một nút (không phải là
nút lá) s
ẽ sử dụng một số điều kiện để quyết định dữ liệu sẽ được phân tách như thế
nào. Các nút cu
ối cùng trong cây quyết định chứa đựng các bộ mẫu giống nhau. Lợi thế
c
ủa cây quyết định là các thuật toán chạy khá nhanh, với kết quả khá tốt và có thể giải
thích được rõ ràng. Tuy nhiên, bất lợi mà các thuật toán của cây quyết định có thể gặp
ph
ải đó là chúng có thể tìm ra các điểm tới hạn cục bộ, đưa ra các kết quả không đúng.
b) K-láng gi
ềng gần nhất (k-Nearest Neighbor)
Thu
ật toán này tìm ra các láng giềng gần nhất của mẫu thử nghiệm và quy về các
nhãn l
ớp của chúng dựa trên các nhãn đa số, điều đó có nghĩa là các mẫu được quy về
cùng l
ớp khi chúng là lân cận của nhau. Kỹ thuật này cho rằng vị trí trong không gian
đặc trưng hàm ý một quan hệ họ hàng gần gũi ở giữa các nhãn lớp.
L
ợi thế của các thuật toán K-Láng giềng gần nhất là dễ thực thi, và kết quả mà nó
đem lại khả năng dễ dàng giải thích. Nhưng một điểm bất lợi là các thuật toán này đưa
ra các mô hình r
ất lớn với một tập dữ liệu nhỏ.
c) M
ạng nơron (Neural networks)
M
ạng nơron là mạng được mô phỏng theo bộ não của con người. Đó là một cấu
trúc d
ữ liệu của các hàm với một hoặc nhiều trọng số đầu vào, với kết quả đầu ra là

12
m
ột nhãn các lớp. Từng phần riêng biệt của dữ liệu được đưa vào mạng nơron và các
hàm - các tr
ọng số trong mạng nơron bị thay đổi (học - huấn luyện) tùy theo tỷ lệ lỗi
c
ủa đầu ra. Phương pháp này thường đưa đến một khoảng thời gian huấn luyện dài
ngay c
ả khi tập dữ liệu nhỏ.
L
ợi thế của mạng nơron là đưa đến các kết quả khá chính xác, nhưng bất lợi của
nó là thường đòi hỏi thời gian huấn luyện dài và đưa ra các kết quả khó hiểu, cứng
nh
ắc, bị bao bọc trong một hộp đen, khó giải thích tường minh.
d) Gi
ải thuật di truyền (Genetic algorithms)
Các gi
ải thuật di truyền được sử dụng để đưa ra công thức giả thuyết về sự phụ
thu
ộc giữa các biến. Đối với một giải thuật di truyền phải sử dụng các giải pháp như
c
ạnh tranh, lựa chọn và kết hợp giữa các tập hợp cá thể.
L
ợi thế của Giải thuật di truyền là thường đưa đến các kết quả kiểm tra khá chính
xác, nhưng bất lợi của nó là kết quả có được thông qua việc lập trình tiến hóa và các
k
ết quả cũng thường cứng nhắc, khó hiểu.
e) M
ạng Bayesian (Bayesian networks)
Trong m
ạng Bayesian sử dụng các đồ thị có hướng, không có chu trình để miêu tả
s
ự phân lớp có thể được. Các đồ thị này cũng có thể được sử dụng để miêu tả các tri
th
ức chuyên gia. Các nút miêu tả các biến thuộc tính và các trạng thái (sự kiện) và mỗi
m
ột cạnh miêu tả khả năng sự phụ thuộc giữa chúng. Kết hợp với mỗi nút là các lớp
c
ục bộ có thể và các cung được vẽ từ nút nguyên nhân đến nút bị ảnh hưởng. KPDL
trong m
ạng Bayesian bao gồm việc sử dụng đầu vào các tri thức chuyên gia và sau đó
s
ử dụng một CSDL để cập nhật, lọc và cải tiến tri thức đó trong mạng. Các đồ thị mới
có th
ể là kết quả từ các cải tiến này và nguyên nhân của các mối quan hệ giữa các nút
k
ết quả có thể được giải thích một cách dễ dàng.
L
ợi thế của mạng Bayesian là thường đưa ra các kết quả dễ hiểu, nhưng bất lợi của
nó là c
ần thu thập được các tri thức chuyên gia truyền thống.
f) T
ập mờ và tập thô (Rough and Fuzzy Sets)

13
Lý thuy
ết về tập mờ và tập thô dựa trên một sơ sở toán học không chắc chắn. Đối
v
ới các mô hình tập thô, một giới hạn trên và giới hạn dưới sẽ được xác định. Một tập
thô định nghĩa một lớp C là một xấp xỉ bởi hai tập. Tập cận dưới (lower) của C bao
g
ồm tất cả các mẫu dữ liệu, mà dựa vào tri thức của các mẫu dữ liệu có thể quyết định
m
ột mẫu bất kỳ thuộc phân lớp C một cách rõ ràng. Tập cận trên của C bao gồm tất cả
các m
ẫu với giá trị của thuộc tính được mô tả không thể thuộc vào phân lớp C. Mô
hình t
ập mờ không dốc về cực đại cục bộ bằng các thuật toán cây quyết định, và cũng
gi
ống như mô hình tập thô, chúng dùng để đối phó với những điều không chắc chắn tốt
hơn bất kỳ một thuật toán nào khác.

tải về 235.12 Kb.

Chia sẻ với bạn bè của bạn:

1 2 3 4 5 6 7 8 9