11
-
Bước 2: sử dụng mô hình để phân lớp dữ liệu. Trước hết chúng ta phải tính độ
chính xác c
ủa mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử
d
ụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai.
Trong k
ỹ thuật phân lớp chúng ta có thể sử dụng các phương pháp như: Cây quyết
định (
Decision Tree), K-Láng giềng gần nhất (
k-Nearest Neighbor), Mạng Nơron
(
Neural networks), Gi
ải thuật di truyền (
Genetic algorithms), Mạng Bayesian
(
Bayesian networks), T
ập mờ và tập thô (
Rough and Fuzzy Sets).
a) Cây quy
ết định (Decision Tree)
Các k
ỹ thuật phân lớp sử dụng cây quyết định để phân tách các dữ liệu cho đến khi
m
ỗi phần chứa đựng hầu hết các mẫu từ một lớp đặc trưng, kết quả của quá trình sẽ cho
ra m
ột cây quyết định. Điểm phân tách trong cây quyết định là một nút (không phải là
nút lá) s
ẽ sử dụng một số điều kiện để quyết định dữ liệu sẽ được phân tách như thế
nào. Các nút cu
ối cùng trong cây quyết định chứa đựng các bộ mẫu giống nhau. Lợi thế
c
ủa cây quyết định là các thuật toán chạy khá nhanh, với kết quả khá tốt và có thể giải
thích được rõ ràng. Tuy nhiên, bất lợi mà các thuật toán của cây quyết định có thể gặp
ph
ải đó là chúng có thể tìm ra các điểm tới hạn cục bộ, đưa ra các kết quả không đúng.
b) K-láng gi
ềng gần nhất (k-Nearest Neighbor)
Thu
ật toán này tìm ra các láng giềng gần nhất của mẫu thử nghiệm và quy về các
nhãn l
ớp của chúng dựa trên các nhãn đa số, điều đó có nghĩa là các mẫu được quy về
cùng l
ớp khi chúng là lân cận của nhau. Kỹ thuật này cho rằng vị trí trong không gian
đặc trưng hàm ý một quan hệ họ hàng gần gũi ở giữa các nhãn lớp.
L
ợi thế của các thuật toán K-Láng giềng gần nhất là dễ thực thi, và kết quả mà nó
đem lại khả năng dễ dàng giải thích. Nhưng một điểm bất lợi là các thuật toán này đưa
ra các mô hình r
ất lớn với một tập dữ liệu nhỏ.
c) M
ạng nơron (Neural networks)
M
ạng nơron là mạng được mô phỏng theo bộ não của con người. Đó là một cấu
trúc d
ữ liệu của các hàm với một hoặc nhiều trọng số đầu vào, với kết quả đầu ra là
13
Lý thuy
ết về tập mờ và tập thô dựa trên một sơ sở toán học không chắc chắn. Đối
v
ới các mô hình tập thô, một giới hạn trên và giới hạn dưới sẽ được xác định. Một tập
thô định nghĩa một lớp C là một xấp xỉ bởi hai tập. Tập cận dưới (lower) của C bao
g
ồm tất cả các mẫu dữ liệu, mà dựa vào tri thức của các mẫu dữ liệu có thể quyết định
m
ột mẫu bất kỳ thuộc phân lớp C một cách rõ ràng. Tập cận trên của C bao gồm tất cả
các m
ẫu với giá trị của thuộc tính được mô tả không thể thuộc vào phân lớp C. Mô
hình t
ập mờ không dốc về cực đại cục bộ bằng các thuật toán cây quyết định, và cũng
gi
ống như mô hình tập thô, chúng dùng để đối phó với những điều không chắc chắn tốt
hơn bất kỳ một thuật toán nào khác.
Chia sẻ với bạn bè của bạn: