4
Chương 1:
T
ổng quan về kỹ thuật khám phá tri thức
và khai phá d
ữ liệu
1.1.
Khám phá tri th
ức và khai phá dữ liệu
“Khám phá
tri th
ức là quá trình tìm ra những tri thức, đó là những mẫu tìm ẩn,
trước đó chưa biết và là thông tin hữu ích đáng tin cậy”. Còn khai phá dữ liệu (KPDL)
là m
ột bước quan trọng trong quá trình khám phá tri thức, sử dụng các thuật toán
KPDL chuyên dùng v
ới một số qui định về hiệu quả tính toán chấp nhận được để chiết
xu
ất ra các mẫu hoặc các mô hình có ích trong dữ liệu. Nói một cách khác, mục đích
c
ủa khám phá tri thức và KPDL chính là tìm ra các mẫu hoặc mô hình đang tồn tại
trong các cơ sở dữ liệu (CSDL) nhưng vẫn còn bị che khuất bởi hàng núi dữ liệu [1].
Khám phá tri th
ức từ CSDL là một quá trình sử dụng các phương pháp và công cụ
tin h
ọc, trong đó con người là trung tâm của quá trình. Do đó, con người cần phải có
ki
ến thức cơ bản về lĩnh vực cần khám phá để có thể chọn được tập con dữ liệu tốt, từ
đó phát hiện các mẫu phù hợp với mục tiêu đề ra. Đó chính là tri thức, được rút ra từ
CSDL
, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một
l
ĩnh vực nhất định. Tuy vậy, quá trình khám phá tri thức mang tính chất hướng nhiệm
v
ụ vì không phải là mọi tri thức tìm được đều áp dụng vào thực tế được.
Để có được những thông tin quý báu chúng ta phải tìm ra các mẫu có trong tập
CSDL
trước. Việc đánh giá các mẫu được tìm thấy cũng là một điều thú vị và tất yếu
có tính ch
ất quyết định đến sự sử dụng hay không sử dụng chúng. Đầu ra của một
chương trình là khám phá những mẫu có ích được gọi là tri thức. Tri thức được khám
phá có các
đặc điểm chính:
-
Ki
ến thức cao cấp: Ngày càng có nhiều câu hỏi mang tính chất định tính cần phải
tr
ả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Quá trình để tìm ra kiến thức
như vậy không phải từ những phương pháp thống kê cổ điển mà mà nó được được đúc