Chương 1: t ổng quan về kỹ thuật khám phá tri thức và khai phá d ữ liệu



tải về 235.12 Kb.
Chế độ xem pdf
trang1/9
Chuyển đổi dữ liệu24.05.2022
Kích235.12 Kb.
#52091
  1   2   3   4   5   6   7   8   9
Chuong 1 Tong quandata mining




Chương 1:
 
T
ổng quan về kỹ thuật khám phá tri thức 
và khai phá d
ữ liệu 
1.1.
 
Khám phá tri th
ức và khai phá dữ liệu 
“Khám phá tri th
ức là quá trình tìm ra những tri thức, đó là những mẫu tìm ẩn, 
trước đó chưa biết và là thông tin hữu ích đáng tin cậy”. Còn khai phá dữ liệu (KPDL) 
là m
ột bước quan trọng trong quá trình khám phá tri thức, sử dụng các thuật toán 
KPDL chuyên dùng v
ới một số qui định về hiệu quả tính toán chấp nhận được để chiết 
xu
ất ra các mẫu hoặc các mô hình có ích trong dữ liệu. Nói một cách khác, mục đích 
c
ủa khám phá tri thức và KPDL chính là tìm ra các mẫu hoặc mô hình đang tồn tại 
trong các cơ sở dữ liệu (CSDL) nhưng vẫn còn bị che khuất bởi hàng núi dữ liệu [1]. 
Khám phá tri th
ức từ CSDL là một quá trình sử dụng các phương pháp và công cụ 
tin h
ọc, trong đó con người là trung tâm của quá trình. Do đó, con người cần phải có 
ki
ến thức cơ bản về lĩnh vực cần khám phá để có thể chọn được tập con dữ liệu tốt, từ 
đó phát hiện các mẫu phù hợp với mục tiêu đề ra. Đó chính là tri thức, được rút ra từ 
CSDL
, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một 
l
ĩnh vực nhất định. Tuy vậy, quá trình khám phá tri thức mang tính chất hướng nhiệm 
v
ụ vì không phải là mọi tri thức tìm được đều áp dụng vào thực tế được.
Để có được những thông tin quý báu chúng ta phải tìm ra các mẫu có trong tập 
CSDL 
trước. Việc đánh giá các mẫu được tìm thấy cũng là một điều thú vị và tất yếu 
có tính ch
ất quyết định đến sự sử dụng hay không sử dụng chúng. Đầu ra của một 
chương trình là khám phá những mẫu có ích được gọi là tri thức. Tri thức được khám 
phá có các 
đặc điểm chính:
-
Ki
ến thức cao cấp: Ngày càng có nhiều câu hỏi mang tính chất định tính cần phải 
tr
ả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Quá trình để tìm ra kiến thức 
như vậy không phải từ những phương pháp thống kê cổ điển mà mà nó được được đúc 



k
ết từ các kinh nghiệm đã có, được thể hiện trong dữ liệu, những kết quả đó có thể lĩnh 
h
ội được. 
-
Độ chính xác: Dù cho những mẫu khai phá thật sự có trong CSDL hay không thì 
vi
ệc đo lường trị giá của chúng là bắt buộc phải có. Chúng ta sẽ chỉ sử dụng những 
m
ẫu nào có độ chính xác càng cao thì hiệu quả công việc đạt được càng lớn, những 
m
ẫu có độ chính xác chưa được xác định rõ ràng hoặc không cao thì không nên sử 
d
ụng chúng. 
-
Tính h
ấp dẫn: Khám phá tri thức được coi là lý thú vì nó có thể vạch ra các xu 
hướng một cách hoàn thiện. Đó là những điều mới lạ hay những quy trình tìm năng, 
h
ữu ích ẩn chứa từ trong dữ liệu trước đó. 
-
Tính hi
ệu quả: thời gian chạy của thuật toán khám phá tri thức trên CSDL lớn có 
th
ể dự tính và chấp nhận được. 
D
ữ liệu là tập hợp những bộ thông tin chính xác và quá trình khám phá tri thức
được xem là sự lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu chỉ để lại các đặc 
trưng cơ bản cho dữ liệu. Tri thức được tìm thấy là các thông tin tích hợp, bao gồm các 
s
ự kiện và các mối quan hệ trong chúng. Các mối quan hệ này có thể được hiểu ra, có 
th
ể được phát hiện, hoặc có thể được học.
N
ếu khám phá tri thức là toàn bộ quá trình chiết xuất tri thức từ các CSDL thì 
KPDL 
là giai đoạn chủ yếu của quá trình đó. KPDL là một quá trình phát hiện các mẫu 
m
ới, thường bao gồm việc thử tìm mô hình phù hợp với tập dữ liệu và tìm kiếm các 
m
ẫu từ tập dữ liệu theo mô hình đó. Sử dụng các kỹ thuật và các khái niệm của các lĩnh 
v
ực đã được nghiên cứu từ trước như: học máy, nhận dạng, thống kê, hồi quy, xếp loại, 
phân nhóm, các mô hì
nh đồ thị, các mạng Bayes,… Hầu hết các CSDL đều chứa rất 
nhi
ều các mẫu mới và có ích, tuy nhiên mẫu có giá trị với mục tiêu đặt ra phải là những 
m
ẫu không tầm thường. Để các mẫu trở nên không tầm thường, hệ thống phải làm 
nhi
ều hơn là chỉ mò mẫm thống kê vì kết quả của việc tính toán trực tiếp qua công tác 
th
ống kê là đã có đối với người dùng. Một hệ thống tìm kiếm cần phải có khả năng 



quy
ết định cần thực hiện tính toán nào và kết quả là có đáng quan tâm để tạo nên tri 
th
ức trong ngữ cảnh hiện tại hay không.
KPDL 
được sử dụng để tạo ra giả thuyết. Ví dụ như để xác định các yếu tố rủi ro 
khi cho vay tín d
ụng, kỹ thuật KPDL phải phát hiện được những người có thu nhập 
th
ấp và nợ nhiều là những người sẽ có mức rủi ro cao. Ngoài ra kỹ thuật cũng có thể 
phát hi
ện ra những quy luật mà nhà phân tích có thể chưa tìm ra ví dụ như tỷ lệ giữa 
thu nh
ập trên nợ và tuổi cũng là các yếu tố xác định mức rủi ro. Để làm được điều này, 
KPDL s
ử dụng các thông tin trong quá khứ để học. Nó sẽ tìm kiếm các thông tin này 
trong các CSDL và s
ử dụng chúng để tìm ra các mẫu đáng quan tâm.
N
ếu xét về mặt ý tưởng và mục đích ứng dụng, KPDL là một nhu cầu tất yếu, một 
s
ự nhạy cảm đáp lại sự mong mỏi của giới kinh doanh thì về mặt kỹ thuật, đó thực sự 
là m
ột khó khăn và là cả sự thách thức đối với những nhà khoa học. KPDL được xây 
d
ựng dựa trên việc sử dụng các giải thuật mới, được định hướng theo như cầu kinh 
doanh để có thể giải quyết tự động các bài toán kinh doanh bằng các kỹ thuật dễ dùng 
và có th
ể hiểu được. Các kỹ thuật đang được nghiên cứu và sử dụng hiện nay bao gồm 
cây quy
ết định (CART, CHAID, AID), mạng neuron, phương pháp láng giềng gần 
nh
ất, các luật suy diễn,…
KPDL không thu
ộc một ngành công nghiệp nào. Nó sử dụng các kỹ thuật thông 
minh để khai phá các tri thức tiềm ẩn trong dữ liệu. Có thể coi KPDL ngày nay đang ở 
tr
ạng thái giống như việc quản trị dữ liệu vào những năm 60, khi mà các ứng dụng 
qu
ản trị dữ liệu đều không tuân theo một nguyên tắc chung nào cho đến khi mô hình dữ 
li
ệu quan hệ ra đời cùng với sức mạnh của ngôn ngữ vấn đáp đã thúc đẩy việc phát 
tri
ển các ứng dụng quản trị dữ liệu lên nhanh chóng. Tuy vậy, hiện nay trên thế giới đã 
có r
ất nhiều ngành công nghiệp sử dụng kỹ thuật KPDL để phục vụ cho hoạt động kinh 
doanh c
ủa mình và đã bước đầu thành công như ngành tài chính, y học, hóa học, bảo 
hi
ểm, sản xuất, giao thông, hàng không,… Các kết quả đạt được cho thấy mặc dù kỹ 
thu
ật KPDL hiện nay vẫn còn nhiều vấn đề nổi cộm, nhưng với những tri thức mà 



chuyên gia con người cũng chưa cung cấp được thì KPDL có một tiềm năng to lớn 
trong vi
ệc tạo ra những lợi nhuận đáng kể trong nền kinh tế.

tải về 235.12 Kb.

Chia sẻ với bạn bè của bạn:
  1   2   3   4   5   6   7   8   9




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương