Chương 1: t ổng quan về kỹ thuật khám phá tri thức và khai phá d ữ liệu



tải về 235.12 Kb.
Chế độ xem pdf
trang9/9
Chuyển đổi dữ liệu24.05.2022
Kích235.12 Kb.
#52091
1   2   3   4   5   6   7   8   9
Chuong 1 Tong quandata mining

1.6.
 
Nh
ững thách thức trong khai phá dữ liệu 

M
ức độ nhiễu cao trong dữ liệu của KPDL. Tiêu chuẩn mạnh mẽ của giải thuật đối 
v
ới nhiễu trở nên quan trọng hơn trong khi các tiêu chuẩn khác phần nào có thể giảm 
b
ớt. 

K
ích thước lớn của các tập dữ liệu cần xử lý. Các tập dữ liệu trong KPDL thường 
có kích thước cực kỳ lớn. Trong thực tế, kích thước của các tập dữ liệu trong KPDL 
thường ở mức tera-byte. Với kích thước như thế, thời gian xử lý thường cực kỳ dài. 
Thêm vào đó, các giải thuật học truyền thống thường yêu cầu tập dữ liệu được tải toàn 
b
ộ lên trên bộ nhớ để xử lý. Mặc dù kích thước bộ nhớ trong của máy tính đã gia tăng 
đáng kể trong thời gian gần đây, việc gia tăng này cũng không thể đáp ứng kịp với 
vi
ệc tăng kích thước dữ liệu. Vì vậy, việc vận dụng các kỹ thuật xác suất, lấy mẫu, 
đệm, song song và tăng dần vào các giải thuật để tạo ra các phiên bản phù hợp với yêu 
c
ầu của KPDL trở nên ngày càng quan trọng. 

Các k
ỹ thuật trong KPDL là hướng tác vụ và hướng dữ liệu. Thay vì tập trung vào 
x
ử lý tri thức dạng kí hiệu và khái niệm như trong máy học, mọi phát triển trong 
KPDL thì k
ết chặt vào các ứng dụng thực tế và đặc tính dữ liệu cụ thể trong các ứng 
d
ụng đó. Ví dụ, luật kết hợp là kỹ thuật KPDL nhằm tìm kiếm những mối liên kết 
gi
ữa các món hàng trong các hóa đơn ở siêu thị. Giải thuật học trong kỹ thuật này 
được phát triển dựa trên đặc tính về dữ liệu rất đặc thù là ở dạng nhị phân. 

tải về 235.12 Kb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6   7   8   9




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương