1.6.
Nh
ững thách thức trong khai phá dữ liệu
M
ức độ nhiễu cao trong dữ liệu của KPDL. Tiêu chuẩn mạnh mẽ của giải thuật đối
v
ới nhiễu trở nên quan trọng hơn trong khi các tiêu chuẩn khác phần nào có thể giảm
b
ớt.
K
ích thước lớn của các tập dữ liệu cần xử lý. Các tập dữ liệu trong KPDL thường
có kích thước cực kỳ lớn. Trong thực tế, kích thước của các tập dữ liệu trong KPDL
thường ở mức tera-byte. Với kích thước như thế, thời gian xử lý thường cực kỳ dài.
Thêm vào đó, các giải thuật học truyền thống thường yêu cầu tập dữ liệu được tải toàn
b
ộ lên trên bộ nhớ để xử lý. Mặc dù kích thước bộ nhớ trong của máy tính đã gia tăng
đáng kể trong thời gian gần đây, việc gia tăng này cũng không thể đáp ứng kịp với
vi
ệc tăng kích thước dữ liệu. Vì vậy, việc vận dụng các kỹ thuật xác suất, lấy mẫu,
đệm, song song và tăng dần vào các giải thuật để tạo ra các phiên bản phù hợp với yêu
c
ầu của KPDL trở nên ngày càng quan trọng.
Các k
ỹ thuật trong KPDL là hướng tác vụ và hướng dữ liệu. Thay vì tập trung vào
x
ử lý tri thức dạng kí hiệu và khái niệm như trong máy học, mọi phát triển
trong
KPDL thì k
ết chặt vào các ứng dụng thực tế và đặc tính dữ liệu cụ thể trong các ứng
d
ụng đó. Ví dụ, luật kết hợp là kỹ thuật KPDL nhằm tìm kiếm những mối liên kết
gi
ữa các món hàng trong các hóa đơn ở siêu thị. Giải thuật học trong kỹ thuật này
được phát triển dựa trên đặc tính về dữ liệu rất đặc thù là ở dạng nhị phân.