Xây dựng kho dữ liệu nâng cao hiệu quả quản lý VÀ BÁo cáo phân tích thống kê cho công ty âm nhạc chinook



tải về 2.13 Mb.
trang9/14
Chuyển đổi dữ liệu17.01.2024
Kích2.13 Mb.
#56351
1   ...   6   7   8   9   10   11   12   13   14
kpdl

c. Định nghĩa Luật kết hợp
Luật kết hợp là mối quan hệ giữa các tập thuộc tính trong cơ sở dữ liệu. Luật kết hợp là phương tiện hữu ích để khám phá các mối liên kết trong dữ liệu.
Một luật kết hợp là một mệnh đề kéo theo có dạng X -> Y, trong đó X, Y ⊆ I, thỏa mãn điều kiện X∩Y = ∅. Các tập hợp X và Y được gọi là các tập hợp thuộc tính (itemset). Tập X gọi là nguyên nhân, tập Y gọi là hệ quả. Có 2 độ đo quan trọng đối với luật kết hợp: Độ hỗ trợ (support) và độ tin cậy (confidence), được định nghĩa như phần dưới đây:
- Độ hỗ trợ:

  • Độ hỗ trợ của một luật kết hợp X -> Y là tỷ lệ giữa số lượng các bản ghi chứa tập hợp X -> Y, so với tổng số các bản ghi trong D. Ký hiệu supp(X -> Y):

sup(X → Y,D) = sup(X ∪ Y,D)


  • Độ hỗ trợ tương đối của luật X->Y trong cơ sở dữ liệu D ký hiệu là rsup(X->Y, D) là số phần trăm các giao dịch trong D chứa cả X và Y:

rsup(X → Y,D) =sup(X ∪ Y,D)/|D|
Nếu độ hỗ trợ của một kết kết hợp X -> Y là 30% thì có nghĩa là 30% tổng số bản ghi chứa X hợp Y. Như vậy độ hỗ trợ mang ý nghĩa thống kê của luật.

  • Độ tin cậy: Độ tin cậy (confidence) của luật X → Y trong D, ký hiệu conf (X → Y , D), là tỉ lệ giữa số giao dịch chứa cả X và Y trên số giao dịch chỉ chứa X:

conf(X → Y,D) = sup(X ∪ Y,D) /sup(X,D)

  • Độ hỗ trợ và độ tin cậy có xác suất như sau:

  • Độ hỗ trợ là xác xuất trong giao dịch chứa cả X và Y.

  • Độ tin cậy là xác suất có điều kiện mà một giao dịch trong D chứa Y trong khi đã chứa X (bản chất vẫn là mức độ in cậy của luật).

d. Kết luận

  • Luật X -> Y được gọi là phổ biến nếu sup(X->Y, D) >= minsup (minsup do người dùng định nghĩa).

  • Luật X-> Y được gọi là mạnh nếu độ tin cậy của nó lớn hơn hoặc bằng một ngưỡng minconf do người dùng định nghĩa: conf (X->Y)>= minconf.

e. Tính chất

  • Tính chất 1: Giả sử A,B ⊆ I là hai tập hợp với A⊆B thì sup(A) >= sup(B). Như vậy, những bản ghi nào chứa tập hợp B thì cũng chứa tập hợp A.

  • Tính chất 2: Giả sử A, B là hai tập hợp, A,B ⊆ I, nếu B là tập phổ biến và A⊆B thì A cũng là tập phổ biến. Vì nếu B là tập phổ biến thì sup(B) >= minsup, mọi tập hợp A là con của tập hợp B đều là tập phổ biến trong cơ sở dữ liệu D vì sup(A) >= sup(B) (Tính chất 1).

  • Tính chất 3: Giả sử A, B là hai tập hợp, A ⊆ B và A là tập hợp không thường xuyên thì B cũng là tập hợp không thường xuyên (Tính chất 1) (Tức nếu A là tập hợp không phổ biến thì mọi tập cha của nó cũng không biến).


tải về 2.13 Mb.

Chia sẻ với bạn bè của bạn:
1   ...   6   7   8   9   10   11   12   13   14




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương