Xây dựng kho dữ liệu nâng cao hiệu quả quản lý VÀ BÁo cáo phân tích thống kê cho công ty âm nhạc chinook



tải về 2.13 Mb.
trang8/14
Chuyển đổi dữ liệu17.01.2024
Kích2.13 Mb.
#56351
1   ...   4   5   6   7   8   9   10   11   ...   14
kpdl

b. Các bước thực hiện
Bước 1: Input

  • Tập dữ liệu D = {x1, x2,...,xn} gồm n phần tử trong không gian m

chiều.

  • Số cụm k.

Bước 2: Output: k cụm dữ liệu D1, D2,..., Dk thỏa mãn điều kiện:
Các phần tử trong cùng một cụm có tính chất tương tự nhau.
Các phần tử trong các cụm khác nhau có tính chất khác nhau.
Bước 3: Thuật toán

  • Khởi động: Chọn ngẫu nhiên k phần tử trong D làm trọng tâm Ci cho cụm Di

(i = 1, 2, ..., k).

  • Bước lặp:

  • Gán Di = ∅

  • Với mọi x ∈ D:

Tính khoảng cách d(x, ci) với mọi i = 1, 2, 3, ..., k.
Di = Di ∪ x nếu d(x, ci) nhỏ nhất với mọi i = 1, 2, 3, ..., k.

  • Lặp lại bước lặp cho đến khi quá trình hội tụ (không có sự thay đổi các phần tử trong cụm)

3.3.Thuật toán Luật kết hợp
3.3.1. Giới thiệu về thuật toán Luật kết hợp
a. Tập mục, giao dịch và cơ sở dữ liệu

  • Tập mục: Nếu X có k mục (tức |X| = k) thì X được gọi là k–itemset

  • Gọi I = {x1, x2, . . . , xn} là tập n mục (item). Một tập X ⊆ I được gọi là một tập mục (itemset).

  • Nếu X có k mục (tức |X| = k) thì X được gọi là k–itemset

  • Giao dịch: Ký hiệu D = {T1, T2, ..., Tm} là cơ sở dữ liệu gồm m giao dịch (transaction). Mỗi giao dịch Ti ∈ D là một tập mục, tức Ti ⊆ I.

b. Tập/mẫu phổ biến (frequent itemset/pattern)
Cho tập mục X (⊆ I)

  • Độ hỗ trợ của X, ký hiệu là sup(X, D), là số lượng giao dịch trong D

chứa tập X: sup(X, D) = |{T|T ⊆ D và X ⊆ T}|.

  • Độ hỗ trợ tương đối của X, ký hiệu là rsup(X, D) là số phần trăm các giao dịch trong D chứa X: rsup(X, D) = sup(X, D)/|D|.

  • Tập mục X được gọi là tập phổ biến trong cơ sở giao dịch D nếu up(X, D) >= minsup, với minsup là một ngưỡng độ hỗ trợ tối thiểu (minimum support threshold) do người dùng định nghĩa.

F là ký hiệu của tất cả các tập phổ biến.
F(k) là ký hiệu của tập các tập phổ biến có độ dài k.

tải về 2.13 Mb.

Chia sẻ với bạn bè của bạn:
1   ...   4   5   6   7   8   9   10   11   ...   14




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương