Xây dựng kho dữ liệu nâng cao hiệu quả quản lý VÀ BÁo cáo phân tích thống kê cho công ty âm nhạc chinook

tải về 2.13 Mb.

trang	6/14
Chuyển đổi dữ liệu	17.01.2024
Kích	2.13 Mb.
	#56351

1 2 3 4 5 6 7 8 9 ... 14

kpdl

3.1.2.1.Phân lớp bằng cây quyết định
Cây quyết định mô tả một cấu trúc cây, cho phép người dùng dự đoán nhãn của một đối tượng mới dựa trên tập thuộc tính của nó. Trong đó :

Các lá đại diện cho các nhãn
Các cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân lớp đó.

3.1.2.2. Phân lớp bằng rừng ngẫu nhiên
Rừng ngẫu nhiên là một bộ phân loại chứa một số cây quyết định trên các tập con khác nhau của tập dữ liệu đã cho và lấy giá trị trung bình để cải thiện độ chính xác dự đoán của tập dữ liệu đó.” Thay vì dựa vào một cây quyết định, rừng ngẫu nhiên lấy dự đoán từ mỗi cây và dựa trên đa số phiếu dự đoán, và nó dự đoán kết quả cuối cùng.

Rừng ngẫu nhiên là một thuật toán học có giám sát . “Khu rừng” mà nó xây dựng là một tập hợp các cây quyết định, thường được đào tạo theo phương pháp “đóng bao”. Ý tưởng chung của phương pháp đóng gói là sự kết hợp của các mô hình học tập sẽ làm tăng kết quả chung.
Rừng ngẫu nhiên xây dựng nhiều cây quyết định và kết hợp chúng lại với nhau để có được dự đoán chính xác và ổn định hơn.
Một lợi thế lớn của rừng ngẫu nhiên là nó có thể được sử dụng cho cả các bài toán phân loại và hồi quy, vốn tạo nên phần lớn các hệ thống học máy hiện nay.
Sự khác biệt giữa cây quyết định và rừng ngẫu nhiên
Mặc dù một khu rừng ngẫu nhiên là một tập hợp các cây quyết định, có một số khác biệt.
Nếu nhập một tập dữ liệu đào tạo với các tính năng và nhãn vào cây quyết định, nó sẽ hình thành một số bộ quy tắc, sẽ được sử dụng để đưa ra các dự đoán.
Ví dụ: Để dự đoán liệu một người có nhấp vào quảng cáo trực tuyến hay không, bạn có thể thu thập các quảng cáo mà người đó đã nhấp vào trong quá khứ và một số tính năng mô tả quyết định của họ. Nếu bạn đặt các tính năng và nhãn vào cây quyết định, nó sẽ tạo ra một số quy tắc giúp dự đoán liệu quảng cáo có được nhấp vào hay không. Để so sánh, thuật toán rừng ngẫu nhiên chọn ngẫu nhiên các quan sát và đặc điểm để xây dựng một số cây quyết định và sau đó tính trung bình các kết quả.
Một sự khác biệt khác là cây quyết định “sâu” có thể bị quá mức. Hầu hết thời gian, rừng ngẫu nhiên ngăn chặn điều này bằng cách tạo các tập hợp con ngẫu nhiên của các đối tượng địa lý và xây dựng các cây nhỏ hơn bằng cách sử dụng các tập hợp con đó. Sau đó, nó kết hợp các cây con. Điều quan trọng cần lưu ý là điều này không phải lúc nào cũng hoạt động và nó cũng làm cho quá trình tính toán chậm hơn, tùy thuộc vào số lượng cây mà khu rừng ngẫu nhiên xây dựng.

Hồi quy tuyến tính
Hồi quy tuyến tính là một kỹ thuật học máy dự đoán giá trị của một biến phụ thuộc (biến mục tiêu) dựa trên giá trị của một hoặc nhiều biến độc lập (biến dự báo).
Trong hồi quy tuyến tính, ta giả định rằng có một mối quan hệ tuyến tính giữa biến phụ thuộc và biến độc lập. Mối quan hệ này được mô hình hóa bởi một phương trình tuyến tính:
y = w_0 + w_1 x_1 + w_2 x_2 + ... + w_n x_n
Trong phương trình này,

y là giá trị của biến phụ thuộc
x_1, x_2, ..., x_n là giá trị của các biến độc lập
w_0, w_1, ..., w_n là các tham số của mô hình

tải về 2.13 Mb.

Chia sẻ với bạn bè của bạn:

1 2 3 4 5 6 7 8 9 ... 14