ĐỀ thi giữa kỳ Môn: Khoa học dữ liệu Thời gian làm bài: 90 phút



tải về 19.76 Kb.
Chuyển đổi dữ liệu29.11.2023
Kích19.76 Kb.
#55816
1 DeKHDL
BT C5

TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH


ĐỀ THI GIỮA KỲ
Môn: Khoa học dữ liệu
Thời gian làm bài: 90 phút
Họ tên sinh viên:
MSSV:
Lưu ý quan trọng:

  • Đổi tên thư mục BaiThi thành DS_MSSV_HoTen

  • Copy kết quả của từng phần dán vào file word ở từng phần tương ứng.

  • 2 file Orange là file PL_MSSV.ows và file PC_MSSV.ows


ĐỀ THI
PHẦN 1: Sử dụng phần mềm Excel thực hiện các yêu cầu trong file Solver_GoalSeek.xlsx, lưu kết quả trong file, chụp hình kết quả (3 điểm)
………………………………………………………….
………………………………………………………….
PHẦN 2: Sử dụng phần mềm Orange, Lưu kết quả phân tích thành tập tin:
Mô tả bộ dữ liệu: dữ liệu file excel cho biết khả năng cho đối tượng vay hay không. Cột “y” cho biết cho vay hay không (yes/no). Việc cho vay hay không phụ thuộc vào 20 yếu tố (age, job, marital,…)

  1. Sử dụng dữ liệu trong bank-additional_PhanLop.xlsx, và bank-additional_DuBao.xlsx trong file excel để thực hiện các yêu cầu sau:

    1. Sử dụng 3 phương pháp: hồi quy logistic, SVM, cây quyết định (biểu diễn đồ thị) tiến hành phân lớp theo “y” với dữ liệu trong file bank-additional_PhanLop.xlsx. Sử dụng các chỉ số AUC, Ma trận nhầm lẫn để lựa chọn phương án phân lớp tốt nhất. Chụp hình bảng ma trận nhầm lẫn và Test and Score đưa vào file word này. Giải thích lý do chọn phương pháp. (2đ)

Lưu ý: cột “y” là biến mục tiêu, bỏ qua cột “No.”
Kết quả:

    1. Sử dụng mô hình tốt nhất để dự báo cho dữ liệu trong bank-additional_DuBao.xlsx và xuất dữ liệu dự báo ra file KQDuBao.xlsx. Lưu file Orange hiện tại đặt tên là PL_MSSV.ows. chụp hình sơ đồ màn hình thực hiện trên Orange .. (2đ)

Kết quả:

  1. Bài toán phân cụm: Dữ liệu sử dụng là file Excel bank-additional_PhanCum.xlsx

    1. Sử dụng phương pháp Hierachical Clustering để tiến hành phân cụm phân cấp dữ liệu. Trong trường hợp cần sử dụng 3 cụm dữ liệu thì hãy đưa các chỉ số Silhouette của phương pháp tính tốt nhất. Copy dữ liệu 3 chỉ số Silhoutte đưa vào file word này. (1.5đ)

Kết quả:

    1. Sử dụng phương pháp K-Means để tiến hành phân cụm. Với dữ liệu hiện tại thì nên phân ra bao nhiêu cụm là tốt nhất? Trong trường hợp chúng ta chỉ cần <=3 cụm thì hãy cho biết các chỉ số Silhouette của từng cụm. Copy dữ liệu chỉ số Silhoutte đưa vào file word này. Lưu file Orange hiện tại đặt tên PC_MSSV.ows (1.5đ)

Kết quả:
Chụp hình màn hình thực hiện phân cụm trên Orange
……………………………………..



tải về 19.76 Kb.

Chia sẻ với bạn bè của bạn:




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương