ĐỀ thi cuối kỳ Môn: Khoa học dữ liệu Thời gian làm bài: 60 phút



tải về 230.06 Kb.
Chuyển đổi dữ liệu04.10.2022
Kích230.06 Kb.
#53405
Giuaky 092022 De2
Nhóm-1-Thuyết-trình-môn-Quản-trị-chuỗi-cung-ứng-Huawei, Giải pháp cho khủng hoảng nước sạch

TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH


ĐỀ THI CUỐI KỲ
Môn: Khoa học dữ liệu
Thời gian làm bài: 60 phút
Họ tên sinh viên:
MSSV:
Lưu ý quan trọng:

  • Sinh viên phải nhập thông tin đầy đủ vào sheet Thông tin sinh viên thì mới thấy dữ liệu để làm bài. Mỗi sinh viên sẽ có một bộ dữ liệu khác nhau nên chắc chắn kết quả sẽ khác nhau. Nếu phát hiện kết quả của sinh viên giống nhau và có bằng chứng cheating thì cả 2 đều sẽ 0 điểm cuối kỳ.

  • Sau khi hoàn thành bài làm phải lưu file Excel thành MSSV.xlsx và file Word thành MSSV.docx.

  • Copy kết quả của từng phần dán vào file word ở từng phần tương ứng.

  • Các file cần phải nộp:

    • File Excel đặt tên theo MSSV

    • File Word đặt tên theo MSSV

    • 2 file Orange là file PL_MSSV.ows và file PC_MSSV.ows


ĐỀ THI
PHẦN 1: Sử dụng phần mềm Excel thực hiện các yêu cầu trong file Giuaky_092022.xlsx

  • Hồi quy (3đ)

Kết quả:
y = 0.3237x + 35834
R² = 0.9945
PHẦN 2: Sử dụng phần mềm Orange, Lưu kết quả phân tích thành tập tin:
LƯU Ý: Cột STT và SBD là các cột thông tin, không tham gia vào dữ liệu phân lớp, phân cụm.

  1. Sử dụng dữ liệu trong Sheet Diemthi, và DubaoDT trong file excel để thực hiện các yêu cầu sau:

    1. Sử dụng 3 phương pháp: hồi quy logistic, SVM, cây quyết định tiến hành phân lớp theo “Trường”. Sử dụng các chỉ số dựa vào Ma trận nhầm lẫn để lựa chọn phương án phân lớp tốt nhất. Chụp hình bảng ma trận nhầm lẫn và Test and Score đưa vào file word này. Giải thích lý do chọn phương pháp

    2. . (2đ)

Kết quả:





  • Giai thich: Ở Test and Score, các chỉ số của phương pháp SVM cao hơn các phương pháp còn lại. Có thể thấy rằng phường pháp này là chính xác nhất trong tập dữ liệu này; Tỷ lệ dự báo chính xác ở PP SVM là 89.6% và 85.9%, còn dự báo sai là 10.4% và 14.1%. Đây là các cặp tỷ lệ chính xác nhất trong cả ba phương pháp.

    1. Sử dụng mô hình tốt nhất để dự báo cho dữ liệu trong sheet DubaoDT và copy dữ liệu dự báo đưa vào file word này. Lưu file Orange hiện tại đặt tên là PL_MSSV.ows .. (1.5đ)

Kết quả:


  1. Bài toán phân cụm: Dữ liệu sử dụng là sheet PhanCum trong file Excel

    1. Sử dụng phương pháp Hierachical Clustering để tiến hành phân cụm phân cấp dữ liệu. Trong trường hợp cần sử dụng 3 cụm dữ liệu thì hãy đưa các chỉ số Silhouette của phương pháp tính tốt nhất. Copy dữ liệu 3 chỉ số Silhoutte đưa vào file word này. (2đ)

Kết quả:




    1. Sử dụng phương pháp K-Means để tiến hành phân cụm. Với dữ liệu hiện tại thì nên phân ra bao nhiêu cụm là tốt nhất? Trong trường hợp chúng ta chỉ cần 3 cụm thì hãy cho biết các chỉ số Silhouette của từng cụm. Copy dữ liệu 3 chỉ số Silhoutte đưa vào file word này. Lưu file Orange hiện tại đặt tên PC_MSSV.ows (1.5đ)

Kết quả:




tải về 230.06 Kb.

Chia sẻ với bạn bè của bạn:




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương