Hà NỘI 2022 ĐẠi học quốc gia hà NỘi trưỜng đẠi học công nghệ


- Công cụ thu thập dữ liệu



tải về 4.42 Mb.
Chế độ xem pdf
trang21/44
Chuyển đổi dữ liệu10.05.2023
Kích4.42 Mb.
#54665
1   ...   17   18   19   20   21   22   23   24   ...   44
LVCH Pham The Vinh K25 HTTT toan van Final

 
- Công cụ thu thập dữ liệu: Sử dụng chương trình viết bằng Python bao gồm các 
thư viện selenium, openpyxl để crawl dữ liệu từ các trang web ở trên và lưu trữ dữ 
liệu trong 1 file định dạng csv. 
- Kết quả thu thập dữ liệu 

Số lượng mẫu đã thu thập được là 21681 đối tượng dữ liệu về các cơ sở lưu 
trú, ăn uống, điểm đến, điểm mua sắm, ... bao gồm hơn 18 nghìn thực thể và 
gần 3000 lớp. Cụ thể như sau: 
Bảng 2.2: Kết quả thu thập dữ liệu 
STT 
Đối tượng 
Số lượng đối tượng đã thu thập 

Cơ sở lưu trú (khách sạn, nhà nghỉ, homestay, 
apartment) 
5655 

Cơ sở ăn uống 
7705 

Cơ sở mua sắm 
2339 

Các điểm đến 
1438 

Vận chuyển 
1848 

Đơn vị hành chính (tỉnh/thành, quận/huyện, 
xã/phường) 
2696 
Tổng 
21681 
 


27
2.4 Xây dựng Ontology phục vụ tra cứu thông tin về du lịch tại Việt Nam 
Bước 1: Xác định lĩnh vực và phạm vi của Ontology 
- Lĩnh vực: Xây dựng Ontology trong miền du lịch, phục vụ tra cứu thông tin về du 
lịch tại Việt Nam. 
- Mục đích: Hỗ trợ cho khách du lịch có thể tìm kiếm các cơ sở lưu trú, lựa chọn địa 
điểm tham quan, mua sắm, phương tiện vận chuyển đi lại theo sở thích. 
- Đối tượng phục vụ: Khách du lịch trong và ngoài nước có nhu cầu tìm kiếm thông 
tin liên quan đến chuyến đi như khách sạn, nhà hàng, các điểm du lịch hấp dẫn, … 
- Phạm vi: Các tỉnh thành phố là Hà Nội, Hà Giang, Lào Cai, Hải Phòng, Quảng 
Ninh, Quảng Bình, Thừa Thiên Huế, Đà Nẵng, Quảng Nam, Khánh Hòa, Thành phố 
Hồ Chí Minh, Kiên Giang. 
Bước 2: Xem xét việc sử dụng lại các Ontology có sẵn 
- Hiện chưa có Ontology trong miền du lịch tại Việt Nam chính thức để kế thừa và 
tiếp tục phát triển. 
Bước 3: Liệt kê các thuật ngữ quan trọng
- Các thuật ngữ liên quan đến nơi ở, lưu trú: Khách sạn, nhà nghỉ, homestay, 
apartment sẽ có các thuộc tính là: tên gọi, cơ sở vật chất, hạng sao, điểm đánh giá, 
số lượng đánh giá, giá phòng, trang web, địa chỉ, số điện thoại. 
- Các thuật ngữ liên quan đến đại điểm ăn uống: Các nhà hàng, quán ăn, món ăn ngon, 
khu ẩm thực, quán bar, quán café, quán trà có các thuộc tính là: tên gọi, điểm đánh 
giá, số lượng đánh giá, địa chỉ, số điện thoại. 
- Các thuật ngữ liên quan đến địa điểm mua sắm: chợ, cửa hàng, trung tâm thương 
mại có các thuộc tính là: tên gọi, địa chỉ, số điện thoại. 
- Các thuật ngữ liên quan đến điểm đến thu hút: di sản di tích, bảo tàng, công viên, 
sông, núi, hồ, cầu, sinh thái nghỉ dưỡng, tham quan ngắm cảnh, vui chơi giải trí, 
làng nghề, bãi biển, bán đảo, vịnh, hang động … có các thuộc tính là: tên gọi, địa 
chỉ, số điện thoại. 
- Các thuật ngữ liên quan đến vận chuyển: hàng không, sân bay, đường sắt, taxi, xe 
buýt có các thuộc tính là: tên gọi, địa chỉ, số điện thoại. 
- Các thuật ngữ liên quan đến địa chỉ: tỉnh, thành phố, quận, huyện, thị xã, phường, 
xã. 

tải về 4.42 Mb.

Chia sẻ với bạn bè của bạn:
1   ...   17   18   19   20   21   22   23   24   ...   44




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương