XỬ LÝ CÁc câu truy vấn và TÌm kiếm trên kho tài liệu có chú thích ngữ nghĩa bằng tiếng anh



tải về 0.6 Mb.
trang1/14
Chuyển đổi dữ liệu02.09.2016
Kích0.6 Mb.
  1   2   3   4   5   6   7   8   9   ...   14




Đại Học Quốc Gia TP. Hồ Chí Minh

TRƯỜNG ĐẠI HỌC BÁCH KHOA

---------o0o----------
LUẬN VĂN ĐẠI HỌC

XỬ LÝ CÁC CÂU TRUY VẤN VÀ TÌM KIẾM TRÊN KHO TÀI LIỆU CÓ CHÚ THÍCH NGỮ NGHĨA BẰNG TIẾNG ANH


Chuyên ngành: Khoa Học Máy Tính

GVHD : Pgs.Ts. Cao Hoàng Trụ

Sinh viên : Nguyễn Trần Đăng Khoa (50601130)

Tạ Tất Tài (50602084)



TP. Hồ Chí Minh, tháng 12 – 2010
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học : PGS.TS. CAO HOÀNG TRỤ
Cán bộ chấm nhận xét 1 :
Cán bộ chấm nhận xét 2 :

Luận văn đại học được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN ĐẠI HỌC

TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày . . . . . tháng . . . . năm . . . . .

LỜI CAM ĐOAN
Tôi cam đoan rằng ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường đại học nào khác.

Ngày Tháng Năm

Ký tên

LỜI CẢM ƠN
Trước hết, chúng tôi xin gởi lời cảm ơn chân thành và sâu sắc đến Pgs.Ts. Cao Hoàng Trụ, và kỹ sư Châu Kim Cường, những người đã trực tiếp hướng dẫn tôi trong quá trình làm luận văn này. Sự hướng dẫn chu đáo, tận tình, cùng với những tài liệu và lời khuyên quý giá của thầy và anh trong hơn 3 tháng qua là nhân tố không thể thiếu để chúng tôi có thể hoàn thành nhiệm vụ.

Chúng tôi xin gửi lời cảm ơn đến gia đình và bạn bè, những người luôn sát cánh, động viên, và tạo mọi điều kiện tốt nhất để chúng tôi có thể học tập và hoàn tất được luận văn tốt nghiệp này.

Chúng tôi chân thành biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý thầy cô khoa Khoa học và Kỹ thuật Máy tính trường Đại học Bách khoa.

Luận văn này khó tránh khỏi còn thiếu sót do tầm nhìn của chúng tôi còn hạn hẹp, rất mong nhận được sự góp ý của quý thầy cô cùng các bạn.




TÓM TẮT

Từ khi ra đời đến nay, World Wide Web đã trở thành một công cụ quan trọng để lưu trữ và chia sẻ nguồn tri thức khổng lồ. Tuy nhiên, các công cụ phần mềm hiện nay chưa hỗ trợ thật hiểu quả cho con người trong quá trình khai thác kho tri thức ấy. Với mong muốn làm hiệu quả hơn quá trình đó, luận văn này xây dựng một công cụ tìm kiếm có thể “hiểu” được nội dung của câu truy vấn bằng tiếng Anh và trả về kết quả.

Để biên dịch câu truy vấn ngôn ngữ tự nhiên, luận văn này dựa trên nền tảng web ngữ nghĩa, kết hợp với phương pháp dịch ít phụ thuộc vào cú pháp của nhóm VN-KIM. Để thể hiện nội dung biên dịch được, luận văn biểu diễn bằng đồ thị ý niệm. Cuối cùng, câu truy vấn SeRQL được dùng để tìm kiếm kết quả.

Hiệu quả của hệ thống được đánh giá trên tập câu truy vấn mẫu “TREC 2002”.



MỤC LỤC

TỔNG QUAN 1

1.1 Giới thiệu 1

1.2 Mục tiêu và phạm vi 3

1.3 Kết quả đạt được 5

1.4 Cấu trúc luận văn 6

KIẾN THỨC NỀN TẢNG 8

2.1 Rút trích quan hệ 8

2.2 Đồ thị ý niệm (Conceptual Graph) 9

2.2.1 Sơ lược về đồ thị ý niệm 9

2.2.2 Đồ thị ý niệm mở rộng 11

2.3 Tìm thực thể vài tài liệu 12

2.3.1 Câu truy vấn SeRQL [tham khảo http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons] 12

2.3.2 Semantic Lucene 14

PHÂN TÍCH VẤN ĐỀ VÀ PHƯƠNG PHÁP GIẢI QUYẾT 15

3.1 Chuyển đổi câu truy vấn với từ để hỏi “How many” 15

3.2 Chuyển đổi câu truy vấn có tính từ 17

3.3 Chuyển đổi câu truy vấn có tính từ so sánh nhất 19

3.4 Chuyển đổi câu truy vấn có tính từ 21

3.5 Chuyển đổi câu truy vấn có tính từ so sánh nhất 22

3.5.1 Trường hợp tính từ định tính 22

3.5.2 Trường hợp tính từ định lượng [tham khảo HA] 22

3.6 Chuyển đổi câu truy vấn có tính từ định lượng so sánh hơn 24

THIẾT KẾ 25

4.1 Các bước của giải thuật 25

4.1.1 Phân tách câu truy vấn 27

4.1.2 Nhận biết thực thể có tên 27

4.1.3 Nhận biết thực thể không tên 27

4.1.4 Nhận biết tính từ 28

4.1.5 Nhận biết từ quan hệ 28

4.1.6 Xác định lớp của thực thể 29

4.1.7 Gom các thực thể 29

4.1.8 Xác định quan hệ ẩn 30

4.1.9 Xác định loại quan hệ giữa các thực thể 31

4.1.10 Xoá bỏ quan hệ không phù hợp 33

4.1.11 Xác định quan hệ giữa tính từ và thực thể 35

4.1.12 Xây dựng đồ thị ý niệm 37

4.2 Tập luật 38

4.2.1 Cấu trúc của hệ thống luật 38

4.2.2 Cấu trúc thành phần điều kiện của luật 39

4.2.3 Cấu trúc thành phần hành động của luật 40

4.2.4 Xây dựng một số luật đặc biệt 41

4.2.5 Xây dựng từ điển luật 41

4.3 Kết quả thí nghiệm 43

HIỆN THỰC HỆ THỐNG 52

5.1 Các khối xử lý và giao diện các lớp quan trọng 52

5.1.1 Ứng dụng web phía Client 52

5.1.2 Hệ thống xử lý trên server 52

5.2 Hệ thống luật [tham khảo CDT] 56

5.2.1 Cấu trúc của hệ thống luật 57

5.2.2 Cấu trúc thành phần điều kiện của luật 58

5.2.3 Cấu trúc thành phần hành động của luật 59

5.2.4 Xây dựng một số luật đặc biệt 60

5.3 Lưu trữ đồ thị và hiển thị đồ thị [tham khảo HA] 60

5.4 Xây dựng câu truy vấn SeRQL 63

KẾT LUẬN 67

TÀI LIỆU THAM KHẢO 69

PHỤ LỤC A: TẬP CÂU MẪU TREC 2002 73

PHỤ LỤC C: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 TRƯỚC KHI LÀM GIÀU ONTOLOGY 78

PHỤ LỤC D: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 SAU KHI LÀM GIÀU ONTOLOGY 79


DANH MỤC HÌNH

Hình 3.0.1: Ví dụ về biểu diễn câu truy vấn "How many". 16

Hình 3.0.2: Ví dụ về biểu diễn câu truy vấn "How many" ở dạng rút gọn. 16

Hình 3.0.3: Ví dụ về biểu diễn tổng quát cho câu truy vấn "How many". 16

Hình 4.0.4: Mô tả các bước dùng để xây dựng đồ thị ý niệm cho câu truy vấn. 26

Hình 4.0.5: Xác định loại quan hệ giữa hai thực thể ei và ej. 31

Hình 4.0.6: Lược đồ ánh xạ kiểu quan hệ của bộ ba truy vấn. 32

Hình 4.0.7: Xác định loại quan hệ giữa tính từ adj và thực thể. 35

Hình 4.0.8: Lược đồ ánh xạ kiểu quan hệ giữa tính từ và thực thể. 36

Hình 4.0.9: Cấu trúc tập thành phần TransformRules và rule. 39

Hình 4.0.10: Cấu trúc của thành phần điều kiện luật. 40

Hình 4.0.11: Ví dụ về thành phần premise. 41

Hình 4.0.12: Cấu trúc của thành phần hành động. 42

Hình 4.0.13: Cấu trúc từ điển quan hệ. 42

Hình 4.0.14: Ví dụ một luật hoàn chỉnh. 42

Hình 4.0.15: Ví dụ một số thành phần trong từ điển. 43

Hình 4.0.16: Ví dụ về biểu diễn câu truy vấn “Queried relation”. 46

Hình 4.0.17: Ví dụ về biểu diễn câu truy vấn “Advert / Temporal”. 47


DANH MỤC BẢNG

Bảng 4.1: Bảng thuộc tính thành phần premise. 40

Bảng 4.2: Mô tả các thuộc tính của thành phần entry. 43

Bảng 4.3: Kết quả thực nghiệm trên TREC 2002 khi chưa áp dụng phương pháp đề nghị. 44

Bảng 4.4: Kết quả thực nghiệm trên TREC 2002 sau khi áp dụng phương pháp đề nghị. 45

Bảng 4.5: Kết quả thực nghiệm trên TREC 2002 sau khi làm giàu Ontology. 45

Bảng 4.6: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2002. 48

Bảng 4.7: Kết quả thực nghiệm trên TREC 2007 khi chưa áp dụng phương pháp đề nghị. 48

Bảng 4.8: Kết quả thực nghiệm trên TREC 2007 sau khi áp dụng phương pháp đề nghị. 49

Bảng 4.9: Kết quả thực nghiệm trên TREC 2007 sau khi làm giàu Ontology. 49

Bảng 4.10: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2007. 50



: nonghocbucket -> UploadDocument server07 id114188 190495
UploadDocument server07 id114188 190495 -> ChuyêN ĐỀ ĐIỀu khiển tán sắC
UploadDocument server07 id114188 190495 -> Trong khuôn khổ Hội nghị của fifa năm 1928 được tổ chức tại Amsterdam (Hà Lan), Henry Delaunay đã đưa ra một đề xuất mang tính đột phá đối với lịch sử bóng đá
UploadDocument server07 id114188 190495 -> MỤc lục phần I: MỞ ĐẦU
UploadDocument server07 id114188 190495 -> «Quản trị Tài sản cố định trong Công ty cổ phần Điện lực Khánh Hòa»
UploadDocument server07 id114188 190495 -> Khóa luận tốt nghiệp 2010 Mục tiêu phát triển kinh tế xã hội trong thời kì tới 85
UploadDocument server07 id114188 190495 -> ĐỒ Án tốt nghiệp tk nhà MÁY ĐƯỜng hiệN ĐẠi rs
UploadDocument server07 id114188 190495 -> Đề tài: Qúa trình hình thành và phát triển an sinh xã hội ở Việt Nam
UploadDocument server07 id114188 190495 -> Chuyên đề tốt nghiệp Trần Thị Ngọc – lt2 khct L ời cảM ƠN
UploadDocument server07 id114188 190495 -> Địa vị của nhà vua trong nhà nước phong kiến Việt Nam


  1   2   3   4   5   6   7   8   9   ...   14


Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2019
được sử dụng cho việc quản lý

    Quê hương