XỬ LÝ CÁc câu truy vấn và TÌm kiếm trên kho tài liệu có chú thích ngữ nghĩa bằng tiếng anh



tải về 0.6 Mb.
trang3/14
Chuyển đổi dữ liệu02.09.2016
Kích0.6 Mb.
#30769
1   2   3   4   5   6   7   8   9   ...   14

1.3Kết quả đạt được


Đề tài đã xây dựng được 1 hệ thống tìm kiếm dựa trên ngữ nghĩa cho tiếng Anh, với các dạng câu truy vấn như đã trình bày ở trên.

Đồng thời, mở rộng thêm một số khả năng khi xử lý những câu truy vấn dạng phức tạp. Đầu tiên là khả năng đề xuất đồ thị ý niệm khả áp dụng ngay cả khi quan hệ với tính từ trong câu truy vấn không có trong cơ sơ tri thức. Mục đích là làm ta có thể đánh giá tính chính xác của quá trình “hiểu” câu truy vấn của hệ thống mà không bị quá lệ thuộc vào cơ sơ tri thức. Ví dụ như sau:

“What is the longest dam in the U.S.?” Mặc dù quan hệ giữ “dam” và “long” không có trong cơ sơ tri thức, nhưng ta vẫn có thể cung cấp đồ thị ý niệm cho người dùng (với quan hệ “ảo” được vẽ màu xanh lá).



Hình 1.1 Đồ thị có đề xuất quan hệ không tồn tại trong cơ sở tri thức

Ngoài ra, để truy xuất được tài liệu, thì chỉ ngừng lại ở đồ thị là chưa đủ, cần phải chuyển đồ thị đó sang ngôn ngữ SeRQL, là ngôn ngữ dùng để truy xuất cơ sở tri thức ngữ nghĩa. Luận văn này đã đề xuất và hiện thực cách thức chuyển từ đồ thị ý niệm của những câu truy vấn dạng này sang truy vấn SeRQL để lấy về thực thể (entity) cần tìm.

Luận văn cũng đề xuất và hiện thực cách xử lý câu truy vấn có chứa dạng so sánh hơn của tính từ định lượng. Các câu truy vấn có so sánh hơn với một hằng số, hoặc so sánh hơn với một thực thể, như “What dam in the U.S. is higher than 1200 meters?”, “What dam is higher than Dworshak in the U.S.?” cũng đã được chuyển sang đồ thị ý niệm, rồi chuyển sang câu truy vấn SeRQL tương ứng.

1.4Cấu trúc luận văn


Chương 1 đã trình bày khái quát động cơ, mục đích, ý tưởng thực hiện đề tài. Tiếp theo sau Chương 1 là phần trình bày chi tiết về ý tưởng và phương pháp của chúng tôi để đạt được mục đích đã đề ra.

Chương 2 trình bày những nghiêu cứu và hệ thống liên quan đến việc chuyển đổi câu truy vấn tiếng Anh sang đồ thị ý niệm. Mục 2.1 trình bày phương pháp rút trích quan hệ trong câu truy vấn. Sơ lược giới thiệu về đồ thị ý niệm được trình bày ở Mục 2.2.

Chương 3 trình bày cách tiếp cận vấn đề với việc giải quyết câu truy vấn hỏi về số lượng được trình bày tại Mục 3.1, giải quyết cho câu truy vấn có chứa tính từ được trình bày tại Mục 3.2, giải quyết cho câu truy vấn có chứa tính từ so sánh nhất được trình bày tại Mục 3.3 và giải quyết cho câu truy vấn có chứa liên từ luận lý sẽ được trình bày tại Mục 3.4.

Chương 4 trình bày phương pháp biên dịch câu truy vấn tiếng Anh sang đồ thị ý niệm. Mục 4.1 sẽ mô tả các bước trong giải thuật xây dựng đồ thị ý niệm cho câu truy vấn. Mục 4.2 trình bày chi tiết về tập luật ánh xạ. Những kết quả đạt được của đề tài sẽ được tổng kết tại Mục 4.3.

Chương 5 trình bày chi tiết phương pháp lưu trữ và hiển thị đồ thị ý niệm.

Chương 6 đưa ra kết luận và đề nghị hướng phát triển cho tương lai. Phần phụ lục giới thiệu tập câu hỏi mẫu TREC 2002, TREC 2007 cùng các đồ thị ý niệm đã được sinh đúng cho những câu truy vấn rút ra từ hai tập câu hỏi mẫu này.


CHƯƠNG 2

KIẾN THỨC NỀN TẢNG

2.1Rút trích quan hệ


Rút trích quan hệ là xác định mối quan hệ ngữ nghĩa giữa cặp các thành phần không có cấu trúc hay bán cấu trúc trong văn bản ngôn ngữ tự nhiên. Rút trích quan hệ dựa vào Ontology liên quan tới hai công việc chính: xác định mối quan hệ giữa hai thành phần đã biết chủ yếu dựa trên miền Ontology và khám phá các mối quan hệ mới giữa hai ý niệm không có trên miền Ontology. Ví dụ trong câu “Bill Gates is chairman and chief software architect of Microsoft Corporation”, tồn tại quan hệ theo kiểu của ACE (Automatic Content Extraction) là EMPLOYMENT.exec giữa hai thực thể có tên là “Bill Gates” thuộc lớp PERSON.Name và “Mircrosoft Corporation” thuộc lớp ORGANIZATION.Commercial. Có nhiều kỹ thuật rút trích quan hệ, dựa trên luật (rule-based), dựa trên đặc điểm (feature-based) và phương pháp kernel (kernel-based) dưới đây trình bày một số nghiên cứu về rút trích quan hệ:

  • Các phương pháp dựa trên luật sử dụng các luật của ngôn ngữ để nắm bắt các mẫu quan hệ khác nhau. Hệ thống [8] rút trích quan hệ từ một quá trình phân tích cú pháp, do đó kết quả của nó phụ thuộc hoàn toàn vào cây cú pháp.

  • Các phương pháp rút trích dựa trên đặc điểm [21] sử dụng các đặc điểm của ngôn ngữ như đặc điểm từ vựng, đặc điểm cú pháp và đặc điểm ngữ nghĩa. Những phương pháp này rất hiệu quả cho việc rút trích quan hệ. Tuy nhiên, vấn đề gặp phải là các đặc điểm phải được mô tả thủ công và cấu trúc thông tin trong cây cú pháp không được bảo toàn trong cây đặc điểm (Là cây biểu diễn các đường nối không kết thúc giữa hai thực thể trong cây cú pháp).

  • Các phương pháp dựa trên kernel chú trọng vào việc sử dụng các cây kernel riêng lẻ để khai thác đặc điểm cấu trúc. Hệ thống [19] xây dựng một quan hệ kernel trên cây cú pháp cho việc rút trích quan hệ. Kernel so trùng các node từ gốc cho tới lá một cách đệ quy theo từng lớp từ trên xuống.

Tuy nhiên các nghiên cứu trên chỉ chú trọng vào rút trích quan hệ giữa các thực thể có tên đã biết. Để xây dựng được đồ thị ý niệm, ngoài việc rút trích quan hệ giữa các thực thể có tên còn phải rút trích quan hệ giữa các thực thể không tên với nhau, hay các quan hệ giữa các thực thể có tên với thực thể không tên.

2.2Đồ thị ý niệm (Conceptual Graph)

2.2.1Sơ lược về đồ thị ý niệm


Đồ thị ý niệm là một hình thức biểu diễn logic (logical formalism) vừa có tính trực quan, vừa có sự chính xác. Về hình thức, đây là một đồ thị tạo ra bởi các đỉnh và các cạnh (có thể có hướng hoặc không có hướng). Nhờ sử dụng cách biểu diễn đồ họa trực quan đó, đồ thị cho phép con người nhanh chóng có được một cái nhìn tổng quan, dễ nắm bắt ý nghĩa. Về nội dung, đồ thị ý niệm có thể được ánh xạ trực tiếp sang logic vị từ (predicate logic). Nhờ đó, có thể biểu diễn ngữ nghĩa một cách chính xác, giữ được tính chính xác về mặt logic. Với những đặc điểm đó, đồ thị ý niệm vừa dễ tiếp cận đối với con người, vừa khả xử lý đối với máy tính.

Và đồ thị ý niệm đã được dùng như là một hình thức biểu diễn tri thức, là một ngôn ngữ trung gian cho việc chuyển đổi qua lại giữa hình thức biểu diễn hướng máy tính và ngôn ngữ tự nhiên. “Tim Berners Lee, người phát minh của WWW, kết luận rằng các CG có thể dễ dàng tích hợp với Semantic Web. Nó cũng được chỉ ra là có một ánh xạ chặt với ngôn ngữ RDF.” Nó cũng được chỉ ra trong là có một ánh xạ chặt giữa CG và ngôn ngữ RDF (ko hiểu đoạn này >.<).” [tham khao HA].

“Trong bài báo đầu tiên công bố liên quan tới đồ thị ý niệm, Sowa đã định nghĩa đồ thị ý niệm như sau: Chỗ này ta nghĩ chỉ cần nói: Sowa đã định nghĩa dtyn trong 1 bài báo của mình:… rồi trích dẫn đoạn định nghĩa thôi. Ghi như vầy thì ghi là tk HA được, còn ghi như T thì phải ghi là tk bài báo nào đó mà mình ko đọc, nên thôi cứ ghi vầy đi, ý nghĩa như là HA bảo cho mình biết Sowa nó vậy

Đồ thị ý niệm là một đồ thị hữu hạn, liên thông, không có hướng, lưỡng phân với những nút thuộc một loại được gọi là ý niệm (hoặc khái niệm – concepts) và những nút thuộc loại còn lại được gọi là quan hệ khái niệm (conceptual relations).” [tham khao HA]

Như vậy, đồ thị ý niệm thuộc loại đồ thị phân đôi, và bao gồm 2 loại đỉnh: các đỉnh khái niệm và các đỉnh quan hệ. Trong đó, các đỉnh khái niệm chỉ liên kết với các đỉnh quan hệ bởi các cạnh và ngược lại.

Đỉnh khái niệm được biểu diễn bằng hình chữ nhật có nhãn là kiểu khái niệm kết hợp với tham chiếu. Đỉnh quan hệ có hình oval với nhãn chính là kiểu quan hệ của nó. Mỗi đỉnh quan hệ có thể liên kết với nhiều đỉnh khái niệm bằng các cạnh có hướng. Để ngắn gọn, chúng ta sẽ gọi đỉnh quan hệ, đỉnh khái niệm lần lượt là quan hệ, khái niệm.


STUDENT: John



SUBJECT: *

FIELD: CS

[hình tham khảo CDT]

Hình trên là đồ thị ý niệm cho câu “John is a student. There is a subject. CS is a field of study. The subject is in CS. John studies the subject. Hoặc ngắn gọn hơn là “John studies a subject in CS”. (Đoạn này nếu có thể ta nghĩ mình nên tìm một ví dụ khác tương tự, vì ngay cả ví dụ mà cũng phải tham khảo có thể tạo cho người đọc cảm giác mình chưa hiểu kỹ về nó) nếu còn tgian sẽ sáng tạo

Trong định dạng văn bản, các khái niệm và các quan hệ có thể được biết trong dấu ngoặc vuông và ngoặc tròn như sau:

[STUDENT: John]→(STUDY)→[SUBJECT: *]→(IN)→[FIELD: CS]

Trong ví dụ này, [STUDENT: John], [SUBJECT:*], [FIELD: CS] là các khái niệm với STUDENT, SUBJECT và FIELD trở thành kiểu khái niệm, trong khi đó (STUDY) và (IN) là các quan hệ với STUDY và IN là các kiểu quan hệ. Các tham khảo JohnCS là các tham chiếu xác định. Tham chiếu “*” là tham chiếu tổng quát ám chỉ tới một thực thể không xác định.

Đồ thị ý niệm được sử dụng để kiểm tra tính chính xác của quá trình dịch câu truy vấn trong đề tài, bên cạnh các tham chiếu xác định và tham chiếu tổng quát, được bổ sung thêm tham chiếu nghi vấn. Tham chiếu nghi vấn biểu diễn cho thực thể được truy vấn trong câu. Một đồ thị ý niệm truy vấn là một đồ thị ý niệm mà các tham chiếu có thể là tham chiếu xác định, tham chiếu tổng quát hoặc là tham chiếu nghi vấn được biểu diễn bằng dấu “?”.

2.2.2Đồ thị ý niệm mở rộng


Đồ thị ý niệm mở rộng [tham khảo HA] là đồ thị ý niệm có sử dụng thêm một khái niệm đặc biệt, gọi là đỉnh truy vấn con. Đó là một đỉnh khái niệm, nhưng có kiểu khái niệm riêng, và tham chiếu đến thực thể của nó là một đồ thị ý niệm khác. Tức là, bên trong đỉnh truy vấn con là nội dung một đồ thị ý niệm truy vấn tri thức. Đỉnh truy vấn con sẽ được biểu diễn bằng hình chữ nhật vát góc. Đỉnh truy vấn con được biểu diễn bằng hình chữ nhật tròn góc (Ta nghĩ chỗ này mình nên nói: trong tài liệu (hay luận văn) này, đỉnh truy vấn con được biểu diễn bằng hình chữ nhật vát góc, vì các ví dụ sau này đâu phải tròn góc). Ta xét một ví dụ minh họa: ta có câu truy vấn lồng nhau như sau: “Tìm tên của những giảng viên có tên trùng với tên của những giảng viên tại trường Đại học Bách Khoa”. Câu truy vấn này sẽ được biểu diễn như sau:

[hình tham khảo HA]

Trong đề tài [tham khảo HA], đỉnh truy vấn con này được sử dụng phần lớn trong các phương pháp đề xuất sẽ được bàn đến ở những phần tiếp theo.


Каталог: nonghocbucket -> UploadDocument server07 id114188 190495
UploadDocument server07 id114188 190495 -> ChuyêN ĐỀ ĐIỀu khiển tán sắC
UploadDocument server07 id114188 190495 -> Trong khuôn khổ Hội nghị của fifa năm 1928 được tổ chức tại Amsterdam (Hà Lan), Henry Delaunay đã đưa ra một đề xuất mang tính đột phá đối với lịch sử bóng đá
UploadDocument server07 id114188 190495 -> MỤc lục phần I: MỞ ĐẦU
UploadDocument server07 id114188 190495 -> «Quản trị Tài sản cố định trong Công ty cổ phần Điện lực Khánh Hòa»
UploadDocument server07 id114188 190495 -> Khóa luận tốt nghiệp 2010 Mục tiêu phát triển kinh tế xã hội trong thời kì tới 85
UploadDocument server07 id114188 190495 -> ĐỒ Án tốt nghiệp tk nhà MÁY ĐƯỜng hiệN ĐẠi rs
UploadDocument server07 id114188 190495 -> Đề tài: Qúa trình hình thành và phát triển an sinh xã hội ở Việt Nam
UploadDocument server07 id114188 190495 -> Chuyên đề tốt nghiệp Trần Thị Ngọc – lt2 khct L ời cảM ƠN
UploadDocument server07 id114188 190495 -> Địa vị của nhà vua trong nhà nước phong kiến Việt Nam

tải về 0.6 Mb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6   7   8   9   ...   14




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương