XỬ LÝ CÁc câu truy vấn và TÌm kiếm trên kho tài liệu có chú thích ngữ nghĩa bằng tiếng anh



tải về 0.6 Mb.
trang4/14
Chuyển đổi dữ liệu02.09.2016
Kích0.6 Mb.
#30769
1   2   3   4   5   6   7   8   9   ...   14

2.3Tìm thực thể vài tài liệu


Đề tài này biến đổi từ đồ thị ý niệm sang ngôn ngữ truy vấn SeRQL để truy vấn thực thể trong cơ sở tri thức. Thực thể tìm được sẽ dùng để tìm tài liệu trên Semantic Lucene.

2.3.1Câu truy vấn SeRQL [tham khảo http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]


SeRQL (Sesame RDF Query Language) là một ngôn ngữ truy vấn cơ sở tri thức. Tương tự như SQL được sử dụng làm ngôn ngữ truy vấn trên các cơ sở dữ liệu quan hệ, SeRQL được sử dụng trên các cơ sở dữ liệu viết bằng ngôn ngữ RDF.

Trong SeRQL, có 2 loại câu truy vấn: một loại sẽ trả về một bảng các giá trị (một tập các ràng buộc (binding) giữa biến với giá trị, tương tự như khi truy vấn với SQL), loại còn lại sẽ trả về một đồ thị RDF (RDF graph). Trong đề tài này chỉ sử dụng loại thứ nhất, gọi là select queries (phiên bản 2.3.2), sẽ được trình bày sau đây.

Đối với 1 câu truy vấn thuộc loại select queries , sẽ có 8 mệnh đề có thể được sử dụng, đó là: SELECT, FROM, FROM CONTEXT, WHERE, ORDER BY, LIMIT, OFFSET và USING NAMESPACE. Chỉ có mệnh đề SELECT là bắt buộc, các mệnh đề còn lại có thể không có mặt trong câu truy vấn. Các mệnh đề SELECT, FROM, WHERE và ORDER BY là những mệnh đề sẽ được sử dụng để truy vấn trong đề tài này.

Mệnh đề SELECT ở SeRQL cũng tương tự như trong SQL, sẽ chỉ ra các biến mà ta cần trả về giá trị. Nếu truy vấn thành công, tập kết quả trả về sẽ là các giá trị được ràng buộc với các biến liệt kê trong mệnh đề SELECT. Ví dụ [tham khảo http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:

SELECT O, S

FROM {S} rdfs:label {O}

Mệnh đề FROM ở SeRQL cũng tương tự như trong SQL, nhưng, thay vì chỉ ra các bảng (table) có chứa dữ liệu, người sẽ phải chỉ ra các biểu thức đường đi (path expression) có chứa dữ liệu trong cơ sở tri thức RDF. Trong ví dụ trên, biểu thức đường đi là “{S} rdfs:label {O}” .

Mệnh đề WHERE, cũng tương tư như SQL, là nơi để người dùng đặc tả các ràng buộc mà các biến phải thỏa mãn. Nếu có nhiều ràng buộc, chúng có thể được liên kết bằng các từ khóa AND, OR, NOT, là các toán tử của đại số Bool.Trong mệnh đề WHERE, ta cũng có thể sử dụng câu truy vấn lòng nhau (nested query) và sử dụng từ khóa ALL để biểu diễn ràng buộc đối với một tập giá trị. Ví dụ [tham khảo http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:

SELECT highestValue

FROM {node} ex:value {highestValue}

WHERE highestValue >= ALL ( SELECT value

FROM {} ex:value {value}

)

Để sắp xếp kết quả trả về theo một thứ tự nhất định, người dùng có thể sử dụng mệnh đề ORDER BY, kết hợp các từ khóa DESC (giảm dần) và ASC (tăng dần – mặc định). Có thể kết hợp sắp xếp trên nhiều biến trả về, cách nhau bởi dấu “,”. Ví dụ [tham khảo http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:



SELECT Countr, Population

FROM {Country} ex:population {Population}

ORDER BY Population DESC
Ngoài ra, SeRQL cũng hỗ trợ 3 toán tử UNION, INTERSECT và MINUS để thực hiện kết hợp, giao và loại trừ các tập kết quả. Ví dụ [tham khảo http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:

SELECT title

FROM {book} dc10:title {title}
UNION
SELECT title

FROM {book} dc11:title {title}

Đề tài sẽ sử dụng các toán tử tập hợp này vào việc giải quyết các câu truy vấn có liên từ luận lý.

2.3.2Semantic Lucene


Lucene: là một thư viện mã nguồn mở viết bằng Java, dùng để phân tích, hỗ trợ đánh chỉ mục và tìm kiếm thông tin với hiệu suất cao. Lucene được phát triển đầu tiên bởi Doug Cutting, và ra mắt vào tháng 3/2000. Hiện tại Lucene đang được Apache phát triển và duy trì. Lucene không phải một ứng dụng, mà chỉ là một công cụ đặc tả API cần thiết cho một search engine. Ngoài phiên bản ban đầu bằng Java, hiện nay còn có Lucene cho các ngôn ngữ khác: .NET, C++, Perl…

VN-KIM Semantic Lucene (S-Lucene): là hiện thực mở rộng của Lucene cho tìm kiếm ngữ nghĩa. VN-KIM S-Lucene là một thư viện phần mềm trong hệ thống VN-KIM, có vai trò quan trọng trong việc quản lý, truy hồi các thực thể hay các tài liệu đã được chú giải.

Khác biệt chủ yếu giữa Lucene và S-Lucene đó là Lucene đánh chỉ mục và tìm kiếm trên từ khóa, trong khi đó S-Lucene mở rộng cho đánh chỉ mục và tìm kiếm theo thực thể.

Đầu vào của S-Lucene là các bộ ba (name/class/ID) nhận được từ quá trình tìm kiếm thực thể. S-Lucene trả về các tài liệu tương ứng với các bộ ba đó.


CHƯƠNG 3

PHÂN TÍCH VẤN ĐỀ VÀ PHƯƠNG PHÁP GIẢI QUYẾT

3.1Chuyển đổi câu truy vấn với từ để hỏi “How many”


Về cơ bản, chúng tôi thấy rằng việc biểu diễn các câu truy vấn hỏi về số lượng (Có từ hỏi là “How many”) bằng đồ thị ý niệm đòi hỏi phải giải quyết được hai vấn đề sau:

  • Thứ nhất, ta phải biểu diễn được phạm vi mà câu truy vấn muốn đề cập.

  • Thứ hai, ta phải biểu diễn được đối tượng hay thuộc tính mà câu truy vấn muốn đề cập. Thật vậy, lấy trường hợp của ví dụ trong Hình 2.2, nếu như PERSON có thêm thuộc tính về salary, thì với biểu diễn như vậy ta không thể biết được câu truy vấn muốn hỏi độ trung bình về tuổi, hay độ trung bình về lương.

Trong giải pháp đề nghị này, chúng tôi sẽ sử dụng đồ thị lồng nhau (nested CG), cụ thể là ở đây chúng tôi sẽ sử dụng đỉnh truy vấn con để giải quyết vấn đề về biểu diễn phạm vi mà câu truy vấn muốn bao phủ, và sử dụng liên kết đồng tham chiếu để biểu diễn đối tượng mà câu truy vấn muốn đề cập.

Với giải pháp đề nghị, câu truy vấn “How many students are there in Computer Science Department?” sẽ được biểu diễn như Hình 3.1.





Hình 3.0.1: Ví dụ về biểu diễn câu truy vấn "How many".

Để ngắn gọn, chúng tôi sẽ định nghĩa một đường liên kết mới thay thế đường liên kết đồng tham chiếu cho việc biểu diễn đối tượng mà câu truy vấn muốn đề cập. Trong tài liệu này chúng tôi đề xuất biểu diễn bằng đường liên kết nét đôi. Biểu diễn dạng ngắn gọn cho ví dụ trên như sau:





Hình 3.0.2: Ví dụ về biểu diễn câu truy vấn "How many" ở dạng rút gọn.

Sau đây là giải pháp đề xuất cho việc giải quyết mẫu câu truy vấn có từ để hỏi là “How many”. Mẫu câu truy vấn này sẽ có dạng sau, với RW là từ quan hệ, S là chủ thể, O là khách thể:

How many S RW O

Đầu tiên, chúng ta sẽ xây dựng đỉnh truy vấn con để biểu diễn câu S RW O. Sau đó, chúng ta định nghĩa quan hệ COUNT gắn với đỉnh truy vấn con vừa tạo. Một đường liên kết nét đôi sẽ được nối từ quan hệ COUNT tới đỉnh khái niệm S trong đỉnh truy vấn con. Biểu diễn tổng quát cho mẫu truy vấn “How many” như Hình 3.3





Hình 3.0.3: Ví dụ về biểu diễn tổng quát cho câu truy vấn "How many".

Каталог: nonghocbucket -> UploadDocument server07 id114188 190495
UploadDocument server07 id114188 190495 -> ChuyêN ĐỀ ĐIỀu khiển tán sắC
UploadDocument server07 id114188 190495 -> Trong khuôn khổ Hội nghị của fifa năm 1928 được tổ chức tại Amsterdam (Hà Lan), Henry Delaunay đã đưa ra một đề xuất mang tính đột phá đối với lịch sử bóng đá
UploadDocument server07 id114188 190495 -> MỤc lục phần I: MỞ ĐẦU
UploadDocument server07 id114188 190495 -> «Quản trị Tài sản cố định trong Công ty cổ phần Điện lực Khánh Hòa»
UploadDocument server07 id114188 190495 -> Khóa luận tốt nghiệp 2010 Mục tiêu phát triển kinh tế xã hội trong thời kì tới 85
UploadDocument server07 id114188 190495 -> ĐỒ Án tốt nghiệp tk nhà MÁY ĐƯỜng hiệN ĐẠi rs
UploadDocument server07 id114188 190495 -> Đề tài: Qúa trình hình thành và phát triển an sinh xã hội ở Việt Nam
UploadDocument server07 id114188 190495 -> Chuyên đề tốt nghiệp Trần Thị Ngọc – lt2 khct L ời cảM ƠN
UploadDocument server07 id114188 190495 -> Địa vị của nhà vua trong nhà nước phong kiến Việt Nam

tải về 0.6 Mb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6   7   8   9   ...   14




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương