Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt


BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE



tải về 1.53 Mb.
trang4/6
Chuyển đổi dữ liệu14.05.2018
Kích1.53 Mb.
#38357
1   2   3   4   5   6

BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE

  1. Vì sao ta cần một công cụ tìm kiếm (SE) ?


Tưởng tượng ta muốn tìm vài quyển sách trong một thư viện rất lớn. Với sức lực cá nhân ta không thể xem qua hết tất cả sách, vì vậy ta cần một danh mục sách. Tương tự, tồn tại hàng triệu trang web trên thế giới và mỗi phút trôi qua số lượng được đẩy lên càng nhiều hơn, cho dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu cũng không thể duyệt hết. Tuy nhiên, với sự trợ giúp của SE, ta có thể thậm chí xác định được vị trí của những từ cần tìm trong các trang web khắp nơi trên thế giới.
      1. Các phương thức tìm kiếm

        1. Tìm theo từ khoá – Keyword searching


Đây là phương pháp được áp dụng với hầu hết các search engine. Trừ khi tác giả của trang web xác định từ khóa cho tài liệu của mình, ngược lại điều này phụ thuộc vào search engine. Như vậy các search engine sẽ tự mình chọn và đánh chỉ mục cho những từ mà chúng cho quan trọng có thể giúp phân biệt các tài liệu khác nhau. Các từ được đề cập trong phần II chương II hoặc các từ lặp lại nhiều lần đều được chú ý. Một số site lập chỉ mục cho tất cả các từ có trong một trang web, một số khác chỉ chọn một số đoạn văn bản.

Các hệ thống đánh chỉ mục trên toàn văn bản (full-text indexing systems) đếm số lần xuất hiện của mỗi từ trong tài liệu ngoại trừ các từ stopword. Có những công cụ tìm kiếm còn phân biệt cả chữ hoa lẫn chữ thường.


        1. Những khó khăn khi tìm theo từ khoá


Search engine thường gặp rắc rối với những từ đồng âm khác nghĩa (ví dụ hard cider, hard stone, a hard exam, hard drive) hoặc những từ có các biến thể khác nhau do có tiền tố và hậu tố như big, bigger, student, students, …. Bên cạnh đó search engine cũng không thể trả về các tài liệu chứa những từ đồng nghĩa với các từ trong câu truy vấn.
        1. Tìm theo ngữ nghĩa – Concept-based searching


Excite đã từng nổi tiếng với chiến thuật tìm theo ngữ nghĩa nhưng giờ đây chiến thuật này không còn được sử dụng nữa. Không giống các hệ thống tìm theo từ khoá, hệ thống tìm theo ngữ nghĩa sẽ ‘đoán’ ý muốn của người dùng thông qua câu chữ. Tìm theo ngữ nghĩa hoạt động dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngôn ngữ học, các thuyết về trí tuệ nhân tạo. Excite tiếp cận dựa vào phương pháp tính toán bằng cách đếm số lần xuất hiện của các từ quan trọng. Khi nhiều từ hoặc những cụm từ có nghĩa đặt gần nhau trong tài liệu thì Excite sẽ cho rằng chúng đang ám chỉ một chủ đề nào đó.

Ví dụ, khi từ ‘heart‘ đứng gần các từ như ‘attack‘ (cơn đau tim), ‘blood‘ (sự sống), ‘stroke‘ (sự say nắng), thì search engine sẽ xếp những trang chứa các từ này vào chủ đề y học và sức khoẻ. Ngược lại, khi từ ‘heart‘ đứng gần các từ ‘flowers’, ‘candy’, … thì search engine sẽ xếp những trang chứa các từ này vào chủ đề trữ tình.


      1. Các chiến lược tìm kiếm


Mọi người đều nhận xét rằng web là nơi mà ta luôn có được thông tin về bất kỳ chủ đề gì. Nhưng kết quả cuối cùng thường là lãng phí thời gian cho những URL vô ích. Do đó đã đến lúc ta nghĩ đến các chiến lược tìm kiếm.

Ta khởi đầu với một đống thông tin trên một chủ đề khá rộng ? Hoặc ta đã

hình dung được cụ thể những gì cần tìm ? Hay ta muốn tìm địa chỉ của ai đó ?

Nếu phạm vi quan tâm của ta quá rộng, ta nên xem xét các thư mục web (web directory). Nếu sau đó ta thu hẹp phạm vi cần tìm, hãy xem xét việc lựa chọn một công cụ tìm kiếm thích hợp.


        1. Tìm thông tin với các thư mục chủ đề


Giống như tìm sách trong thư viện, cân nhắc giữa tìm theo tác giả, tiêu đề, chủ đề, ta thường chọn chủ đề để có thể bao quát một vùng thông tin rộng hơn.

Ví dụ : ta muốn tạo một trang chủ (home page) nhưng không biết cách viết một file HTML như thế nào, thậm chí chưa từng tạo một file ảnh, và cũng không biết cách đẩy một trang lên mạng. Tóm lại ta cần những thông tin cho một chủ đề khá rộng - xuất bản một trang web (web publishing).

Khi hoàn toàn xác định mình cần tìm những gì ta nên bắt đầu từ một thư mục web như thư mục của Yahoo hoặc Google,…vì thư mục web tập trung nhiều vào chủ đề đang được quan tâm hơn là một công cụ tìm kiếm.

Gần đây các web site thường kết hợp thư mục web và các công cụ tìm với nhau. Ví dụ nếu ta sử dụng Google để tìm thông tin và một trong những kết quả này nằm trong thư mục web của Google, Google sẽ cung cấp cho ta một liên kết dẫn vào thư mục.


        1. Tìm thông tin với các công cụ tìm kiếm


Một số công cụ tìm kiếm gặp rắc rối với dữ liệu đầu vào của người dùng. Ví dụ : những từ chứa các ký tự đặc biệt như C++ , những từ chứa stopword như to be or not to be. Xét ví dụ khác ít rõ ràng hơn. Giả sử ta là một người rất thích tiểu thuyết trinh thám và muốn tìm những trang nói về các tác giả yêu thích. Nếu đơn giản chỉ nhập vào các từ ‘mystery‘ và ‘writer’, phần lớn các search engine sẽ trả về các liên kết dẫn đến các trang chứa một trong 2 từ trên hoặc cả 2. Như vậy có khả năng hàng trăm, thậm chí hàng ngàn URL không mong muốn. Tuy nhiên nếu ta nhập vào 1 cụm từ, kết quả sẽ khả quan hơn.
        1. Tối ưu câu truy vấn


Rất nhiều search engine áp dụng các toán tử Boolean (Boolean operators) hoặc các bộ định vị trí (proximai locators) để tối ưu câu truy vấn. Đó là các từ khoá sau :

STT

Từ khóa

Ý nghĩa

1

AND / phép toán +

Mọi từ trong câu truy vấn phải có trong tài liệu

2

OR

Tài liệu chứa ít nhất một từ cần tìm

3

NOT / phép toán -

Tài liệu không chứa [các] từ sau từ khoá

4

NEAR

Các từ cần tìm cách nhau bao nhiêu ký tự trong tài liệu

5

FOLLOWED BY / ADJ

Các từ cần tìm phải đứng cạnh nhau trong tài liệu

Bảng ‎4.4 : Các từ khóa giúp tối ưu câu truy vấn
        1. Truy vấn bằng ví dụ


Một điểm đáng kích lệ nữa của search engine là truy vấn bằng ví dụ. Sau khi liệt kê một loạt các tài liệu được cho là thoả yêu cầu người dùng, search engine còn ‘gợi ý‘ một vài site có liên quan đến chủ đề ta đang quan tâm. Nếu có thể ta hãy theo sau các liên kết này, biết đâu sẽ có kết quả khả quan!
    1. MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI VÀ VIỆT NAM


Vài nét về các đặc trưng của một số search engine thông dụng trên thế giới

Search Engine

Google

AlltheWeb

AltaVista

Teoma

Database

google.com

alltheweb.com

altavista.com

teoma.com

Kích thước(# trang)

Khoảng 4 tỉ (1 tỉ không đánh chỉ mục trên toàn văn bản)

Khoảng 3 tỉ, chỉ mục trên toàn văn bản.

Khoảng 1 tỉ

Khoảng 1 tỉ

Đa phương tiện (multimedia)


Hỗ trợ

Hỗ trợ

Hỗ trợ

Không hỗ trợ

Toán tử

Mặc định

AND

AND

AND

AND

Loại trừ

-

-

-

-

Cụm từ

Dùng dấu “ “

Dùng dấu “ ”

Dùng dấu “ ”

Dùng dấu “ “

Rút gọn

Không hỗ trợ

Dùng ký tự * để thay thế cho các ký tự trong dấu “ “



Không hỗ trợ

Dùng ký tự *

Không hỗ trợ

Boolean

OR (chỉ dùng cho danh từ riêng )

AND, OR, ANDNOT, RANK, ()

AND, OR, ANDNOT, NEAR, ()

OR (chỉ dùng cho tên riêng)

Stop words

Thông thường bỏ qua các từ thông dụng

+ nếu muốn tìm và phải đặt trong cặp dấu “ “






Dùng dấu “ “ trong search cơ bản

Bỏ qua trong search nâng cao



Thông thường bỏ qua các từ thông dụng

+ nếu muốn tìm



Danh từ riêng

Không hỗ trợ

Không hỗ trợ

Hỗ trợ

Không hỗ trợ

Giới hạn field cần tìm

intitle:inurl:

allintitle:

allinurl: filetype:

link:site:



Trong search nâng cao : cache:info:

normal.title:

url.all:


link.all:

link.extension:



title:domain:

link:image:

text:url:host:

anchor:applet:



intitle:inurl:

site:geoloc:lang:last:

afterfate:


Các đặc tính đặc biệt

~ tìm từ đồng nghĩa

Giới hạn bởi ngôn ngữ

Nhiều kiểu file : pdf, doc,…

Caches : trang web khi đánh chỉ mục



Duyệt qua các URL

Trong tìm nâng cao :

giới hạn bởi ngày, domain, địa chỉ iP


Giới hạn bởi ngày, vị trí, ngôn ngữ

Trong tìm nâng cao : sử dụng sortby để lọc và sắp xếp kết quả.



Dùng refine để tối ưu kết quả.

Resource để có được các trang và liên kết tập trung trên chủ đề cần tìm.

Ưu điểm

Ưu điểm chính

Rất tốt với những trang có độ phổ biến cao.

Các trang tin tức gần đây



Tốt như Google.

Không có stop word.



Dùng nhiều toán tử Boolean trong tìm kiếm.

Trong tìm nâng cao hỗ trợ hiển thị kết quả theo độ phổ biến của từ.



Tính độ phổ biến tốt, dựa vào số lượng trang web cùng chủ đề với các trang đang xét. Thường đạt kết quả đáng khích lệ.

Search Engine

Google

AlltheWeb

AltaVista

Teoma

Bảng ‎5.5 : Bảng hướng dẫn nhanh về cách sử dụng các search engine phổ biến trên thế giới

Search engine

Cơ sở dữ liệu

Toán tử

Lực chọn tìm kiếm

Linh tinh

Google

http://www.google.com

Hỗ trợ tìm kiếm nâng cao

Hệ thống thư mục chủ đề

(Subject Directory)

Hệ thống thư mục mở (Open Directory)


Toàn văn bản của các trang web, .pdf, .doc, .xls, .ps, .wpd

(4.3B, + 1B một phần của chỉ mục URLs)



Tin tức : cập nhật thường xuyên (4500 nguồn ).

Các dạng file ảnh



Nhóm : Usenet từ 1981 đến nay


AND (mặc định)

OR (danh từ riêng)

+ cho các stop word thông dụng, cho các URL hoặc các trang cụ thể (ví dụ +edu)

- loại trừ



Dùng * để rút gọn.

Dùng “” tìm cụm từ.

fields : intitle:, inurl:, link:, site:

Tìm trên hệ thống danh mục các chủ đề trong thư mục web.

Tìm các trang web tương tự.


Kiểm lỗi chính tả.

Lưu trữ các trang đã lập chỉ mục.

Tốt cho tìm các trang hay bị lỗi 404.

Phiên dịch đến 5 ngôn ngữ.

~ tìm từ đồng nghĩa.


AlltheWeb

http://alltheweb.com

Hỗ trợ tìm kiếm nâng cao




Toàn bộ văn bản các trang web, .pdf, Flash,

(3.1B toàn bộ chỉ mục URLs)

Tin tức : cập nhật thường xuyên (3000 nguồn)

Tranh ảnh

Video

Audio


FPT

AND (mặc định)

OR, phải đặt các từ trong dấu “ “.

ANDNOT, RANK

- để loại bỏ





Không rút gọn.

Dùng dấu “ “ cho cụm từ.



Field intitle:inurl:

link:site:

Trong tìm nâng cao :

giới hạn theo ngày, ngôn ngữ, domain, file format, địa chỉ iP.




Kiểm lỗi chính tả.

Tìm nâng cao : tranh ảnh, video.

Hỗ trợ sử dụng kỹ thuật “clusters” để tối ưu câu truy vấn.


AltaVista

http://altavista.com

Hỗ trợ tìm kiếm nâng cao

Hệ thống thư mục chủ đề

(Subject Directory )

Hệ thống thư mục mở (Open Directory)


Toàn bộ văn bản các trang web (khoảng 1B) và file .pdf.

Tin tức (3000 nguồn), ảnh, MP3/Audio, Video.



AND (mặc định)

Trong tìm nâng cao hoặc danh từ riêng trong tìm cơ bản : AND, OR, ANDNOT, NEAR, dấu () lồng nhau.

- cho loại trừ.



Dấu * để rút gọn.

Dấu “” cho cụm từ.

Tìm nâng cao : giới hạn ngày, ngôn ngữ.


Kiểm lỗi chính tả.

Phiên dịch : 8 ngôn ngữ của Châu Âu & các ngôn ngữ của Châu Á.

AltaVistaPrima : tối ưu câu hỏi.

Teoma

http://teoma.com

Hỗ trợ tìm kiếm nâng cao




Toàn bộ văn bản trang web (khoảng 1B)

AND (mặc định)

OR (danh từ riêng)

+ hoặc “” cho stopword

- để loại bỏ



Không rút gọn.

Dùng dấu “ “ cho cụm từ.



Field intitle:inurl:

site:geoloc:lang:last:

afterdate:beforedate:

betweendate:

Trong tìm nâng cao :

giới hạn theo ngày, ngôn ngữ, domain, file format, địa chỉ iP.




Kiểm lỗi chính tả.

Gom nhóm kết quả Refine để tối ưu câu hỏi.

Resource để có các trang hoặc liên kết tập trung vào chủ đề.

AskJeeves

www.ask.com


Nhận kết quả từ CSDL của Teoma.

Tìm sản phẩm : PriceGrabber.com,

Tìm tranh ảnh : Picsearch.com

Tìm tin tức :

Moreover.com.


Giống Teoma.

Đối với những câu hỏi đơn giản, xuất hiện cửa sổ đối thoại.



Giống Teoma.

Click vào Remove Frame để thấy URLs của các trang.



Kiểm lỗi chính tả.


AskJeeves for Kids

www.ajkids.com


Trả lời tốt các câu hỏi đơn giản.

Games cho trẻ em,

Tin tức theo từng nhóm tuổi.


Hỏi bằng ngôn ngữ tự nhiên.

Không sử dụng các toán tử Boolean.



Click vào No frames để thấy URL của trang kết quả.

Dẫn đến các trang phục vụ học tập : tự điển, vật lý, khoa học, bản đồ, lịch sử,…

Bảng ‎5.6 : Sơ lược về các đặc trưng của một số search engine thông dụng trên internet



Meta-search engine

Cơ sở dữ liệu

Toán tử

Lực chọn tìm kiếm

Linh tinh

Vivisimo

http://vivisimo.com

Netscape, MSN, Lycos,LookSmart,



AND(mặc định), OR, -

Tìm trên chủ đề : tin tức, thương mại, kỹ thuật, thể thao.

Gom nhóm kết quả.

Tốt đối với chủ đề về các sự kiện & nhiều khía cạnh khác.



Dopgpile

http://dopgpile.com


Google, Yahoo, AltaVista, Teoma/AskJeeves, About.com, FAST, FindWhat, LookSmart

Tìm nâng cao : AND, OR, ANDNOT.

Sắp xếp theo kết quả.

Xoá các kết quả trùng.




Kiểm lỗi chính tả.

Highlight từ cần tìm trong kết quả.

Gom nhóm kết quả.

Tốt đối với chủ đề về các sự kiện & nhiều khía cạnh khác.



Bảng ‎5.7 : Các meta-search engine thông dụng trên internet

Thư mục chủ đề

Cơ sở dữ liệu

Toán tử

Lực chọn tìm kiếm

Linh tinh

Yahoo

http://dir.yahoo.com


Xem xét các trang web (khoảng 13K)

AND(mặc định)

OR

-



Cụm từ : “”

Rút gọn : *



Fields t: title, u:URL


Nhiều dịch vụ trong Yahoo:

Tin tức : từng giờ.

Thể thao :tỉ số,..

Bản đồ, thời tiết, mua sắm.



Academic info

http://academicinfo.net


Mức độ cao đẳng hoặc nghiên cứu (cũng hữu ích cho trung học).

Được chọn và chú thích bởi thủ thư Michael Madin (khoảng 25K)



AND, OR(mặc định), NOT, dấu () lồng nhau.




Dẫn đến các chương trình mức độ cao đẳng hoặc các site, các nguồn tài nguyên khác hữu ích cho sinh viên.

Bảng ‎5.8 : Các hệ thống thư mục theo chủ đề thông dụng trên internet
        1. Thư mục của Yahoo, Google


      • Về bản chất là các danh mục chủ đề.

      • Sắp xếp các trang theo mức độ quan trọng của chúng.

      • Tìm theo đề tài hoặc chủ đề.

Google là một trong những công cụ tìm kiếm mới nhưng nhanh chóng được ưa chuộng nhờ khả năng tìm nhanh và chính xác. Ý tưởng chính của công cụ này là đo lường độ quan trọng của một trang dựa vào số liên kết đến trang đó. Nói cách khác nếu nhiều webmaster cùng quan tâm đến một website thì website đó xứng đáng được đánh giá cao. Yahoo đã từng dùng Google như một chức năng của mình trong một thới gian dài. Kỹ thuật tìm kiếm của Microsoft và MSN.com dựa trên kỹ thuật inktomi. (inktomi đã được áp dụng cho một trong những search engine nổi tiếng trong những năm 90 là Hobot) Microsoft đã rất nỗ lực trong việc tìm ra một kỹ thuật cho riêng mình nhưng vẫn chưa thành công.
        1. Alltheweb


Alltheweb cũng là một trong những công cụ tìm kiếm mới, được cho là công cụ dò tìm nhanh hơn và hiệu quả hơn các search engine khác nhờ một lượng chỉ mục rất lớn. Alltheweb đã được sử dụng bởi Yahoo.
        1. AltaVista


Đã từng là một trong những công cụ tìm kiếm được ưa chuộng nhất nhưng bị đánh bại bởi Google. Mặc dù vậy nó vẫn là một search engine cho kết quả chính xác và từng được Yahoo sử dụng.
        1. Lycos


Được mô tả như là những cổng truy cập web (web portal) hay những trung tâm truy cập, là nơi mà người dùng đi vào để lấy thông tin cho mọi lĩnh vực, kể cả tán gẫu, gởi thư điện tử,…
        1. HotBot


Đã đề cập ở trên, HotBot dựa trên kỹ thuật inktomi, là công cụ tìm kiếm chuyên biệt, cung cấp nhiều thông tin chính xác, nhanh chóng cho lĩnh vực thương mại và các mục đích chuyên môn, hứa hẹn một sự thay thế cho các công cụ thường dùng khác khá tốt.
      1. Một số search engine thông dụng ở Việt Nam

        1. Netnam [IV.12]


Là một đơn vị thuộc viện hàn lâm - Viện Công nghệ Thông tin, Netnam đặc biệt chú trọng đến việc thiết kế hệ thống phù hợp với điều kiện cơ sở vật chất - hạ tầng còn khiêm tốn ở Việt Nam. Vì vậy, một trong những ưu tiên quan trọng trong các yêu cầu xây dựng hệ thống là khả năng tiết kiệm chi phí đầu tư cơ sở hạ tầng kỹ thuật, đồng thời phải đáp ứng được nhu cầu mở rộng cao. Do đó Netnam SE được thiết kế theo kiến trúc sử lý song song.với các khối chức năng như hình dưới đây. Kiến trúc này cho phép hệ thống có thể phân tán trên từ một đến hàng trăm máy tính, cho phép sử dụng các máy tính PC cỡ nhỏ thay cho các hệ máy tính chủ cao cấp. Từ đó hệ thống cho phép tiết giảm chi phí tối đa trong việc xây dựng hạ tầng ban đầu, đồng thời khi nhu cầu tính toán hoặc yêu cầu phục vụ liên tục tăng, chỉ cần thêm các máy tính vào hệ thống để tăng cường khả năng xử lý và khả năng phục vụ liên tục mà không cần bổ sung bất cứ thành phần nào khác.

Phần kiến trúc này sẽ giới thiệu về mô hình chia sẻ tính toán song song của hệ thống.



Về mặt vật lý, các máy tính được có thể kết nối với nhau đơn giản bằng hệ thống mạng Ethernet 10/100/1000Mbps. Hệ thống cho phép thay đổi nóng (hotswap) một hoặc một vài đơn vị vật lý (máy tính) mà không làm ảnh hưởng đến hoạt động của toàn hệ thống, cũng như cho phép thực hiện thay thế tự động một hoặc một vài đơn vị vật lý của hệ thống khi chúng gặp sự cố bất ngờ.



Hình ‎5.2 Sơ đồ hệ thống Search Engine của Netnam

Hệ thống được chia thành ba tầng chính, gồm tầng Thu thập thông tin, Nhận dạng và chuyển đổi thông tin thành dạng text, Lập cơ sở dữ liệu cho các thông tin text. Mỗi tầng được chia thành nhiều đơn vị độc lập hoạt động theo kiểu chia sẻ tính toán và/hoặc dự trữ (redundant), từ đó tính tin cậy và hiệu năng của hệ thống cho phép rất cao đối với các hệ thống đòi hỏi tính tin cậy và hiệu năng cao.Đơn vị khai thác dữ liệu được tích hợp cùng với phần lập chỉ mục cơ sở dữ liệu, cho phép khai thác qua các clients sử dụng giao thức TCP/iP trên bất cứ hệ thống nào (Windows, Unix...)


Bằng việc chia hệ thống thành các khối chức năng phối hợp với nhau thông qua các Bộ điều phối, hệ thống có thể được phân tán để xử lý trên nhiều máy tính nhỏ thay vì tập trung toàn bộ hệ thống trên một máy tính lớn. Vì vậy, một mặt hệ thống cho phép sử dụng các máy tính cỡ nhỏ (PC hoặc PC server) cùng phối hợp tính toán xử lý, do đó làm giảm rất nhiều chi phí đầu tư so với các hệ máy cỡ mini hay mainframe, và có thể đầu tư dần dần theo sự gia tăng của nhu cầu thay vì đầu tư toàn bộ một lần ban đầu. Mặt khác, nó cho phép, về mặt nguyên tắc, năng lực tính toán, phục vụ thông tin của hệ thống là không hạn chế ? khi nhu cầu tăng lên chỉ cần thêm máy tính vào hệ thống mà không phải thay đổi lại hệ thống. Vì vậy, lượng dữ liệu mà hệ thống có thể phục vụ, về mặt nguyên tắc thiết kế hệ thống, cho phép lên đến hàng trăm triệu tài liệu.
          1. Phương pháp Netnam SE lập chỉ mục dữ liệu

Thông thường, NetNam lấy tất cả các từ trong tài liệu để lập chỉ mục, và khi trả kết quả tìm kiếm, NetNam Search Engine tìm ra tất cả các từ trong một trang tài liệu đó, và hiển thị một số từ đầu tiên như một bảng tóm tắt ngắn. Với Netnam ta thể dùng thẻ META trong trang web để :

      • Cung cấp thêm các từ khoá có ảnh hưởng đến kết quả tìm kiếm của NetNam Search Engine (tác dụng tìm ra trang mà ta cần tìm).

      • Đưa ra các miêu tả để hiển thị kết quả tìm kiếm.

Ví dụ, giả sử ta có một trang web quảng cáo bán ô tô, xe máy mới 100%, trang search của NetNam sẽ tự động chỉ ra các từ trong trang. Tuy nhiên, có một số từ hoặc cụm từ miêu tả dịch vụ lại không xuất hiện trong trang. Sử dụng thẻ META và ghi rõ tên="từ khoá" để thêm các cụm từ vào chỉ mục và làm tăng cơ hội tìm kiếm cho người sử dụng khi muốn tìm trang web.

Miêu tả thẻ META cho phép ta tìm được cái mà ta muốn tìm trong bản tóm tắt kết quả tìm kiếm. Với trang bán xe của mình, ta có thể muốn một cụm từ quảng cáo ngắn như sau:

content="Bán xe máy và ô tô với chất lượng cao, bảo hành chu đáo, giá phù hợp.">

NetNam Search Engine chỉ ra các từ trong thẻ miêu tả cùng với những thẻ từ khoá. Do đó trong ví dụ này, người sử dụng sẽ có thể tìm ra trang web của ta bằng cách tìm từ "chất lượng cao" cũng như "giá phù hợp", "bảo hành chu đáo".
Thay vì hiển thị một số dòng đầu của trang web, kết quả tìm kiếm sẽ hiển thị văn bản của thẻ miêu tả:
Car Leasing Corp.
Bán xe máy và ô tô với chất lượng cao, bảo hành chu đáo, giá phù hợp.
http://www.vnmotors.com.vn/ - 3K ? 01/11/2001
Chú ý: các thẻ miêu tả và các thẻ từ khoá có thể dài tối đa là 1024 ký tự.

          1. Cú pháp tìm kiếm

Cả hai chức năng tìm kiếm đơn giản và nâng cao đều sử dụng những quy tắc cú pháp giống nhau đối với các cụm từ, phân biệt dạng chữ, và tìm những từ liên quan.

Từ và cụm từ

NetNam Search Engine định nghĩa một từ cũng như bất cứ một chuỗi những chữ cái và con số được tách rời nhau :



  • Ký tự trắng, như dấu cách, dấu tab, chấm xuống dòng, hoặc chỗ bắt đầu hoặc kết thúc của một tài liệu.

  • Các ký tự đặc biệt và hệ thống chấm câu, ví dụ như %, $, /, #, và _

Ví dụ, hệ thống tìm kiếm của NetNam sẽ giải thích và chỉ rõ những từ  Proliant, 60258, www, http, và XeMayCu như những từ riêng lẻ, vì chúng là những chuỗi ký tự liên tiếp, được bao quanh bởi các ký tự không phải là chữ cũng không phải là số. Phần mềm tìm kiếm sẽ chỉ ra tất cả các từ mà nó tìm được trong một trang tài liệu web không quan tâm liệu  từ đó có trong từ điển hay đánh vần sai hay không.

Tìm kiếm cụm từ

Ta có thể tìm thấy các cụm từ, hoặc một nhóm từ liên quan xuất hiện ngay cạnh nhau. Để tìm được một cụm từ, ta đóng mở ngoặc kép ở đầu và cuối cụm từ đó để tạo thành một cụm từ. Cụm từ đảm bảo rằng NetNam Search Engine sẽ tìm được các từ đúng như thế (vị trí, thứ tự, không có từ chen giữa...), chứ không phải là tìm được riêng từng từ một.



Hệ thống chấm câu

NetNam Search Engine sẽ bỏ qua hệ thống chấm câu trừ trường hợp phải thể hiện hệ thống chấm câu đó là một dấu chia  cách giữa các từ. Đặt hệ thống chấm câu hoặc các ký tự đặc biệt giữa các từ, và giữa chúng không có dấu cách, cũng là một cách để tìm một cụm từ. Một ví dụ cho thấy hệ  thống chấm câu rất hữu dụng trong việc tìm một cụm từ đó là trường hợp tìm số điện thoại. Ví dụ để tìm được một số điện thoại 0903401357 ta gõ 09-0340-1357 thì sẽ dễ tìm hơn là gõ theo kiểu "09 0340 1357", mặc dù đây cũng  là một cú pháp có thể chấp nhận được nhưng ít phổ biến.


Các từ có dấu nối ở giữa như CD-ROM, cũng tự động làm thành một cụm từ do có dấu gạch nối ở giữa.

Tuy nhiên, thông thường, sử dụng dấu ngoặc kép để tìm một cụm từ là cách được khuyến khích  dùng hơn là sử dụng hệ thống chấm câu, vì một số ký tự đặc biệt còn có nghĩa phụ:



  • Dấu + và - là những toán tử giúp lọc kết quả của một tìm kiếm đơn giản.

  • &, |, ~ và ! là những toán tử giúp lọc kết quả của một tìm kiếm nâng cao

Phân biệt chữ thường/hoa

Phân biệt dạng chữ là một loại tìm kiếm dựa vào loại chữ mà ta gõ yêu cầu tìm kiếm của mình vào.



  • Một yêu cầu bằng chữ thường sẽ có kết quả tìm kiếm không theo dạng chữ ta gõ vào. Ví dụ, nếu ta gõ chữ yết kiêu vào ô yêu cầu, NetNam Search Engine sẽ tìm tất cả các biến thể của từ yết kiêu, gồm có yết kiêu, Yết Kiêu, YếT KiÊU, v.v...

  • Nếu yêu cầu có cả chữ hoa, thì kết quả tìm kiếm sẽ là tìm kiếm theo dạng chữ. Ví dụ, nếu ta điền Yết Kiêu vào ô yêu cầu, NetNam Search Engine sẽ tìm tất cả các biến thể của Yết Kiêu chỉ với chữ đầu tiên là chữ hoa. Nó sẽ không trả về các văn bản có chữ YếT KiÊU hay yết kiêu.
          1. Sử dụng từ khoá để lọc các tìm kiếm

Cả giao diện của công cụ tìm kiếm đơn giản và nâng cao đều hỗ trợ việc sử dụng các từ khoá để hạn chế các tìm kiếm tới các trang đáp ứng tiêu chuẩn được định rõ về nội dung và cấu trúc của một trang web. Sử dụng từ khoá, ta có thể tìm kiếm dựa vào URL hoặc một phần của một URL, hoặc dựa vào các liên kết, hình ảnh, văn bản, mã hoá của một trang web. Các từ khoá sẽ rất có ích trong trường hợp:

  • Tìm các trang trên một máy chủ nào đó hoặc trong một tên miền chỉ định

  • Tìm các trang có chứa các liên kết trỏ tới trang web của ta.

  • Tìm các trang có chứa một lớp Java applets.

Tìm kiếm dựa vào từ khoá, gõ một yêu cầu bằng từ khoá:lệnh tìm kiếm
Gõ từ khoá bằng chữ thường, sau đó là dấu hai chấm. Quy ước để tìm một cụm từ trong lệnh tìm kiếm sẽ giống với quy ước để tìm một cụm từ trong một yêu cầu bình thường: phương pháp thường được sử dụng nhất là cho cụm từ vào trong ngoặc kép. title:"thời trang"

Từ khoá

Chức năng

applet:class

 


Tìm các trang có chứa một ứng dụng nhỏ (applet) Java hoặc Java class

Domain:domainname

Tìm các trang có từ hoặc cụm từ trong tên miền của máy chủ web nơi có trang cần tìm. (Phần.... của tên máy chủ internet là tên miền)

host:name
 

Tìm các trang có từ hoặc cụm từ trong tên của máy chủ web, nơi có các trang cần tìm.

image:filename 

Tìm các trang có chứa ảnh filename

Bảng ‎5.9 : Bảng miêu tả các từ khoá sử dụng trong việc tìm kiếm.

Các từ khoá url, host, domain, đều có một mục đích là tìm kiếm các URL dựa vào một phần URL, hoặc dựa vào tên máy chủ hoặc tên miền nơi có các trang web cần tìm.


Các từ khoá link và anchor cũng tương tự như khi chúng tìm kiếm thông tin về liên kết. Từ khóa link tìm các văn bản trong một URL là đích của một liên kết (ví dụ, http://www.abc.org.vn/help.htm), trong khi từ khoá anchor lại tìm các văn bản hiện tại của một siêu liên kết khi người dùng nhìn thấy nó trên một trang web (ví dụ, click here).
Thẻ title sẽ tìm kiếm nội dung tiêu đề của một tài liệu. Từ khoá tiêu đề sẽ giới hạnviệc tìm kiếm tới văn bản mà tác giả của tài liệu đã mã hoá như một phần của thẻ . Tiêu đề là cụm từ sẽ xuất hiện trong đầu đề cửa sổ trong trình duyệt web. Từ khoá tiêu đề có thể sẽ là một cách tốt để giới hạn tìm kiếm chỉ tới các trang về một chủ đề, gồm các trang được đặt tiêu đề một cách thông minh. Tuy nhiên với các trang mà người lập nên không quan tâm đến tiêu đề trang web hoặc đặt tên kém thì cách tìm này không dùng được. Hơn nữa, hệ thống tìm kiếm của NetNam có thể cấu hình để nhận biết các thuộc tính phụ khác của tài liệu có các thẻ HTML META do người dùng quy định. <br /><table width="577" cellpadding="2" cellspacing="1"> <col width="270"> <col width="294"> <tr valign="top"> <td width="270" height="14"> <br /><b>Điều kiện</b> <br /></td> <td width="294"> <br /><b>Định nghĩa</b> <br /></td> </tr> <tr valign="top"> <td width="270" height="38"> <br />url:http://www.un.org.vn/about <br /></td> <td width="294"> <br />Tìm tất cả các trang có các từ http://www.un.org.vn/about trong URL. <br /></td> </tr> <tr valign="top"> <td width="270" height="38"> <br />host:netnam.vn <br /></td> <td width="294"> <br />Thoả mãn tất cả các trang có host:netnam.vn trong tên máy chủ web. <br /></td> </tr> <tr valign="top"> <td width="270" height="42"> <br />domain:org.vn <br /></td> <td width="294"> <br />Thoả mãn tất cả các trang có tên miền org.vn trong tên máy chủ của máy chủ web. <br /></td> </tr> <tr valign="top"> <td width="270" height="38"> <br />image:about.jpg <br /></td> <td width="294"> <br />Thoả mãn tất các trang có một thẻ hình ảnh liên quan tới image:about.jpg <br /></td> </tr> <tr valign="top"> <td width="270" height="19"> <br />anchor:"click here" <br /></td> <td width="294"> <br />Thoả mãn tất cả các trang với cụm từ click here trong đoạn văn bản của một liên kết hoặc một thẻ anchor (<a>) khác. <br /></td> </tr> <tr valign="top"> <td width="270" height="19"> <br />link:http://www.abc.org.vn/mypage.html <br /></td> <td width="294"> <br />Thoả mãn tất cả các trang có ít nhất một liên kết tới một trang có URL http://www.abc.org.vn/mypage.html <br /></td> </tr> <tr valign="top"> <td width="270" height="19"> <br />link:http://myhost.abc.org/mypage.html <br /></td> <td width="294"> <br />Chỉ tìm các trang có các liên kết tới URL chỉ định. <br /></td> </tr> <tr valign="top"> <td width="270" height="19"> <br />title:"NetNam Lifestyle" <br /></td> <td width="294"> <br />Thoả mãn  các trang có cụm từ NetNam Lifestyle trong tiêu đề <br /></td> </tr> <tr valign="top"> <td width="270" height="18"> <br />applet:flower <br /></td> <td width="294"> <br />Thoả mãn các trang chứa Java applet có tên gọi flower. <br /></td> </tr> </table> <br /> <b>Bảng ‎5.10 : Ví dụ tìm kiếm thông tin của Netnam</b> <br /><ol> <ol> <ol> <ol start="2"> <li/> <span id='Vinaseek_(_[IV.11]_)'><h4> Vinaseek (<u>[IV.11]</u>)</span></h4> </ol> </ol> </ol> </ol> <br />Vinaseek được phát triển từ năm 1997 theo mô hình của các search engine như Google, AltaVista, bổ sung khả năng tìm kiếm chính xác theo từ khoá cho Tiếng Việt, theo mọi bảng mã (TCVN3, VNi, TVCN-6909, ViQR...), theo mọi định dạng tài liệu văn bản (html, xml, rtf, word, pdf, PostScript...), theo mọi cách bỏ dấu khác nhau (“hoà” hay “hòa”), tìm kiếm hình ảnh và âm thanh, tìm kiếm gần đúng, tìm kiếm mờ (fuzzy search), tìm kiếm đồng âm và đồng nghĩa, đang lưu trữ chỉ mục và toàn văn của tất cả các trang Web Tiếng Việt trên internet (ước chừng 10 triệu văn bản), và nhận được hàng trăm ngàn lượt truy cập mỗi ngày. <p>Cú pháp tìm kiếm của Vinaseek tương tự như Netnam về tìm kiếm từ, cụm từ, cách phân biệt hoa thường nhưng khác về :</p> <p>Hệ thống chấm câu bao gồm : +, -, khoảng trắng,... </p> <p>Toán tử : AND, OR, NOT</p> <p>Field : link:, site:, url:, title: </p> <p>Điểm qua một vài tính năng nổi bật của Vinaseek ta có thể liệt kê như sau :</p> <br /><ul> <li/> <br />Tốc độ tìm kiếm nhanh và chính xác và hiển thị kết quả đầy đủ. <br /><li/> <br />Hỗ trợ toàn bộ các bảng mã Tiếng Việt cả trong nước và ngoài nước. <br /><li/> <br />Số lượng đánh index khoảng 10 triệu trang và liên tục được cập nhật. <br /><li/> <br />Cung cấp đầy đủ các tính năng tìm kiếm nâng cao với khả năng hiểu chính xác tiếng Việt. <br /><li/> <br />Cho phép thực hiện các yêu cầu tìm kiếm phức tạp dạng tổ hợp một cách thông minh, hiệu quả <br /><li/> <br />Có thể đặt ô tìm kiếm Vinaseek tại các website trong và ngoài nước một cách dễ dàng. Ô tìm kiếm Vinaseek hiện đang được đặt trên 40 trang web tiếng Việt hàng đầu trong và ngoài nước. <br /><li/> <br />Dịch vụ Vinaseek có thể được tối ưu cho các trang web và mạng intranet của khách hàng làm công cụ tìm kiếm nội tại. <br /></ul> <br /> <br /><ol start="2"> <li/> </a>
Каталог: books -> luan-van-de-tai -> luan-van-de-tai-cd-dh
luan-van-de-tai-cd-dh -> Thế kỷ 21, cùng với sự phát triển nh­ vũ bão của khoa học kỹ thuật, của công nghệ thông tin. Sự phát triển kinh tế tác động đến tất cả mọi mặt đời sống kinh tế xã hội
luan-van-de-tai-cd-dh -> VIỆN ĐẠi học mở HÀ NỘi khoa công nghệ thông tin đỒ Án tốt nghiệP ĐẠi họC
luan-van-de-tai-cd-dh -> Phần một : Tình hình thu hút vốn đầu tư trên thị trường vốn việt nam hiện nay
luan-van-de-tai-cd-dh -> TRƯỜng đẠi học cần thơ khoa công nghệ BỘ MÔN ĐIỆn tử viễn thôNG
luan-van-de-tai-cd-dh -> Em xin chân thành cảm ơn! Vị Xuyên, ngày 19 tháng 5 năm 2012 sinh viêN
luan-van-de-tai-cd-dh -> PHẦn I mở ĐẦu tầm quan trọng và SỰ ra đỜi của giấY
luan-van-de-tai-cd-dh -> Đề tài: Tìm hiểu về vấn đề sử dụng hợp đồng mẫu trong đàm phán ký kết hợp đồng mua bán ngoại thương và thực tiễn ở Việt Nam
luan-van-de-tai-cd-dh -> Đề tài phân tích thực trạng kinh doanh xuất khẩu cà phê nhân của các doanh nghiệP
luan-van-de-tai-cd-dh -> Giao tiếp máy tính và thu nhận dữ liệU ĐỀ TÀI: TÌm hiểu công nghệ 4g lte

tải về 1.53 Mb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương