Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt



tải về 1.53 Mb.
trang6/6
Chuyển đổi dữ liệu14.05.2018
Kích1.53 Mb.
#38357
1   2   3   4   5   6

Xử lý của web robot


Thiết kế module phải thoả các yêu cầu sau :

  • Đảm bảo vai trò của web robot trong hệ thống : tìm kiếm liên kết, thu thập thông tin, tạo và duy trì cơ sở dữ liệu.

  • Không ảnh hưởng đến hoạt động của các module khác.

Nhìn chung quy trình hoạt động của web robot đều giống nhau. Tuy nhiên, các ứng dụng hỗ trợ những tính năng khác nhau sẽ có sự thay đổi về quy trình hoạt động.

Các bước xử lý :

  1. Khởi tạo.

  2. Nếu vẫn còn URL chưa xử lý và user không chọn chức năng tạm dừng (pause)

Qua (3)

ngược lại qua (14)



  1. Lấy URL đầu tiên.

Nếu lấy được qua (4)

ngược lại quay lại (2)



  1. Lưu thông tin cũ

  2. Kết nối vớI server

Nếu kết nối được qua (6)

ngược lại

Thêm URL vào danh sách hỏng

Cập nhật trạng thái của URL trong CSDL = BROKEN

Đánh dấu URL đã xử lý trong CSDL.

Nếu truy xuất CSDL không được

Đưa URL này trở lại hàng đợi.

Quay lại (2)



  1. Huỷ URL ra khỏi danh sách hỏng nếu URL nằm trong danh sách đó.

  2. So sánh với thông tin cũ

Nếu giống qua (8)

ngược lại

Cập nhật thông tin mới


  1. Đánh dấu URL tốt ( trạng thái = GOOD )

  2. Thêm URL vào danh sách đã xử lý.

  3. Đây là file HTML ?

Nếu cần phân tích lại thì tiến hành phân tích.

  1. Thoả yêu cầu download của quản trị ?

Nếu thoả

Download


Trả kết quả về để hiện thị thông tin đã xử lý

Qua (12)


ngược lại

Quay lại (2)



  1. Ghi nhận thông tin mới xuống CSDL gồm :

Cập nhật thông tin mới cho URL

Đánh dấu URL đã được xử lý.

Nếu truy xuất CSDL không được

Gán lại thông tin cũ cho URL

Xóa URL khỏi danh sách đã xử lý.

Thêm URL vào lại hàng đợi

Quay lại (2)


  1. Đủ số spider chưa ?

Nếu chưa

Tạo thêm


Tạm dừng

Quay lại (2)



  1. Đã hết URL chưa ?

Nếu chưa (ứng dụng dừng do user chọn pause)

Qua (15)


ngược lại

Đánh dấu StartURL đã thực hiên xong (processStatus = DONE)



  1. Kết thúc.

Giải thích thêm về thuật toán :

  • Khi phân tích file HTML, ta dò tìm các liên kết và những thông tin cần thiết để cập nhật bảng URL trong CSDL.

Những liên kết tìm được muốn vào hàng đợi trước tiên nó phải là URL chưa được xử lý lần nào và không có trong danh sách đang đợi xử lý, sau đó phải qua tiền xử lý.

Thuật toán chỉ xem xét danh sách đợi và danh sách đã thực hiện nhưng không xét danh sách bị hỏng nhằm tạo điều kiện để sửa chữa URL hỏng nếu có 1 URL khác liên kết tới nó. Trong trường hợp không có URL nào liên kết tới nó, quản trị vẫn biết nó bị hỏng do trạng thái này đã được ghi nhận trước đó.



  • Số spider tạo thêm = min ( số liên kết hiện có, số spider theo yêu cầu ). Ta luôn có lượng spider vừa đủ dùng, nhờ vậy mà tránh lãng phí tài nguyên hệ thống do mỗi spider cần khá nhiều tài nguyên cho hoạt động của mình.

Các bước tiền xử lý 1 URL tìm được :

  1. Tuỳ theo yêu cầu của quản trị mà ta kiểm tra URL mới, ví dụ : cùng thư mục gốc, cùng site,…

Nếu thoả yêu cầu

Qua (2)


ngược lại

Trả về thông tin cho biết không tiếp tục xét URL này.



  1. Kiểm tra độ sâu liên kết

Nếu chưa vượt quá giới hạn

Qua (3)


ngược lại

Trả về thông tin cho biết không tiếp tục xét URL này.



  1. Kiểm tra dạng file (content type)của URL có nằm trong danh sách các dạng file cần download hay không ?

Nếu có

Trả về thông tin cho biết tiếp tục xét URL này.

ngược lại

Trả về thông tin cho biết không tiếp tục xét URL này.


      1. Giải quyết các vấn đề của web robot

        1. Tránh sự lặp lại


Trong qúa trình hoạt động của robot ứng dụng dùng 3 danh sách :

  • Hàng đợi URL : chứa các URL chưa xử lý theo nguyên tắc FIFO.

  • Danh sách các URL kết nốI được với server.

  • Danh sách các URL không kết nối được với server.

Nhờ lưu lại dấu vết của mỗi spider nên ứng dụng sẽ không xử lý một liên kết nhiều lần nhưng chưa khắc phục được các liên kết tồn tại dưới nhiều tên khác nhau (DSN, IP, …)
        1. Tránh làm qúa tải server


Các spider hoạt động đồng hành nhưng bắt đầu từ những địa chỉ khác nhau. Kết hợp sự đồng bộ spider và duy trì thời gian đợi giữa 2 lần truy xuất liên tiếp đến một server nên server tránh bị áp lực quá mức. Tuy nhiên biện pháp này không thể khắc phục triệt để vấn đề do các URL cùng site thường được đặt cạnh nhau trong hàng đợi. Áp dụng chiến lươc duyệt ngẫu nhiên sẽ cho kết quả tốt hơn.
        1. Tránh truy xuất đến các dạng tài nguyên không thích hợp


Ứng dụng chỉ lập chỉ mục trên những file có thể đánh được chỉ mục, cụ thể là dạng file text, sẽ download tài liệu nếu cần. Trong quá trình download chỉ lấy về các file thoả yêu cầu do đó tránh lãng phí tài nguyên cho những tài liệu không dùng đến.
        1. Tránh các lỗ đen(black holes)


Ứng dụng chỉ theo dấu các URL còn trong giớI hạn độ sâu cho phép nên luôn đảm bảo có điểm dừng.
        1. Tránh những nơi cấm robot


Như đã trình bày trong những phần trước, các chuẩn loạI trừ robot không hiệu quả do bị lạm dụng hoặc do thiếu tính chặt chẽ nên hầu hết các site trên thế giới đều không hỗ trợ chuẩn này vì vậy vấn đề xem như được thông qua.
      1. Các thuật toán phân tích cấu trúc file HTML

        1. Thuật toán lấy liên kết


Để tạo một liên kết trong file HTML người ta thường dùng một trong các dạng sau :

Tên thẻ

Thuộc tính kết hợp

A

Href

AREA

Href

BASE

Href

BODY

Background

IMG

Src

INPUT TYPE

Src

FRAME

Src

FORM ACTION




LINK

Href

TD

Bacground

SCRIPT

Src

Bảng ‎7.16 : Danh sách các thẻ thường dùng tạo tạo liên kết
          1. Thuật toán ứng dụng cũ đã cài đặt

Thuật toán cờ trạng thái

  • Ý tưởng : duyệt qua từng ký tự, bật cờ tương ứng khi gặp ký tự đặc biệt hoặc các thẻ chứa liên kết.

  • Lưu đồ thuật toán :



Hình ‎7.3 Lưu đồ thuật toán cờ trạng thái

  • Ưu điểm : lấy chính xác các liên kết theo đúng chuẩn HTML.

  • Khuyết điểm : không lấy được liên kết nhúng trong các đoạn script.

Thuật toán dựa vào đuôi file

  • Ý tưởng : các thẻ trong file HTML đều bắt đầu bằng ký tự ‘<’, kết thúc bằng ký tự ‘>’ nên ứng dụng lấy nộI dung giữa cặp dấu này. Duyệt qua từng phần tử trong danh dách đuôi file ban đầu, nhận liên kết nếu nó có mặt trong danh sách đã cho.

  • Lưu đồ thuật toán :



Hình ‎7.4 Lưu đồ thuật toán dựa vào đuôi file

  • Các bước phân tích như sau :

VớI mỗi đuôi file

  1. Tìm vị trí đuôi file

  2. Xác định biên phải, trái dựa vào các ký tự giớI hạn ‘ ‘, #, =, \n, \t, \r, ….

  3. Lấy liên kết giữa 2 biên, nếu có.

  • Ưu điểm : khắc phục nhược điểm cách 1

  • Khuyết điểm : phải có danh sách đuôi file ban đầu.
          1. Chọn lựa của ứng dụng mới

Ứng dụng cũ đã chọn thuật toán 2 nên vẫn mắc phải nhược điểm nêu trên. Ứng dụng mới không có sự cải tiến gì đối với thuật toán phân tích lấy liên kết, chỉ khắc phục nhược điểm này bằng cách :

  • Kết hợp 2 thuật toán : nếu không có danh sách đuôi file ban đầu ứng dụng sẽ thi hành thuật toán 1.

  • Hỗ trợ thêm chức năng user defined : khi phát hiện các dạng file mới, ta có thể bổ sung thông qua chức năng này. Sau đó có thể thi hành thuật toán 2 để giới hạn phạm vi thu thập thông tin của robot.
        1. Thuật toán lấy tiêu đề


  • Áp dụng thuật toán cờ trạng thái.

  • Xét ví dụ :





Chào mừng bạn đến với trang web của chúng tôi
Каталог: books -> luan-van-de-tai -> luan-van-de-tai-cd-dh
luan-van-de-tai-cd-dh -> Thế kỷ 21, cùng với sự phát triển nh­ vũ bão của khoa học kỹ thuật, của công nghệ thông tin. Sự phát triển kinh tế tác động đến tất cả mọi mặt đời sống kinh tế xã hội
luan-van-de-tai-cd-dh -> VIỆN ĐẠi học mở HÀ NỘi khoa công nghệ thông tin đỒ Án tốt nghiệP ĐẠi họC
luan-van-de-tai-cd-dh -> Phần một : Tình hình thu hút vốn đầu tư trên thị trường vốn việt nam hiện nay
luan-van-de-tai-cd-dh -> TRƯỜng đẠi học cần thơ khoa công nghệ BỘ MÔN ĐIỆn tử viễn thôNG
luan-van-de-tai-cd-dh -> Em xin chân thành cảm ơn! Vị Xuyên, ngày 19 tháng 5 năm 2012 sinh viêN
luan-van-de-tai-cd-dh -> PHẦn I mở ĐẦu tầm quan trọng và SỰ ra đỜi của giấY
luan-van-de-tai-cd-dh -> Đề tài: Tìm hiểu về vấn đề sử dụng hợp đồng mẫu trong đàm phán ký kết hợp đồng mua bán ngoại thương và thực tiễn ở Việt Nam
luan-van-de-tai-cd-dh -> Đề tài phân tích thực trạng kinh doanh xuất khẩu cà phê nhân của các doanh nghiệP
luan-van-de-tai-cd-dh -> Giao tiếp máy tính và thu nhận dữ liệU ĐỀ TÀI: TÌm hiểu công nghệ 4g lte

tải về 1.53 Mb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương