ĐẠi học công nghệ ĐẠi học quốc gia hà NỘI


Các công cụ quản lý chất lượng



tải về 0.69 Mb.
trang7/10
Chuyển đổi dữ liệu08.09.2016
Kích0.69 Mb.
#31836
1   2   3   4   5   6   7   8   9   10

3.4 Các công cụ quản lý chất lượng


Khi phát triển một hệ thống, các công cụ quản lý chất lượng là không thể thiếu để đánh giá công việc. Việc luôn luôn có sự đánh giá chất lượng ngay từ giai đoạn xây dựng tập dữ liệu cho đến những giai đoạn cuối cùng (đánh giá kết quả làm việc của hệ thống) giúp hệ thống vận hành trơn tru và dễ dàng hơn trong sự kiểm soát của người phát triển.

3.4.1 Công cụ đánh giá độ tương đồng khi gán nhãn hai văn bản (Annotation Diff)


“Annotation Diff” cho phép người sử dụng so sánh hai văn bản được gán nhãn trên từng loại nhãn. Điều này đem lại nhiều lợi ích trong giai đoạn xây dựng tập dữ liệu. Bởi để mang tính khách quan, ta luôn luôn phải có hai đội xây dựng tập dữ liệu độc lập và khi đó “Annotation Diff” sẽ giúp so sánh những phần làm việc chung, để đi đến thống nhất tạo ra một tập dữ liệu chuẩn. Giao diện như trong hình 5.

Hình 5 - Giao diện của Annotation Diff
Tuy nhiên điểm hạn chế của “Annotation Diff” là chỉ so sánh được từng cặp văn bản, và từng kiểu nhãn khác nhau. Để đánh giá toàn bộ hệ thống chúng tôi không thể dùng Annotation Diff mà chỉ dùng nó trong quá trình xây dựng từng luật cần nhìn trực quan. Corpus Benchmark tool chính là một trong những công cụ để đánh giá hệ thống.

3.4.2 Công cụ đánh giá chất lượng của hệ thống (Corpus Benchmark tool)


Đây là công cụ cho phép người sử dụng đánh giá độ tương đồng của các tập dữ liệu khác nhau như: tập dữ liệu được gán nhãn thủ công (bằng tay), tập dữ liệu được xử lý bởi hệ thống hiện hành. Corpus Benchmark tool cũng hoạt động tương tự như Annotation Diff, nhưng là trên một tập văn bản và tất cả các nhãn. Nó đưa ra được những kết quả về độ đo precision, recall và F-measure.

Giao diện của Corpus Benchmark tool như hình 6.

Hình 6 - Giao diện của Corpus Benchmark tool

Hệ thống của chúng tôi dùng tool được viết lại dựa trên công cụ đánh giá chất lượng Corpus Benchmark tool.

Chương 4
Hệ thống đánh giá quan điểm người dùng


Như ở chương 2 chúng tôi đã đưa ra một số hướng tiếp cận cho bài toán đánh giá quan điểm. Có rất nhiều hướng tiếp cận để tìm ra một hướng phù hợp với ngôn ngữ và những văn bản về đánh giá sản phẩm là điều hoàn toàn không phải dễ dàng. Có thể với văn bản này ngôn ngữ này phương pháp này rất tốt nhưng với văn bản khác ngôn ngữ khác phương pháp này lại không hiệu quả cho lắm. Ngoài ra đây cũng là ngành nghiên cứu mới không chỉ ở Việt Nam mà còn trên cả thế giới cho nên những nghiên cứu áp dụng cho ngôn ngữ Việt Nam không nhiều và đạt được hiểu quả cũng chưa thực sự tốt. Hơn nữa cũng chính vì đây là một đề tài nghiên cứu mới cho nên nhiều cái chưa có một sự quy chuẩn nào cả và chúng tôi phải tự định nghĩa một số chuẩn.

Ở đây chúng tôi xây dựng hệ thống đánh giá quan điểm người dùng dựa trên hướng tiếp cận về luật và phân lớp ở mức câu.


4.1 Giới thiệu hệ thống


Hệ thống của chúng tôi được xây dựng với mục đích đánh giá những đặc điểm (Features) của sản phẩm theo 2 hướng positive và negative. Vì mục đích là đánh giá Features cho nên chúng tôi giả sử trong dữ liệu văn bản đưa ra đánh giá đều nói đến một sản phẩm. Trong quá trình thu thập dữ liệu chúng tôi cũng thấy đa phần các trang đều đánh giá về một sản phẩm trong mỗi thread.

Hệ thống của chúng tôi được xây dựng trên nền GATE cho phép chọn 1 văn bản hoặc nhiều văn bản về cùng một sản phẩm và trả ra kết quả là số câu (câu đơn) nói về Features của sản phẩm đó theo 2 hướng positive và negative.

Giao diện hệ thống của chúng tôi cho phép người dùng chọn đến một hoặc nhiều văn bản cùng nói đến một sản phẩm. Chúng tôi cũng chia sản phẩm theo 3 hướng category là: computer (laptop & desktop), ô tô và xe máy, điện thoại di động (phone) tuy nhiên hiện tại chúng tôi mới xây dựng Feature cho máy tính (computer). Sau khi đã có thêm các văn bản làm input, hệ thống của chúng tôi sẽ đưa ra kết quả về từng Feature cho thể loại computer. Ví dụ như Feature cauhinh: 6/4 nghĩa là trong văn bản nói về sản phẩm có 6 câu nói cấu hình của máy tính đó là positive còn 4 câu là negative.

Sau đây là hình ảnh mô tả giao diện và kết quả của hệ thống [Hình 7].


Hình 7 - Minh họa giao diện hệ thống


4.2 Thu thập dữ liệu và gán nhãn


Đây là phần đầu tiên để bắt đầu xây dựng hệ thống. Chúng tôi cần thu thập dữ liệu càng chuẩn càng theo chính quy càng dễ dàng cho phát triển hệ thống. Việc gán nhãn cũng rất quan trọng và cũng là phần chúng tôi làm cẩn thận và tỉ mỉ nhất bởi vì nó ảnh hưởng trực tiếp đến độ chính xác của hệ thống.

4.2.1 Thu thập dữ liệu


Ai cũng biết nguồn dữ liệu trên mạng là rất khổng lồ nhưng không phải là dễ dàng để tìm được một nguồn dữ liệu chuẩn xác và hợp lý. Mục đích của chúng tôi hướng đến nguồn dữ liệu mà được người dùng đánh giá một cách khách quan nhất và thể hiện được ý kiến của họ nhất. Khó khăn trong công việc này là văn bản trên Internet về sản phẩm cũng không phải nhiều trừ một số sản phẩm về điện tử hay công nghệ như máy tính, ô tô, xe máy, di động, … thì những sản phẩm khác lại ít được người dùng quan tâm hơn. Ngoài ra những đánh giá đo lại thường được viết theo ngôn ngữ @ hay 9x,… hay một số thể loại khác không theo chính thống làm cho việc thu thập dữ liệu cũng gặp nhiều khó khăn.

Để tránh và giải quyết những khó khăn trên chúng tôi đã tìm ở một số trang có cách viết khá chính quy giúp cho việc xử lý dữ liệu được dễ dàng hơn. Chủ yếu nguồn dữ liệu của chúng tôi được lấy về từ trang http://tinvadung.vn theo chủ đề (category) máy tính (laptop & desktop) trong tương lai chúng tôi sẽ mở rộng thêm các chủ đề về ô tô & xe máy, điện thoại di động. Hình 8 là hình ảnh về những bài đánh giá trên trang web này. Chúng tôi sau khi lấy dữ liệu về cũng tiến hành một số thao tác nhỏ nhằm làm cho dữ liệu trở lên chính quy hơn như: sửa một số lỗi chính tả do người dùng; một số từ theo cách viết cá nhân, viết tắt (“wa”, “ko”…); một số đoạn thiếu chấm câu, cách dòng,…

Hình 8 - Những reviews do người dùng đánh giá ở trang tinvadung.vn

Dữ liệu của chúng tôi có khoảng 3971 câu ở 20 văn bản tương ứng với 20 sản phẩm mà chúng tôi đã thu thập và xử lý qua để đưa về văn bản chuẩn. Nguồn dữ liệu cũng tương đối đủ cho chúng tôi làm tập huấn luyện (training) và kiểm tra (testing) cho hệ thống. Trong tương lai chúng tôi sẽ thu thập thêm dữ liệu về mỗi chủ đề và mở rộng thêm các chủ đề khác nữa.

4.2.2 Gán nhãn dữ liệu


Đây là phần khá quan trọng nếu không nói là phần quan trọng nhất ảnh hưởng trực tiếp đến sản phẩm. Công việc này yêu cầu độ chính xác cao, chỉ có vậy thì bộ từ điển và bộ luật chúng tôi xây dựng mới chính xác được.

Hệ thống của chúng tôi có mục đích đánh giá quan điểm như vậy xét trong phạm vi từ, những từ về quan điểm là cần thiết nhất, chúng tôi dùng 2 gán nhãn PosWord và NegWord để phân lớp cho từ quan điểm. Tiếp đó từ nói đến Feature để đưa ra đánh giá là quan trọng thứ nhì, chúng tôi gọi chung những từ này là Entity và xét riêng cho từng Feature thì lấy tên của Feature đấy làm tên của nhãn ví dụ như: cauhinh, vanhanh… Như đã nói ở chương 2 loại từ phủ định hay làm thay đổi đánh giá quan điểm chúng tôi cũng xét đến và được gán nhãn ReverseOpinion.

Hệ thống của chúng tôi đánh giá quan điểm xét ở mức câu chính vì vậy những nhãn về câu là không thể thiếu. Chúng tôi cần các nhãn PosSen, NegSen, MixSen để phân biệt cho những câu đơn đơn giản mà có những đánh giá lần lượt là positive, negative và cả 2 loại. Ngoài ra khi đối với câu không có từ quan điểm thì có một kiểu câu khác vẫn có ý nghĩa đánh giá quan điểm là câu so sánh. Để giải quyết vấn đề này chúng tôi dùng thêm hai nhãn CompWord (từ so sánh) và CompSen (câu so sánh) để phân biệt. Hình 9 sau cho thấy một dữ liệu được chúng tôi gán nhãn thủ công bằng phần mềm Callisto (http://callisto.mitre.org/download.html).

Hình 9 - Gán nhãn dữ liệu



tải về 0.69 Mb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6   7   8   9   10




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương