ĐẠi học công nghệ ĐẠi học quốc gia hà NỘI

tải về 0.69 Mb.

trang	10/10
Chuyển đổi dữ liệu	08.09.2016
Kích	0.69 Mb.
	#31836

1 2 3 4 5 6 7 8 9 10

5.3 Phân tích lỗi

Trước hết dữ liệu của chúng tôi tự lấy về từ các trang web trên Internet cho nên khó tránh khỏi có nhiều lỗi viết sai của người dùng. Mặc dù chúng tôi đã đọc và sửa lại theo dạng chuẩn tuy nhiên vẫn không tránh khỏi còn có lỗi viết sai, lỗi diễn đạt của người dùng. Trong phần này chúng tôi tập trung vào các lỗi có tầm ảnh hưởng quan trọng đến độ chính xác của hệ thống như là: gán nhãn từ loại (POS tag), luật, tách câu…

5.3.1 Lỗi do gán nhãn từ loại (POS tag)

Chúng tôi sử dụng bộ gán nhãn từ loại trong plugin Coltech.NLP.tokenizer với độ chính xác chưa cao. Việc viết luật phụ thuộc khá nhiều vào công việc này chính vì vậy mà với một sai lầm trong công việc này cũng ảnh hưởng không nhỏ đến độ chính xác của việc nhận dạng các từ, các câu đánh giá quan điểm.

Ví dụ như câu sau:

“Laptop này thỏa mãn được hầu hết các nhu cầu giải trí, làm việc, nhưng vẫn rất thời trang, tiện lợi và thể hiện được đẳng cấp.”

Trong câu này chúng tôi chỉ nhận dạng được 3 từ PosWord là thời trang, tiện lợi và đẳng cấp. Trong khi đó từ “thỏa mãn” cũng mang ý nghĩa positive tuy nhiên do bộ gán nhãn từ loại không xác định được từ loại của từ đó (nhãn là X) [Hình 12] cho nên hệ thống của chúng tôi cũng không xác định được từ quan điểm này.

Hình 12 - Lỗi do POS Tag ảnh hưởng đến nhận dạng từ

Một trường hợp nữa khá nguy hiểm khi nó làm ảnh hưởng đến việc tách câu như trong ví dụ:

“Kiểu dáng máy đẹp, thời trang và thời lượng dùng Pin dài.”

Trong việc tách câu của chúng tôi, chúng tôi có một luật là:

* +

Thì chúng tôi sẽ tách ở vị trí dấu câu.

Tuy nhiên trong trường hợp này từ “thời trang” theo gán nhãn từ loại là “Na” tức là danh từ trong khi chính xác phải là tính từ. Chính vì vậy làm cho hệ thống tách câu như sau:

“Kiểu dáng máy đẹp” | “thời trang và thời lượng dùng Pin dài.” [Hình 13]

Hình 13 - Lỗi do POS tag ảnh hưởng đến tách câu

5.3.2 Lỗi do luật

Và cuối cùng đây là một lỗi dường như một lẽ tất nhiên. Chúng tôi không thể viết chính xác các luật và luật cũng không thể chính xác hết cho mọi trường hợp. Chính vì vậy mà việc nhận dạng sai cũng là điều đương nhiên. Ở đây chúng tôi đưa ra một số ví dụ mà với những luật khá cơ bản cũng vẫn có thể sai.

Ví dụ:

“Tuy nhiên, độ nhạy và sự thoải mái khi dùng lâu ở touchpad trên MacBook 13 inch vẫn được đánh giá cao hơn.”

Ở đây từ “lâu” được nhận dạng là từ PosWord dựa trên luật

“ ”

Tuy nhiên trong trường hợp này thì việc nhận dạng này là sai [Hình 14].

Hình 14 - Lỗi do viết luật ảnh hưởng đến nhận dạng từ

5.3.3 Lỗi do tách câu

Ở phần đánh giá chúng tôi cũng đề cập đến việc độ chính xác mức câu là không cao và có nói nguyên nhân chủ yếu là do tách câu và tất nhiên cũng một phần là do việc nhận dạng từ không chuẩn. Lỗi do tách câu thực ra cũng chính là do viết luật nhưng ở đây chúng tôi tách ra để cho thấy được tầm quan trọng của công việc này. Việc tách câu ghép thành các câu đơn là không hề dễ dàng nhất là với văn bản tiếng Việt thì độ chính xác về phân tích cấu trúc câu không cao do đó mà chúng tôi không thể mượn việc phân tích cấu trúc câu để tách câu. Chúng tôi hoàn toàn chỉ dựa vào luật và với sự nhập nhằng các câu gây nên rất nhiều vấn đề khó khăn để tách chúng ra.

Ví dụ:

“Một chiếc máy tính hạng sang với tốc độ xử lí, dung lượng ổ cứng... đáp ứng đủ cho yêu cầu đa số nhiều người”

Câu trên được tách thành 2 câu một cách không chính xác:

“Một chiếc máy tính hạng sang với tốc độ xử lí”

“dung lượng ổ cứng... đáp ứng đủ cho yêu cầu đa số nhiều người”

Hình 15 – Lỗi do tách câu

Ngoài ra cũng còn nhiều nguyên nhân từ việc tách từ hay sử dụng bộ từ điển thiếu sót tuy không phải là vấn đề chủ yếu nhưng trong một vài trường hợp cũng gây ra một số lỗi sai cho hệ thống.

Từ việc phân tích lỗi chúng tôi cũng nhận thấy một số lỗi có khả năng sửa được để nâng cao độ chính xác của hệ thống. Ví dụ như dùng luật chính xác và đầy đủ hơn cho ngữ cảnh hay dùng bộ gán nhãn, tách từ có độ chính xác cao hơn, xây dựng bộ từ điển chuẩn xác hơn, … Đó là những công việc trong tương lai để hệ thống có độ chính xác cao hơn.

Chương 6
Tổng kết và hướng phát triển

Chúng tôi bước đầu xây dựng một hệ thống đánh giá quan điểm người dùng cho tiếng Việt dựa trên luật và phân lớp ở mức câu. Hệ thống được thiết kế trên nền GATE để cộng đồng có thể dễ dàng tiếp cận và phát triển cho bài toán đánh giá quan điểm người dùng. Với kết quả độ chính xác được thực hiện trên dữ liệu về máy tính (computer) theo mức từ (F-measure: 77%), mức câu (F-measure: 63%) và mức văn bản theo Features (89%) có thể nói là một kết quả đáng khả quan mở đầu cho bài toán đánh giá quan điểm người dùng trên hệ thống tiếng Việt.

Tuy nhiên trong quá trình xây dựng hệ thống vẫn còn một vài thiếu sót cả do vấn đề khách quan lẫn chủ quan. Trong tương lai chúng tôi sẽ cố gắng phát triển hệ thống một cách chuẩn xác hơn. Bên cạnh hệ thống đánh giá quan điểm cho văn bản tiếng Việt, chúng tôi còn xây dựng được một tài liệu định nghĩa và một tập dữ liệu đã được gán nhãn chuẩn. Khi tập dữ liệu được gán nhãn đủ lớn, chúng tôi có thể sử dụng thêm các thành phần nhận dạng thực thể (từ, câu, features) bằng các phương pháp học máy, làm tăng sức mạnh của hệ thống. Với những kết quả đã đạt được và khả năng có thể cải tiển hệ thống ở nhiều mặt như: cải tiến bộ từ điển, thêm những thành phần xử lý sâu về ngữ cảnh, kết hợp với bộ nhận dạng sử dụng các phương pháp học máy v.v… sẽ hứa hẹn đem lại một hệ thống đánh giá quan điểm trong văn bản tiếng Việt đạt kết quả cao trong tương lai.

Tài liệu tham khảo

[1] Eric Brill. 1994. Some Advances in Transformation-Based Part of Speech Tagging. Proceedings of the 12th National Conference on Artificial Intelligence. 1994, Menlo Park, CA: AAAI Press, pp722–727.

[2] Rebecca F. Bruce and Janyce M. Wiebe. 1999. Recognizing subjectivity: a case study in manual tagging. Natural Language Engineering 5(2):187–205.

[3] H. Cunningham, D. Maynard, K. Bontcheva, V. Tablan. 2002. GATE, A Framework and Graphical Development Environment for Robust NLP Tools and Applications. Proceedings of the 40^th Anniversary Meeting of the Association for Computational Linguistics (ACL'02). Philadelphia, July 2002.

[4] Kenneth Ward Church, Patrick Hanks.1989. Word association norms, mutual information and lexicography. Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics.1989, Vancouver, B.C., Canada, pp76–83.

[5] Dang Duc Pham, Giang Binh Tran, Son Bao Pham. 2009. A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags. International Conference on Knowledge and Systems Engineering.

[6] Dat Ba Nguyen, Son Huu Hoang, Son Bao Phamand Thai Phuong Nguyen. 2010. Named Entity Recognition for Vietnamese. Springer Berlin / Heidelberg. April , 2010.

[7] David Day, Chad McHenry, Robyn Kozierok, Laurel Riek. 2004. Callisto: A Configurable Annotation Workbench. In Proceedings of the Fourth International Conference on Language Resources and Evaluation. (LREC 2004). ELRA. May, 2004.

[8] Xiaowen Ding, Bing Liu, Lei Zhang. 2009. Entity Discovery and Assignment for Opinion Mining Applications. Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining.

[9] Andrea Esuli and Fabrizio Sebastiani 2006. Senti-WordNet: A Publicly Available Lexical Resource for Opinion Mining. Proceedings of the 5th Conference on Language Resources and Evaluation (LREC-06). 2006, Genova, Italy.

[10] Christiane Fellbaum. 1998. WordNet: an electronic lexical database. MIT Press.

[11] Vasileios Hatzivassiloglou and Kathleen R. McKeown. 1997. Predicting the Semantic Orientation of Adjectives. Proceedings of the 8th conference on European chapter of the Association for Computational Linguis- tics. 1997, Madrid, Spain.

[12] Minqing Hu and Bing Liu. 2004a. Mining and summarizing customer reviews. Proceedings of the 10th ACM SIGKDD international conference on Knowledge discovery and data mining. Aug. 22–25, 2004, Seattle, WA, USA.

[13] Minqing Hu and Bing Liu. 2004b. Mining opinion features in customer reviews. Proceedings of 9th National Conference on Artificial Intellgience. Jul. 2004, San Jose, USA.

[14] Chris Manning and Hinrich Schutze. 1999. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA.

[15] Tetsuya Nasukawa, Jeonghee Yi. 2003. Sentiment Analysis: Capturing Favorability Using Natural Language Processing. Proceedings of the 2nd international conference on Knowledge capture. Technology systems (SEALTS).

[16] Mary S. Neff, Roy J. Byrd, and Branimir K. Boguraev. 2003. The Talent System: TEXTRACT Architecture and Data Model. Proceedings of the HLT-NAACL2003 Workshop on Software Engineering and Architecture of Language .

[17] Bo Pang, Lillian Lee and Shivakumar Vaithyanathan. 2002. Thumbs up? Sentiment classification using machine learning techniques. Proceedings of the 7th Conference on Empirical Methods in Natural Lan- guage Processing (EMNLP-02).

[18] Bo Pang and Lillian Lee. 2004. A sentiment education: sentiment analysis using subjectivity summrarization based on minimum cuts. Proceedings of the Conference of the Association for Computational Linguistics (ACL-04).

[19] Gong Tianxia. Processing Sentiments and Opinions in Text: A Survey.

[20] Tong. 2001. An operational system for detecting and tracking opinions in online discussion. Proceedings of SIGIR Workshop on Operational Text Classification. 2001, New York, pp1–6.

[21] Peter Turney. 2001. Mining the Web for synonyms: PMI-IR versus LSA on TOEFL. Proceedings of the 12th European Conference on Machine Learning. Berlin: Spinger-Verlag, pp. 491–502.

[22] Peter Turney. 2002. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL-02). Jun. 2002, Philadelphia, PN, USA, pp.417–424.

[23] Peter Turney and Michael Littman. 2002. Unsupervised Learning of Semantic Orientation from a Hundred- Billion-Word Corpus. Technical Report NRC Technical Report ERB-1094. Institute for Information Technology, National Research Council Canada.

[24] Peter Turney and Michael Littman. 2003. Measuring praise and criticism: Inference of semantic orientation from association. ACM Tranctions on Information Systems, 21(4): 315-346.

[25] Janyce M. Wiebe, Theresa Wilson and Matthew Bell. 2001. Identifying collocations for recognizing opinions. Proceedings of the ACL/EACL Workshop on Collocation. 2001.

[26] Hong Yu and Vasileios Hatzivassiloglou. 2003. Towards answering opinion questions: Seperating facts from opinions and identifying the polarity of opinion sentences. Proceedings of the 8th Conference on Empirical Methods in Natural Language Processing (EMNLP-03). 2003, Sapporo, Japan, pp129–136.

Phụ lục A. Annotation Guideline.

Feature tag: những từ nêu lên đặc điểm của sản phẩm như: giá, thiết kế, cấu hình, …
Entity tag: là những từ chính có ý chỉ đến feature của sản phẩm như: bề ngoài -> feature thiết kế, số tiền -> giá, máy -> feature chung cho sản phẩm về computer (laptop và desktop), …
PosWord tag: những từ nêu lên đặc điểm, tính chất của entity có ý nghĩa đánh giá khen: đẹp, tốt, cao (đối với cấu hình), vừa phải (giá cả), nổi bật (thiết kế), bắt mắt (thiết kế), …
NegWord tag: tương tự như PosWord tag nhưng đánh giá chê: xấu, thấp (đối với cấu hình), cao (đối với giá), …
CompWord: những từ mang ý nghĩa so sánh: xấu hơn, đẹp hơn, kém hơn, tốt nhất, tốt hơn so với, … Chú ý những từ so sánh mà không mang ý nghĩa so sánh: Máy tốt hơn nếu cấu hình cao hơn -> câu bình thường không phải là opinion sentence.
ReverseWord: những từ làm trái ngược ý nghĩa đánh giá như: không, không phải, chỉ, không được, …
PosSen: là 1 câu trong đấy gồm những từ mang ý nghĩa đánh giá tốt. Chỉ gồm PosWord trong câu và không có ReverseWord cho PosWord nào, có cả NegWord nhưng có ReverseWord cho NegWord đó.
NegSen: trái ngược với PosSen.
MixSen: có cả 2 loại PosWord và NegWord trong câu (tính cả ReverseWord cho nó rồi) hay không thuộc 2 loại câu trên và ko phải câu ko có ý nghĩa đánh giá.
CompSen: Câu mang từ CompWord.

Phụ lục B. Bảng nhãn từ loại tiếng Việt

Np danh từ riêng proper noun

Nc danh từ đơn thể countable noun

Ng danh từ tổng thể collective noun

Nt danh từ loại thể classifier noun

Nu danh từ chỉ đơn vị concrete noun

Na danh từ trừu tượng abstract noun

Nn danh từ số lượng numeral

Nl danh từ vị trí locative noun

Vt động từ ngoại động transitive verb

Vit động từ nội động intransitive verb

Vim động từ cảm nghĩ impression verb

Vo động từ chỉ hướng orientation verb

Vs động từ tồn tại state verb

Vb động từ biến hoá transformation verb

Vv động từ ý chí volotive verb

Va động từ tiếp thụ acceptation verb

Vc động từ so sánh comparative verb

Vm động từ chuyển động move verb

Vla động từ "là" “là” verb

Vtim động từ ngoại động cảm nghĩ transitive-impression verb

Vta động từ ngoại động tiếp thụ transitive-acceptation verb

Vtc động từ ngoại động so sánh transitive-comparative verb

Vtb động từ ngoại động biến hoá transitive-transformation verb

Vto động từ ngoại động chỉ hướng transitive-orientation verb

Vts động từ ngoại động tồn tại transitive-state verb

Vtm động từ ngoại động chuyển động transitive-move verb

Vtv động từ ngoại động ý chí transitive-volotive verb

Vitim động từ nội động cảm nghĩ intransitive-impression verb

Vitb động từ nội động biến hoá intransitive-transformation verb

Vits động từ nội động tồn tại intransitive-state verb

Vitc động từ nội động so sánh intransitive-comparative verb

Vitm động từ nội động chuyển động intransitive-move verb

Aa tính từ hàm chất quality adjective

An tính từ hàm lượng quantity adjective

Pp đại từ xưng hô personal pronoun

Pd đại từ không gian, thời gian demonstrative pronoun

Pn đại từ số lượng quantity pronoun

Pa đại từ hoạt động, tính chất quality pronoun

Pi đại từ nghi vấn interrogative pronoun

Jt phụ từ chỉ thời gian time adjunct

Jd phụ từ chỉ mức độ degree adjunct

Jr phụ từ so sánh rapport adjunct

Ja phụ từ khẳng định, phủ định adjunct of negation and acceptation

Ji phụ từ mệnh lệnh imperative adjunct

Cm giới từ major/minor conjunction

Cc liên từ combination conjunction

E cảm từ emotion word

I trợ từ introductory word

X không xác định

Каталог: jspui -> bitstream -> 123456789
123456789 -> Nguyễn Ngọc Lý Giám đốc Trung tâm Nghiên cứu về Môi trường và Cộng đồng
123456789 -> Vò Quúnh Thu Cao häc K18
123456789 -> Khoa Báo chí Đhkhxh&NV
123456789 -> Acknowledgements
123456789 -> Danh mục chữ viết tắT
123456789 -> Chương TỔng quan vật liệu mao quản trung bình (mqtb) trật tự 1 Giới thiệu chung
123456789 -> Khoa hóa họC (141 142 báo cáo)