ĐẠi học công nghệ ĐẠi học quốc gia hà NỘI


Những thách thức và công việc có thể trong tương lai



tải về 0.69 Mb.
trang5/10
Chuyển đổi dữ liệu08.09.2016
Kích0.69 Mb.
#31836
1   2   3   4   5   6   7   8   9   10

2.2 Những thách thức và công việc có thể trong tương lai


Những vấn đề thách thức chính trong đánh giá quan điểm còn tồn tại trong việc sử dụng các từ loại, việc xây dựng các từ ngữ chỉ quan điểm, sự nhập nhằng trong câu phủ định, mức độ của tình cảm (như excellent thì hơn good), các câu / văn bản phức tạp, từ ngữ trong văn cảnh khác nhau,… Một vài hướng tiếp cận đã được đưa ra để giải quyết những vấn đề này và trong tương lai sẽ có nhiều hướng nghiên cứu giải quyết triệt để từng thách thức này.

2.2.1 Các loại từ khác


Cho tới nay, phần lớn các công việc đã đạt được trong phân tích quan điểm tập trung vào các từ loại : danh từ, động từ, tính từ và phó từ, đặc biệt là 2 loại từ cuối cùng. Tuy nhiên các loại từ khác cũng có thể mang lại tính hiệu quả trong việc phân loại quan điểm. Ví dụ, các liên từ như “nhưng” nối 2 phần của một câu với nhau nhưng lại nhằm nhấn mạnh phần đằng sau chữ “nhưng”: “bộ phim hay nhưng khó hiểu” có thể được phân loại là ý kiến trung lập, nếu chúng ta tính đơn giản giá trị các từ chỉ quan điểm tích cực “hay” và chỉ quan điểm tiêu cực “ khó”; có lẽ câu đó được phân loại là quan điểm tích cực nếu chúng ta nhìn vào từ chỉ quan điểm “tốt” gần nhất với từ đặc trưng “bộ phim” như trong Hu và Liu (2004a) [12]. Tuy nhiên, nếu chúng ta sử dụng liên từ “nhưng” và cho một trọng lượng cao hơn của phần câu sau chữ “nhưng” , trong trường hợp này “khó”, thì câu đó lại được phân loại đúng là quan điểm tiêu cực. Ngoài từ “nhưng” các từ khác cũng tương tự như vậy: “mặc dù”, ”tuy thế mà” và “vẫn”... cũng có thể được sử dụng trong phân loại câu chỉ quan điểm.

Vì công việc này khi áp dụng vào tiếng Việt lại không tạo ra được kết quả khả thi hơn nếu như không nói làm cho việc viết luật trở lên phức tạp hơn. Chính vì vậy mà ở hệ thống của chúng tôi không áp dụng đối với những từ loại khác mà chỉ tập trung vào 4 loại từ cơ bản là: Danh từ, Động từ, đặc biệt là Tính từ và Phó từ.


2.2.2 Thuật ngữ chỉ quan điểm


Nhiều công trình nghiên cứu như (Nasukawa và Yi, 2003 [15]; Bruce và Wiebe, 1999 [2]) định nghĩa các biểu hiện quan điểm trong thuật ngữ quan điểm của chính họ dựa trên biểu thị tính đối lập, POS tagging, hình thái tiêu chuẩn và loại chủ đề (chủ thể hay đối tượng) đối với các từ chỉ quan điểm tương ứng. Tuy nhiên, phương pháp này kém hấp dẫn, thiếu hiệu quả và có lẽ là không chính xác. Cũng do một thực tế là các thuật ngữ quan điểm độc lập này không có giá trị công khai, các nhóm phân tích quan điểm không thể cộng tác với nhau và như vậy thì không thể đưa ra một tài liệu tiêu chuẩn cho việc sử dụng trong tương lai. Tình hình không được cải thiện mãi cho tới gần đây khi xuất hiện một số nghiên cứu tập trung giải quyết vấn đề này. Esuli và Sebastiani (2006) [9] xây dựng một hệ thống thuật ngữ có giá trị thông dụng trong việc đánh giá quan điểm – SentiWordNet, một WordNet (Fellbaum, 1998) [10] nhấn mạnh vào xu hướng quan điểm của các từ. Họ liên kết mỗi synset trong WordNet với 3 điểm: Obj(s), Pos(s), và Neg(s) để chỉ ra các thuật ngữ bao hàm tính khách quan, tích cực, tiêu cực như thế nào trong mỗi synset. Phương pháp của họ xây dựng SentiWordNet dựa trên việc phân tích số lượng những lời nhận xét được kết nối với các synset, và dựa trên kết quả về vectơ đại diện cho phân lớp synset bán giám sát. Cách tiếp cận của họ đã mở rộng khối lượng các công việc hiện tại và cung cấp một công cụ mới trong phân tích quan điểm; tuy nhiên, những thuật ngữ này chưa được phát triển. Nhiều đặc điểm của các thuật ngữ trong nhận biết tính chủ quan và xu hướng quan điểm chưa được bổ sung để giải quyết các vấn đề đang tồn tại trong lĩnh vực này.

Đối với hệ thống tiếng Việt, hiện chưa có một tập thuật ngữ chuẩn dành cho công việc này. Chính vì vậy hệ thống của chúng tôi phải tự xây dựng những thuật ngữ này dựa trên kinh nghiệm gán nhãn bằng cách thủ công.


2.2.3 Tính phủ định


Khi có biểu hiện phủ định được kết hợp, theo Nasukawa và Yi (2003) [15] sẽ làm đảo chiều tính quan điểm. Hu và Liu (2004a) [12] sử dụng định hướng đối lập nếu từ tiêu cực xuất hiện gần hơn xung quanh từ chỉ quan điểm trong câu. Tuy nhiên, không giống các công việc trong toán học khi phủ định của khẳng định là phủ định và ngược lại, biểu hiện phủ định được cộng thêm vào một từ hay cụm từ trong bài viết thực tế không giống với việc đặt một dấu “trừ”(-) trước một con số. Hay nói cách khác, phủ định của khẳng định không hẳn là phủ định đối với các từ hay cụm từ. Ví dụ, “muộn” là negative, nhưng thêm một chữ “không” vào trước không làm cho “không muộn” là positive vì “không muộn” không bằng với “sớm” là từ trái nghĩa với “muộn”. Vấn đề này cũng vì một thực tế rằng nhiều cách tiếp cận sử dụng 2 tiêu chuẩn: positive và negative (đôi khi là 3 tiêu chuẩn bao gồm cả sự trung lập) để diễn tả xu hướng quan điểm trong khi các từ / cụm từ có thể có các cấp độ tính đối lập có các cấp độ tính đối lập mà chúng ta sẽ bàn luận ở mục sau 2.2.4.

Trong hệ thống của chúng tôi cũng xét đến những loại từ này tuy nhiên cũng chỉ xét trong phạm vi khi có 2 loại quan điểm là positive và negative. Do đó mà khi xuất hiện những từ phủ định hay còn gọi là từ làm thay đổi quan điểm thì chúng tôi thay đổi lớp cho những từ như vậy.


2.2.4 Cấp độ quan điểm


Như trong Esuli và Sebastiani (2006) [9], một vài nhiệm vụ liên quan đến cấp độ quan điểm trong hệ thống đánh giá quan điểm. Nhiệm vụ thứ nhất được gọi là SO-polarity, nhằm xác định ý kiến mang tính khách quan hay chủ quan (Pang và Lee, 2004 [18]; Yu và Hatzivassiloglou, 2003 [26]). Nhiệm vụ thứ hai được gọi là PN-polarity, nhằm xác định ý kiến là tích cực hay tiêu cực; được diễn tả trong nhiều cách tiếp cận hiện nay (Hatzivassiloglou và McKeown, 1997 [11]; Hu và Liu, 2004a [12]; Pang, 2002 [17]; Pang và Lee, 2004 [18]; Turney và Littman, 2003 [24]; Turney và Littman, 2002 [23]). Tuy nhiên việc phân lớp xu hướng quan điểm chỉ theo positive và negative cũng nảy sinh một vài vấn đề, mức độ mạnh yếu, tính đối lập cũng cần được phân tích kỹ lưỡng.

Bổ sung thêm việc phân lớp các từ thành các mức độ xu hướng quan điểm khác nhau như đã được nhắc đến ở trên, một số từ bổ nghĩa (đặc biệt các phó từ như “rất”,”một chút”,”hết sức”,”hơi”…) cũng có thể được dùng để xác định mức độ xu hướng quan điểm của câu. Cụm từ “rất hài lòng” và “ hơi hài lòng” sẽ được phân lớp thành rất tích cực và kém tích cực là thích hợp nếu “rất” và “hơi” được phân tích và sử dụng để xác định mức độ đối lập.

Cấp độ quan điểm này làm cho việc xét mức độ đánh giá quan điểm được chính xác hơn tuy nhiên trong hệ thống của chúng tôi bước đầu chỉ sử dụng 2 loại quan điểm là positive và negative do vậy việc xét cấp độ quan điểm của chúng tôi chỉ dừng lại ở 2 lớp này và không đi sâu hơn. Trong tương lai chúng tôi sẽ phát triển hệ thống để có được thước đo sát với mức độ đánh giá hơn.

2.2.5 Sự phức tạp của câu / tài liệu


Sự phức tạp của câu là một vấn đề mang tính thách thức với những nghiên cứu hiện nay về phân lớp câu chỉ quan điểm. Các phương pháp như (Nasukawa và Yi, 2003 [15]) chỉ nhằm cố gắng phân lớp câu có cấu trúc đơn. Với những câu phức tạp, họ chỉ có thể chia cắt câu và giải quyết từng phần riêng lẻ. Không phân tích theo toàn bộ cấu trúc câu, toàn bộ quan điểm có thể bị phân lớp nhầm và độ chính xác của việc phân lớp kể từ đó sẽ bị ảnh hưởng. Đó cũng là vấn đề xảy ra trên hệ thống của chúng tôi, việc dùng luật cũng phần nào phản ánh được quá trình phân tích câu tuy nhiên đối với sự nhập nhằng hay phức tạp trong các thành phần câu thì khó có thể hoàn thành tốt được.

Sự phức tạp của tài liệu có thể tạo nên vấn đề lớn hơn đối việc phân lớp tài liệu chỉ quan điểm. Turney (2002) [22] chỉ ra rằng trong quan điểm phim ảnh, có thể có những quan điểm khác nhau trong những phần khác nhau của bài viết, dựa theo những khía cạnh khác nhau của bộ phim. Do đó sẽ khó cho hệ thống phân lớp quan điểm để xác định xu hướng trung thực và quan điểm của người phê bình đối với mỗi bộ phim. Thậm chí một trường hợp tồi tệ hơn có thể xảy ra khi người viết sử dụng nhiều đoạn văn để diễn tả anh ta (cô ta) ghét một trong những diễn viên của bộ phim như thế nào nhưng sử dụng chỉ một đoạn nhỏ để diễn tả anh ta (cô ta) yêu thích bộ phim hơn tất cả. Khi gặp những tình huống như thế này, hệ thống rất dễ bị lỗi khi phân lớp quan điểm này là tiêu cực. Một phương pháp có thể giải quyết vấn đề này là phân biệt các khía cạnh khác nhau của một tài liệu, và phân lớp quan điểm với sự lưu tâm tới các khía cạnh hơn là phân lớp theo toàn bộ tài liệu. Hu và Liu (2004a) [12] đã sử dụng phương pháp này để phân biệt các quan điểm đối với các đặc điểm khác nhau của cùng một sản phẩm hay cùng một tài liệu.


2.2.6 Quan điểm theo ngữ cảnh


Các nghiên cứu hiện nay nhằm nhận biết xu hướng quan điểm của các từ không xem xét nhiều đến ngữ cảnh. Một số từ trong các ngữ cảnh khác nhau có thể có POS tags khác nhau và nghĩa khác nhau. Trong trường hợp này, POS tagging là một công cụ tốt giúp nhận biết xu hướng quan điểm. Tuy nhiên, cùng các từ trong những ngữ cảnh khác nhau có thể có cùng POS tag nhưng lại có nghĩa khác nhau và xu hướng quan điểm khác nhau. Từ “poor” trong “ hiệu suất hệ thống kém (poor)” là một xu hướng quan điểm tiêu cực, nhưng trong “ chúng ta nên giúp đỡ người nghèo(poor)” thì “poor” là mang tính trung lập. Khi gặp phải những tình huống như vậy, ý nghĩa rõ ràng của từ giúp cho giải quyết vấn đề. Một khi chúng ta biết nghĩa rõ ràng của từ “poor” trong câu thứ nhất nghĩa là kém chất lượng, trong khi trong câu thứ hai có nghĩa là có ít tiền, việc nhận biết xu hướng quan điểm đối với từ “poor” đã được giải quyết.

Trường hợp tệ nhất vẫn có thể xảy ra khi cùng các từ trong các ngữ cảnh khác nhau có cùng POS tag và cùng nghĩa nhưng lại có xu hướng quan điểm khác nhau. Ví dụ, “old” trong “the man is old” là từ mang tính trung lập, trái lại trong “the technique is old” thể hiện quan điểm tiêu cực. Trong trường hợp này, không may là cả POS tagging và việc nhận biết rõ nghĩa của từ cũng không thể giải quyết. Cần nhiều thuật toán và kĩ thuật hơn nữa được phát triển để có thể xử lí vấn đề này.

Trong phương pháp xây dựng hệ thống đánh giá quan điểm dựa trên luật chúng tôi cũng sử dụng khá nhiều luật để mô tả cho từng ngữ cảnh. Ví dụ như khi nói đến giá cả thì từ “cao” mang nghĩa negative còn khi nói đến hệ thống từ “cao” lại thể hiện ý positive. Trong nhiều ngữ cảnh hệ thống luật của chúng tôi chạy cũng khá hiệu quả.

2.2.7 Tài liệu không đồng nhất


Các loại tài liệu khác nhau, hoặc thậm chí cùng một loại nhưng nói về các lĩnh vực khác nhau có mức độ khó khác nhau trong việc phân loại quan điểm. Theo như kết quả được nói đến trong Turney (2002) [22], độ chính xác của việc phân lớp là khác nhau tùy theo quan điểm trong những lĩnh vực khác nhau, việc phân lớp đánh giá về xe ô tô và ngân hàng có độ chính xác cao hơn (tương ứng 84% và 80%), trái lại các quan điểm về điện ảnh và các điểm du lịch có độ chính xác thấp hơn (tương ứng 65,83% và 70,53%). Điều này cũng vì mức độ phức tạp khác nhau của câu (tài liệu) ứng với các lĩnh vực đề cập khác nhau trong những tài liệu đã được nói đến ở mục 2.2.5. Trong những nghiên cứu sau này, kĩ thuật phân tích ngôn ngữ tự nhiên có thể được phát triển nhằm mục đích xác định lĩnh vực của tài liệu, những người nghiên cứu về phân lớp quan điểm có thể sẽ nâng cao hơn độ chính xác đối với từng lĩnh vực này.

Hệ thống của chúng tôi hiện đang chú trọng vào đánh giá quan điểm người dùng cho máy tính (laptop & desktop). Trong tương lai chúng tôi sẽ mở rộng thêm về ô tô & xe máy và điện thoại di động là những chủ đề nóng hiện nay.


2.2.8 Một số vấn đề khác


Bên cạnh những vấn đề đã nói trong mục trước (2.2.1 đến 2.2.7), còn có không ít vấn đề thách thức khác như việc giải quyết các trích dẫn … vẫn chưa được xử lí trong đánh giá quan điểm. Việc nghiên cứu trong tương lai cũng cần lưu tâm đến các vấn đề này để nâng cao độ chính xác.


tải về 0.69 Mb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6   7   8   9   10




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương