ĐẠi học công nghệ ĐẠi học quốc gia hà NỘI


Chương 5 Kết quả thực nghiệm và phân tích lỗi



tải về 0.69 Mb.
trang9/10
Chuyển đổi dữ liệu08.09.2016
Kích0.69 Mb.
#31836
1   2   3   4   5   6   7   8   9   10

Chương 5

Kết quả thực nghiệm và phân tích lỗi


Dữ liệu của chúng tôi có khoảng 3971 câu ở 20 văn bản tương ứng với 20 sản phẩm mà chúng tôi đã thu thập và xử lý qua để đưa về văn bản chuẩn (Xem phần 4.2 về thu thập dữ liệu). Chúng tôi đánh giá hệ thống trên hai tập dữ liệu, tập dữ liệu được dùng trong quá trình viết luật (tập huấn luyện) gồm 16 văn bản (khoảng 3182 câu), và tập dữ liệu mới (tập kiểm tra) gồm 4 văn bản (khoảng 789 câu). Do giả thuyết của chúng tôi về hệ thống (xem chương 4) mỗi sản phẩm sẽ tương đương với một hoặc nhiều văn bản, tuy nhiên ở đây chúng tôi thiết kế dữ liệu thành mỗi văn bản tương đương với một sản phẩm và đánh giá về sản phẩm chính là đánh giá văn bản tương ứng của nó.

5.1 Tiến hành thực nghiệm


Bước 1: Sử dụng hệ thống nhận dạng thực thể trong văn bản tiếng Việt do chúng tôi xây dựng để tự động nhận dạng và gán nhãn.

Bước 2: So sánh tập dữ liệu được gán nhãn tự động và tập dữ liệu chuẩn được gán nhãn thủ công (bằng tay với sự hỗ trợ của phần mềm Callisto), qua đó đưa ra các thông số đánh giá chất lượng của hệ thống (Precision, Recall, F-measure).

Chúng tôi đánh giá theo 3 mức: từ, câu và features. Ở mức từ và câu chúng tôi sử dụng so sánh nhãn để đánh giá. Nhãn của từ hay câu gọi là giống nhau khi mà chúng cùng kiểu và vị trí xuất phát, kết thúc của chúng trong văn bản chênh lệch nhau không quá mức sai số. Ở đây chúng tôi cho sai số là 1 có nghĩa vị trí có thể sai lệch nhau 1 để tránh trường hợp trong quá trình gán nhãn có gán nhãn thừa các ký tự trống, ký tự đặc biệt,…

5.2 Kết quả thực nghiệm


Chúng tôi chia dữ liệu thực nghiệm thành 2 tập huấn luyện và kiểm tra. Mỗi tập văn bản chúng tôi chọn ra một số văn bản để đánh giá theo 3 mức từ, câu và Features. Mức từ và mức câu chúng tôi đánh giá theo các thông số cơ bản về chất lượng hệ thống (Precision, Recall, F-measure). Còn về đánh giá Features chúng tôi sẽ đưa ra một phương pháp mà theo chúng tôi là hợp lý cho hệ thống của chúng tôi.

5.2.1 Kết quả thực nghiệm đánh giá ở mức từ


Ở mức từ chúng tôi chỉ dùng những nhãn từ cần thiết quyết định cho cả hệ thống đó là: PosWord (từ quan điểm mang nghĩa tích cực), NegWord (từ quan điểm mang nghĩa tiêu cực) (xem thêm ở phụ lục A về các nhãn). Kết quả của hệ thống chủ yếu dựa vào độ chính xác của 2 loại từ này

Sau đây là kết quả nhận dạng trên tập huấn luyện mới chỉ dừng lại ở kết quả 78.45%, trong tương lai chúng tôi sẽ cải tiến để đạt kết quả tốt hơn nữa.

Bảng 1 - Kết quả nhận dạng từ đánh giá trên tập huấn luyện

Loại


Số
thực thể

Số thực thể được nhận dạng

Số thực thể được nhận đúng

Precision

Recall

F-measure

PosWord

441

376

334

88.83 %

75.74 %

82.28 %

NegWord

153

122

93

76.23 %

60.78 %

68.51 %

All

598

502

431

85.86 %

72.07 %

78.97 %


Bảng 2 - Kết quả nhận dạng từ đánh giá trên tập kiểm tra

Loại


Số
thực thể

Số thực thể được nhận dạng

Số thực thể được nhận đúng

Precision

Recall

F-measure

PosWord

300

237

214

90.30 %

71.33 %

79.70 %

NegWord

60

62

42

67.74 %

70.00 %

68.85 %

All

362

301

258

85.71 %

71.27 %

77.83 %

Qua tập huấn luyện chúng tôi thu được kết quả với F-measure đạt 78% đối với từ đánh giá (bảng 2).


5.2.2 Kết quả thực nghiệm đánh giá ở mức câu


Ở mức câu chúng tôi đánh giá qua 3 nhãn: PosSen (câu đơn mang nghĩa tích cực), NegSen (câu đơn mang nghĩa tiêu cực), MixSen (câu đơn mang cả 2 nghĩa).

Bảng 3 - Kết quả nhận dạng câu đánh giá trên tập huấn luyện



Loại


Số
thực thể

Số thực thể được nhận dạng

Số thực thể được nhận đúng

Precision

Recall

F-measure

PosSen

231

218

154

70.64 %

66.67 %

68.60 %

NegSen

97

96

67

69.79 %

69.07 %

69.43 %

MixSen

9

26

7

26.92 %

77.78 %

40.00 %

All

340

343

231

67.35 %

67.94 %

67.64 %


Bảng 4 - Kết quả nhận dạng câu đánh giá trên tập kiểm tra

Loại


Số
thực thể

Số thực thể được nhận dạng

Số thực thể được nhận đúng

Precision

Recall

F-measure

PosSen

157

157

99

63.06 %

63.06 %

63.06 %

NegSen

49

45

34

75.56 %

69.39 %

72.34 %

MixSen

5

21

3

14.29 %

60.00 %

23.08 %

All

212

224

137

61.16 %

64.62 %

62.84 %

Qua đánh giá kiểm tra chúng tôi thu được kết quả đối với đánh giá ở mức câu là 63% (bảng 4). Đối với câu rất khó chính xác bởi vì khi chia câu độ chính xác vốn dĩ không cao tuy nhiên càng chia câu phức tạp thành câu đơn thì việc đánh giá Feature càng chính xác bởi vì câu lúc này chỉ có 2 dạng đánh giá là positive và negative, số lượng câu có cả 2 sẽ ít đi và độ chính xác về feature được tăng cao.

5.2.3 Kết quả thực nghiệm đánh giá ở mức văn bản theo từng Features


Kết quả của chúng tôi theo Feature là khá đặc biệt và hầu như không có hệ thống nào ra kết quả tương tự cho nên ở phần này chúng tôi đưa ra một phương pháp đánh giá sơ bộ cho hệ thống của chúng tôi. Đây chỉ là đánh giá theo hướng cá nhân của chúng tôi và chúng tôi thấy phương pháp là hợp lý và chấp nhận được cho hệ thống.

Chúng tôi đánh giá một sản phẩm và hệ thống đưa các kết quả đo cho từng feature của sản phẩm đó. Ở đây tôi kiểm tra 5 features: vanhanh, cauhinh, manhinh, gia, và kieudang. Kết quả đo của hệ thống có dạng a/b với a là độ đo positive, b là độ đo negative; đơn vị đo là số câu đơn giản. Ví dụ 15/10 có nghĩa 15 câu đơn nói feature này positive và 10 câu đơn nói feature này negative.

Để được các độ đo chuẩn chúng tôi kiểm tra thủ công trên văn bản gốc và đưa ra những kết quả theo số đo đã được định nghĩa. Ở đây chúng tôi quy đổi ra theo đơn vị đo độ quan điểm tích cực theo thang đo từ 0.0 -> 1.0 nghĩa là:


  • 0.0 positive nếu Feature đó mang tính hoàn toàn là tiêu cực không có chút tích cực nào.

  • 0.5 positive nếu Feature đó mang một nửa là ý kiến là tích cực và một nửa ý kiến là tiêu cực.

  • 1.0 positive nghĩa là Feature này hoàn toàn được đánh giá tích cực và không có chút tiêu cực nào.

Độ quan điểm tích cực = {số positive} / {số positive + số negative}

Độ lệch quan điểm tích cực = | Độ quan điểm tích cực hệ thống – Độ quan điểm tích cực chuẩn |

Và để đo độ chính xác giữa hệ thống và kết quả chuẩn được đánh giá thủ công, chúng tôi định nghĩa correctness theo công thức:

Kết quả trung bình 1 văn bản sẽ bằng trung bình cộng của tất cả các features được xét đến.

Bảng 5 - Kết quả đánh giá Acer Aspire 3935 trên tập huấn luyện



Loại


Độ quan điểm tích cực của Feature đánh giá bởi hệ thống (số positive / số negative)

Độ quan điểm tích cực của Feature đánh giá chuẩn (%) (số positive / số negative)

Correctness

vanhanh

0.5833 (14/10)

0.4 (12/18)

81.67 %

cauhinh

0.6 (9/6)

0.6364 (14/8)

96.36 %

manhinh

0.8889 (8/1)

0.8333 (10/2)

94.44 %

gia

0.8333 (1/5)

0.75 (2/6)

91.67 %

kieudang

1.0 (12/0)

1.0 (19/0)

100 %

Average







92.83 %


Bảng 6 - Kết quả đánh giá Apple Macbook Air MB543ZPA trên tập huấn luyện

Loại


Độ quan điểm tích cực của Feature đánh giá bởi hệ thống (số positive / số negative)

Độ quan điểm tích cực của Feature đánh giá chuẩn (%) (số positive / số negative)

Correctness

vanhanh

0.8 (8/2)

0.6875 (11/5)

88.75 %

cauhinh

0.9411 (16/1)

0.8333 (15/3)

89.22 %

manhinh

1.0 (1/0)

0.5 (0/0)

50 %

Gia

0.0 (0/11)

0.0667 (1/14)

93.33 %

kieudang

1.0 (15/0)

1.0 (18/0)

100 %

Average







84.26 %


Bảng 7 - Kết quả đánh giá Acer Aspire AS4736 trên tập huấn luyện

Loại


Độ quan điểm tích cực của Feature đánh giá bởi hệ thống (số positive / số negative)

Độ quan điểm tích cực của Feature đánh giá chuẩn (%) (số positive / số negative)

Correctness

vanhanh

0.6061 (20/13)

0.7059 (24/10)

90.02 %

cauhinh

0.5357 (15/13)

0.5313 (17/15)

99.56 %

manhinh

0.9 (9/1)

0.9231 (12/1)

97.69 %

Gia

0.3636 (4/7)

0.375 (6/10)

98.86 %

kieudang

0.8636 (19/3)

0.8077 (25/5)

94.41 %

Average







96.11 %

Sau khi đánh giá 3 sản phẩm ở tập huấn luyện chúng tôi rút ra kết quả độ chính xác trung bình cho hệ thống:

Bảng 8 - Kết quả đánh giá Feature trên tập huấn luyện



Sản phẩm

Correctness

Acer Aspire 3935

92.83%

Apple Macbook Air MB543ZPA

84.26%

Acer Aspire AS4736

96.11%

All

91.07%


Bảng 9 - Kết quả đánh giá Dell Inspiron 1210 trên tập kiểm tra

Loại


Độ quan điểm tích cực của Feature đánh giá bởi hệ thống (số positive / số negative)

Độ quan điểm tích cực của Feature đánh giá chuẩn (%) (số positive / số negative)

Correctness

vanhanh

1.0 (5/0)

0.875 (7/1)

87.5 %

cauhinh

0.8333 (5/1)

0.625 (5/3)

79.17 %

manhinh

0.6667 (2/1)

1.0 (6/0)

66.67 %

gia

1.0 (3/0)

1.0 (3/0)

100.00 %

kieudang

1.0 (11/0)

88.24 (15/2)

88.24 %

Average







84.32 %


Bảng 10 - Kết quả đánh giá Compaq Presario CQ40 trên tập kiểm tra

Loại


Độ quan điểm tích cực của Feature đánh giá bởi hệ thống (số positive / số negative)

Độ quan điểm tích cực của Feature đánh giá chuẩn (%) (số positive / số negative)

Correctness

vanhanh

0.8 (12/3)

0.75 (15/5)

95.00 %

cauhinh

0.875 (14/2)

0.7826 (18/5)

90.76 %

manhinh

1.0 (10/0)

0.75 (12/4)

75.00 %

gia

0.8333 (10/2)

0.9412 (16/1)

89.21 %

kieudang

1.0 (12/0)

1.0 (16/0)

100.00 %

Average







89.99 %



Bảng 11 - Kết quả đánh giá HP Pavilion dv3 trên tập kiểm tra



Loại


Độ quan điểm tích cực của Feature đánh giá bởi hệ thống (số positive / số negative)

Độ quan điểm tích cực của Feature đánh giá chuẩn (%) (số positive / số negative)

Correctness

vanhanh

0.8182 (18/4)

0.7 (21/9)

88.18 %

cauhinh

0.9 (18/2)

0.7143 (20/8)

81.43 %

manhinh

1.0 (4/0)

1.0 (8/0)

100.00 %

gia

0.0833 (2/22)

0.125 (4/28)

95.83 %

kieudang

0.8824 (15/2)

0.8333 (20/4)

95.09 %

Average







92.11 %

Sau khi đánh giá 3 sản phẩm ở tập huấn luyện chúng tôi rút ra kết quả độ chính xác trung bình cho hệ thống:

Bảng 12 - Kết quả đánh giá Feature trên tập kiểm tra

Sản phẩm

Correctness

Dell Inspiron 1210

84.32 %

Compaq Presario CQ40

89.99%

HP Pavilion dv3

92.11%

All

88.81%

Theo mức toàn bộ văn bản theo từng Features chúng tôi đạt được kết quả là 88.81% theo phương pháp đánh giá của chúng tôi. Đây là cách đánh giá theo phương pháp của chúng tôi mà chúng tôi thấy hợp lý với hệ thống của mình. Trong tương lai chúng tôi hy vọng sẽ có phương pháp khác đánh giá chuẩn xác hơn.


5.2.4 Kết luận chung về kết quả đánh giá


Sau khi thử nghiệm chúng tôi cũng nhận thấy kết quả của chúng tôi hiện tại cũng là rất khả quan theo mức từ (khoảng 77%), theo mức Feature (89%) còn theo mức câu thì hệ thống có độ chính xác không cao lắm (63%) chủ yếu do lỗi tách câu khá lớn. Tuy so với những hệ thống trên thế giới thì kết quả hệ thống của chúng tôi là không cao tuy nhiên hệ thống của chúng tôi được xây dựng cho tiếng Việt điều mà chưa có hệ thống nào làm được. Và hệ thống này cũng là mở đầu cho hướng giải quyết các bài toán dạng này. Tiếp theo từ những kết quả đánh giá chúng tôi sẽ đi sâu hơn về những lỗi sai của hệ thống.


tải về 0.69 Mb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6   7   8   9   10




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương