LỜi cam đoan


Phương pháp đánh giá khách quan



tải về 280.46 Kb.
trang6/10
Chuyển đổi dữ liệu27.09.2016
Kích280.46 Kb.
#32462
1   2   3   4   5   6   7   8   9   10

1.13Phương pháp đánh giá khách quan


Đánh giá chất lượng khách quan là phương pháp đánh giá chất lượng dựa trên các phép đo thuộc tính của tín hiệu

1.13.1Đo tỷ số tín hiệu trên nhiễu trên từng khung


Đo SNR trên từng khung trong miền thời gian là một trong những phương pháp đánh giá về mặt toán đơn giản nhất. Để phương pháp này có hiệu quả thì điều quan trọng là tín hiệu gốc và tín hiệu đã qua xử lý phải trong cùng miền thời gian và độ lệch pha hiện tại phải được hiệu chỉnh chính xác. SNRseg được xác định như sau

 [12] (2.1)

Trong đó : tín hiệu gốc (tín hiệu sạch)

: tín hiệu đã được tăng cường

N: chiều dài khung (thường được chọn từ 15-20ms)

M: số khung của tín hiệu

Một vấn đề tiềm ẩn với phương pháp đánh giá SNRseg là năng lượng của tín hiệu trong suốt khoảng lặng của tín hiệu thoại (xuất hiện nhiều trong các đoạn hội thoại) sẽ rất bé, dẫn đến kết quả là giá trị của ai số SNRseg lớn làm sai lệch toàn bộ đánh giá. Phương án giải quyết duy nhất là loại trừ những khung lặng trong biểu thức trên bằng cách đo mức năng lượng trong thời gian ngắn nén giá trị SNRseg ngưỡng đến một giá trị bé. Nếu giá trị SNRseg được giới hạn trong khoảng [-10dB, 35dB] [14] sẽ tránh được việc cần phải dùng bộ tách tín hiệu thoại và khoảng lặng

Sự xác định trước của SNRseg dựa trên tín hiệu vào gốc và tín hiệu đã được xử lý. Ta có thể dùng tín hiệu được xử lý qua bộ lọc dự đoán thường được sử dụng trong thuật toán CELP [15]. Sau khi đưa tín hiệu gốc và tín hiệu đã qua xử lý qua các bộ lọc này, ta có thể tính toán SNRseg dựa trên tín hiệu ra của các bộ lọc[16]. Sự ước tính SNR này mang lại hệ số tương quan cao đối với các phương pháp đánh giá chủ quan

Một cách xác định SNRseg khác được đề xuất bởi Richards [17] trong đó hàm log có thay đổi so với công thức 3.1



 (2.2)

Như vậy có thể tránh được các giá trị sai lệch lớn trong suốt các khoảng lặng của tín hiệu tiếng nói. Chú ý rằng giá trị nhỏ nhất có thể đạt được của SNRsegR bây giờ là 0 thì đã tốt hơn nhiều so với những giá trị âm vô cùng. Ưu điểm chính của việc xác định trước phân đoạn SNR là tránh được việc cần thiết phải làm rõ ràng giữa các khoảng tiếng nói và khoảng lặng

Đo SNR cho từng khung có thể được mở rộng trong miền tần số theo

 (2.3)

Trong đó Bj : Trọng lượng tại dải tần số thứ j

K : Số dải tần

M : Tổng số khung tín hiệu

F(m,j) : Dãy tín hiệu gốc qua bọ lọc đã được khuếch đại tại dải

lần thứ j và khung thứ m



 : Dãy tín hiệu đã được tăng cường qua lọc khuếch đại ở cùng một dải tần với F(m,j)

Ưu điểm chính của việc sử dụng SNRseg trên miền tần số thay vì miền thời gian tăng thêm tính linh động của việc phân bố trọng số của phổ khác nhau cho những dải tần khác nhau

Một cách khác, trọng số của mỗi dải có thể thu được bằng cách dùng phương pháp phân tích hồi quy, còn gọi là phương pháp đánh giá chủ quan biến đổi tần số. Bằng cách này , trọng số có thể được chọn để có hệ số tương quan lớn nhất giữa đánh giá khách quan và đánh giá chủ quan. Với phương pháp này, tổng của K (cho mỗi dải) của các phương pháp đánh giá khách quan khác nhau và Dj được ước tính cho mỗi dãy, tại Dj được cho như sau[12]

 (2.4)

Trọng lượng tối ưu cho mỗi Dj của mỗi dải đạt được khi dùng phương pháp phân tích hồi quy tuyến tính bậc K, cho ra đánh giá chủ quan biến đổi tần số:



 (2.5)

 : Các hệ số hồi quy, Dj : được cho bởi (3.4), K là số dải .Phân tích hồi quy không tuyến tính cũng có thể được sử dụng như một cách để chuyển hóa đánh giá khách quan biến đổi tần số

1.13.2Đo khoảng cách phổ dựa trên LPC


LPC (Linear Prediction Coefficient)s :Hệ số dự đoán tuyến tính

Gồm các phương pháp phổ biến là LLR (Log Likelihood Ratio) , IS (Itakura Saito) và đo theo khoảng cách cepstrum


1.13.2.1Phương pháp đo LLR


 (2.6)

 :hệ số LPC của tín hiệu sạch

 :hệ số của tín hiệu đã được tăng cường chất lượng

Rx là (p+1)*(p+1)ma trận tự tương quan(Toeplitz) của tín hiệu sạch

Biểu thức trên được viết lại trong miền tần số như sau[9]



 [17] (2.7)

 và  lần lượt là phổ của  và  . Biểu thức trên chỉ ra sự khác nhau giữa phổ tín hiệu và phổ tăng cường có ảnh hưởng nhiều hơn khi  lớn, thường gần với đỉnh tần số formant. Do đó, cách đo này xác định sự khác nhau vị trí của đỉnh tần số formant

1.13.2.2Phương pháp đo IS


Đo IS được xác định như sau

 [12] (2.8)

 và  lần lượt là hệ số khuếch đại của tín hiệu sạch và tín hiệu tăng cường. Hệ số khuếch đại  có thể được tính như sau:

 (2.9)

 chứa hệ số tự tương quan của tín hiệu sạch (nó cũng là hàng đầu tiên của ma trận tự tương quan )


1.13.2.3Phương pháp đo theo khoảng cách cepstrum


Không giống với đo LLR, IS chú trọng sự khác nhau giữa hệ số khuếch đại , sự khác nhau về mức phổ của tín hiệu sạch và tín hiệu tăng cường. Bên cạnh đó cũng có thể là hạn chế của đánh giá IS, sự khác nhau giữa các mức phổ có tác động nhỏ đến chất lượng[18]

Hệ số LPC cũng có thể xuất phát từ khoảng cách đo được dựa trên hệ số cepstrum. Khoảng cách này quy định sự ước lượng khoảng cách log của phổ của giữa hai phổ tín hiệu. Hệ số cepstrum có thể thu được từ phép đệ quy hệ số LPC {aj} sử dụng công thức sau



 (2.10)

Với p là bậc của phân tích LPC .Phép đo dựa trên hệ số cepstrum có thể được tính như sau [19]



 (2.11)

Với  lần lượt là hệ số của tín hiệu sạch và tín hiệu đã được tăng cường


1.13.3Đánh giá mô phỏng theo cảm nhận nghe của con người


Những phương pháp đánh giá đã được đề cập trên được ưa dùng vì tính đơn giản để thực hiện và dễ dàng đánh giá. Tuy nhiên, khả năng dự đoán chất lượng chủ quan của chúng thì hạn chế khi mà các phương pháp xử lý tín hiệu đó không tính đến phạm vi nghe của con người.

1.13.3.1Phương pháp đo Weighted Spectral Slope


Phương pháp đánh giá này được tính bởi dốc phổ đầu tiên được tìm thấy của mỗi dải phổ. Xét Cx(k) là phổ dải tới hạn của tín hiệu sạch và  là của tín hiệu tăng cường, xét trong đơn vị dB. Phương trình sai phân bậc nhất được dùng để tính độc dốc phổ được cho như sau:



 (2.12)

Với  lần lượt biểu diễn cho độ dốc dải tần thứ k của tín hiệu sạch và tín hiệu tăng cường. Sự khác nhau giữa các độ dốc phổ phụ thuộc vào trọng số một là dải tần gần với đỉnh hoặc rãnh, hai là đỉnh là đỉnh lớn nhất của phổ. Trọng số của dải thứ k, ký hiệu W(k) được tính như sau




[12] (2.13)

 độ rộng loga lớn nhất của phổ trong tất cả các băng,  là giá trị của đỉnh gần với băng k nhất, và  ,  là hằng số có được bằng phép phân tích hồi quy để cực đại hóa sự tương quan giữa đánh giá chủ quan và giá trị của đánh giá khách quan. Với những thí nghiệm đã được thực hiện thì người ta tìm được sự tương quan lớn nhất sẽ có được với =20 và =1[18]

Phép đo WSS tính cho mỗi khung của tín hiệu thoại:



 (2.14)

Với L là số lượng dải tới hạn

Giá trị WSS được tính bằng cách lấy trung bình các giá trị WSS thu được từ các khung trong câu

WSS là phương pháp đánh giá khá hấp dẫn bởi vì nó không đòi hỏi phải có formant rõ ràng. Nó chú ý tới vị trí đỉnh phổ và ít nhạy cảm với các đỉnh xung quanh cũng như các chi tiết của phổ ở các vùng thấp. Đánh giá LPC cơ bản (ví dụ như đánh giá LLR) nhạy với các tần số formant khác, nhưng cũng nhạy với sự thay đổi biên độ và sự thay đổi độ nghiêng phổ. Không có gì là bất ngờ khi đánh giá WSS mang lại một sự tương quan lớn (ρ=0.74) hơn đánh giá LPC, với sự đánh giá chất lượng chủ quan của tiếng nói bị giảm chất lượng bởi sự mã hóa[20]


1.13.3.2Phương pháp đo Bark Distortion


Phương pháp đánh giá WSS là bước đầu làm mẫu cho việc làm thế nào để con người nhận biết được tiếng nói, đặc biệt là nguyên âm. Các phương pháp đánh giá sau này càng dựa vào sự xử lý âm thanh của tai người, cách mà thính giác con người xử lý âm thanh và nhiễu. Những phương pháp đánh giá mới này đã dựa trên những lập luận sau:

  1. Sự phân tích tần số của tai người là không thay đổi, tức là sự phân tích tần số của tín hiệu âm thanh không dựa trên phạm vi tần số tuyến tính

  2. Độ nhạy của tai người phụ thuộc vào tần số âm thanh

  3. Âm thanh to tương ứng với độ mạnh của tín hiệu trong miền phi tuyến tính

Thính giác con người phỏng theo một loạt biến đổi của tín hiệu âm thanh. Cả tín hiệu gốc và tín hiệu đã qua xử lý phải trải qua hàng loạt các biến đổi này, dẫn đến cái gọi là phổ âm lượng. Đánh giá BSD sử dụng khoảng cách giữa các phổ này như là đánh giá chất lượng chủ quan

1.13.3.3Phương pháp đánh giá cảm nhận chất lượng thoại PESQ


Trong các phương pháp đánh giá OE thì PESQ là phương pháp đánh giá phức tạp nhất và được khuyến nghị bởi ITU_T cho đánh giá chất lượng thoại băng hẹp (3,2KHz) và là một phương pháp đánh giá khách quan có tính tương quan cao với đánh giá theo cảm nhận của người nghe

Каталог: nonghocbucket -> UploadDocument server07 id50526 114188
UploadDocument server07 id50526 114188 -> Trường Đại Học Mỏ Địa Chất Khoa Dầu Khí Lời mở đầu
UploadDocument server07 id50526 114188 -> MỤc lục mở ĐẦU 10 Xuất xứ của dự án 10
UploadDocument server07 id50526 114188 -> Thiết kế MÔn học nhà MÁY ĐIỆn lời nóI ĐẦU
UploadDocument server07 id50526 114188 -> ĐỀ TÀi ngân hàng trung ưƠng trưỜng trung cấp kt-cn đÔng nam
UploadDocument server07 id50526 114188 -> Seminar staphylococcus aureus và những đIỀu cần biếT
UploadDocument server07 id50526 114188 -> Bài thảo luận Đánh giá chất lượng sản phẩm dầu thực vật Môn Phân Tích Thực Phẩm Nhóm 2 : Hoàng – Hùng Hiếu Hồng
UploadDocument server07 id50526 114188 -> Luận văn tốt nghiệp gvhd: pgs. Ts nguyền Ngọc Huyền MỤc lục danh mục các chữ viết tắT
UploadDocument server07 id50526 114188 -> Aïi Hoïc Quoác Gia Tp
UploadDocument server07 id50526 114188 -> Mục lục Tổng quan về thịt
UploadDocument server07 id50526 114188 -> Gvhd: Nguyễn Minh Hùng Đề tài: Tìm Hiểu & Nghiên Cứu cpu

tải về 280.46 Kb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6   7   8   9   10




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương