LỜi cam đoan


Các thuật toán sử dụng nâng cao chất lượng tiếng nói



tải về 280.46 Kb.
trang5/10
Chuyển đổi dữ liệu27.09.2016
Kích280.46 Kb.
#32462
1   2   3   4   5   6   7   8   9   10

1.7Các thuật toán sử dụng nâng cao chất lượng tiếng nói

1.7.1Trừ phổ


Spectral-subtraction (SS) hay còn gọi là trừ phổ là một thuật toán giảm nhiễu đơn giản nhất. Nó dựa trên nguyên lý cơ bản là nó sẽ mô tả và cập nhật nhiễu trong tín hiệu có nhiễu bằng cách thu nhiễu khi không có sự hiện diện của tín hiệu. Và nhiễu đó sẽ được trừ với tín hiệu có nhiễu, kết quả là tín hiệu của chúng ta sau khi xử lý bằng thuật toán này sẽ được loại đi nhiễu và xét trên phương diện lý tưởng thì nó là tín hiệu sạch. SS lúc ban đầu được đề xuất bởi Weiss[8] trong miền tương quan, và sau đó được đề xuất bởi Boll [9] trong miền chuyển đổi Fourier.

1.7.2Mô hình thống kê


Vấn đề của nâng cao chất lượng tiếng nói là phải đề ra được khung mô tả mang tính thống kê. Nó là một tập các phép đo tương ứng với hệ chuyển đổi Fourier của tín hiệu nhiễu, và chúng ta mong muốn sẽ tìm ra được một phương thức ước lượng tuyến tính hoặc phi tuyến các tham số có lợi, đó là hệ chuyển đổi của tín hiệu sạch. Hai thuật toán được sử dụng đó là thuật toán Wiener và minium mean-squared error(MMSE)[10].

1.8Tín hiệu tiếng nói


Tín hiệu tiếng nói là tín hiệu liên tục và có phổ năng lượng thay đổi theo thời gian. Tuy nhiên khi khảo sát trong một khoảng thời gian đủ ngắn (khoảng 10 đến 30 ms) thì đặc tính phổ của nó coi như không thay đổi.

Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her” [11].

Dạng sóng của tín hiệu có thể được chia thành một số phân đoạn tương ứng với các âm/từ. Trong ví dụ trên ta thấy một số phân đoạn có dạng sóng gần như tuần hoàn còn số khác thì không có tính tuần hoàn và bị nhiễu

Những kiểu của đoạn tiếng nói_chu kỳ, nhiễu, khoảng lặng… thường được tìm thấy trong tiếng nói trôi chảy với sự thay đổi về cường độ, khoảng thời gian và đặc tính phổ.


1.9Cơ chế tạo tiếng nói

1.9.1.1Bộ máy phát âm của con người


Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11].


1.9.2Mô hình kỹ thuật của việc tạo tiếng nói


Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11].


1.9.3Phân loại âm


Các âm trong tiếng Anh được phân loại gồm: nguyên âm và nguyên âm đôi, bán nguyên âm, âm mũi, âm stops, fricative, africatives, whisper.

Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11]


1.9.4Thuộc tính âm học của tiếng nói


Tín hiệu tiếng nói là tín hiệu tương tự, biểu diễn cho thông tin về mặt ngôn ngữ và được thể hiện bằng các âm vị khác nhau. Số lượng các âm vị tuỳ thuộc vào từng ngôn ngữ, vào khoảng 20 đến 30 và không vượt quá 50. Đối với từng loại âm vị nó có đặc tính âm thanh khác nhau.Tổ hợp các âm vị tạo nên âm tiết. Âm tiết đóng vai trò một từ trọn vẹn mang ngữ nghĩa.

1.10Kết luận chương


Chương này đã trình bày được mục đích chính của speech enhancement là triệt nhiễu hoặc là nén nhiễu trong tín hiệu tiếng nói đã bị nhiễu. Ngoài ra, nội dung của chương cũng đã nêu rõ được các loại nhiễu xuất hiện trong từng môi trường cụ thể để từ đó chúng ta có tìm ra được thuật toán xử lý thích hợp ứng với mỗi trường hợp cụ thể.

CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI



1.11Giới thiệu chương


Cho đến nay đã có rất nhiều thuật toán nâng cao chất lượng tiếng nói, nhưng làm thế nào để đánh giá đúng hiệu quả của chúng. Phần này cung cấp các phương pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của thuật toán nâng cao tiếng nói

Đánh giá chất lượng có thể thực hiện bằng cách sử dụng phương pháp đánh giá theo cảm nhận của người nghe theo một thang đo đã được xác định trước (Subjective Evaluation_ SE) hoặc dựa trên phép đo các thuộc tính của tín hiệu (Objective Evaluation_ OE). Dù OE có giá trị thì nó vẫn phải tương quan với cảm nhận của người nghe

Phần này sẽ cung cấp một cái nhìn tổng quan về các phương pháp đánh giá chất lượng của tiếng nói đã được xử lý

1.12Phương pháp đánh giá chủ quan


Đánh giá chất lượng chủ quan là đánh giá chất lượng dựa trên cảm nhận nghe của con người đối với tiếng nói

Chất lượng là một trong các thuộc tính của tín hiệu tiếng nói. Về bản chất thì chất lượng có tính chủ quan cao và khó có thể đánh giá một cách đáng tin cậy.Nó chỉ đóng vai trò phần nào trong kỹ thuật đánh giá vì mỗi cá nhân người nghe có những tiêu chuẩn riêng về chất lượng “tốt” hay “xấu”, chất lượng là kết quả của sự cảm nhận và phán đoán chủ quan của người nghe, dẫn đến sự chênh lệch lớn trong kết quả đánh giá. Chất lượng có rất nhiều chỉ tiêu không thể đếm hết được. Tùy vào các mục đích thực tế và tùy vào mỗi ứng dụng mà chỉ tập trung vào một số chỉ tiêu chất lượng tiếng nói.

Đánh giá chất lượng tiếng nói là một công việc đầy khó khăn do tính đa chỉ tiêu và tính chủ quan cao. Có một số lượng lớn các đặc trưng để đánh giá khi thực hiện phương pháp nghe chủ quan này. Để kết quả đánh giá là đáng tin cậy thì sự lựa chọn đúng đắn các tham số cho việc đánh giá là điều cần thiết. Dựa trên thực tế đó ITU-T đã đưa ra các khuyến nghị ban hành trong các chuẩn từ ITU-T Rec P.800 đến ITU-T Rec P.899. Có hai loại đánh giá chính là Tuyệt đối và Tương đối. Sự đánh giá dựa trên các thang điểm chuẩn đã được đề ra trong chuẩn ITU-T Rec.P.800[11]

1.12.1Các phương pháp đánh giá tuyệt đối

1.12.1.1Phương pháp đánh giá tuyệt đối ACR


ACR được sử dụng rộng rãi. ITU-T[11] đã khuyến nghị dùng phương pháp này trong hầu hết các ứng dụng. Thang đo được khuyến là

Được mô tả trong khuyến nghị P.800 của ITU-T, MOS là một phép đo chất lượng thoại nổi tiếng. Đây là một phương pháp đo chất lượng mang tính chất chủ quan. Có hai phương pháp kiểm tra là đánh giá đàm thoại và đánh giá độ nghe.

Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12]



Score

Quality of the Speech

Level of Distortion

5

Excellent

Imperceptible

4

Good

Just perceptible, but not annoying

3

Fair

Perceptible and slight annoying

2

Poor

Annoying but not Objectinable

1

Bad

Very annoying and Objectionable



1.12.2Các phương pháp đánh giá tương đối


Nhìn chung phương pháp đánh giá này có độ nhạy cao hơn đối với sự suy giảm chất lượng của tín hiệu đã qua xử lý

1.12.2.1Đánh giá bằng phương pháp so sánh các mẫu tín hiệu


Dạng đơn giản nhất của phương pháp này là thích nghe mẫu nào hơn Preference test hay còn gọi là so sánh đánh giá theo từng cặp tín hiệu Paired Comparison Test. Đối với phương pháp này thì người nghe sẽ được nghe hai mẫu thoại và sẽ đánh giá thích mẫu tín hiệu nào hơn

Đánh giá bằng cách so sánh Comparison Category Rating (CCR) được khuyến nghị bởi ITU-T để đánh giá các hệ thống dùng nâng cao chất lượng tiếng nói. [13]

Bảng 2.4. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR


Rating

Quality of Speech

3

Much better

2

Better

1

Slightly Better

0

About the Same

-1

Slightly Worse

-2

Worse

-3

Much Worse



Theshold Test hay còn gọi là Isopreference Test là một biến thể của Preference Test. Phương pháp này là so sánh tín hiệu đã qua xử lý với tín hiệu gốc chuẩn mà độ suy giảm chất lượng của nó có thể được kiểm soát. Được đề ra trong chuẩn ITU-T Rec.P.810

1.12.2.2Phương pháp đánh giá theo sự suy giảm chất lượng


Đánh giá sự suy giảm chất lượng Degradation Category Rating (DCR) Sự giảm sút về chất lượng của tín hiệu đã qua xử lý so với tín hiệu chất lượng cao chưa qua xử lý được xác định qua năm thang điểm

Bảng 2.5. Thang đánh giá DCR



Rating

Degradation

1

Very annoying

2

Annoying

3

Sightly annoying

4

Audible but not annoying

5

Inaudible




Каталог: nonghocbucket -> UploadDocument server07 id50526 114188
UploadDocument server07 id50526 114188 -> Trường Đại Học Mỏ Địa Chất Khoa Dầu Khí Lời mở đầu
UploadDocument server07 id50526 114188 -> MỤc lục mở ĐẦU 10 Xuất xứ của dự án 10
UploadDocument server07 id50526 114188 -> Thiết kế MÔn học nhà MÁY ĐIỆn lời nóI ĐẦU
UploadDocument server07 id50526 114188 -> ĐỀ TÀi ngân hàng trung ưƠng trưỜng trung cấp kt-cn đÔng nam
UploadDocument server07 id50526 114188 -> Seminar staphylococcus aureus và những đIỀu cần biếT
UploadDocument server07 id50526 114188 -> Bài thảo luận Đánh giá chất lượng sản phẩm dầu thực vật Môn Phân Tích Thực Phẩm Nhóm 2 : Hoàng – Hùng Hiếu Hồng
UploadDocument server07 id50526 114188 -> Luận văn tốt nghiệp gvhd: pgs. Ts nguyền Ngọc Huyền MỤc lục danh mục các chữ viết tắT
UploadDocument server07 id50526 114188 -> Aïi Hoïc Quoác Gia Tp
UploadDocument server07 id50526 114188 -> Mục lục Tổng quan về thịt
UploadDocument server07 id50526 114188 -> Gvhd: Nguyễn Minh Hùng Đề tài: Tìm Hiểu & Nghiên Cứu cpu

tải về 280.46 Kb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6   7   8   9   10




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương