TÀi liệu tiêu chuẩN, TÀi liệu kỹ thuật mã HÓa cáC ĐỐi tưỢng hình ảnh âm thanh – TƯƠng tác giữA Âm thanh và CÁc hệ thốNG



tải về 0.67 Mb.
trang2/4
Chuyển đổi dữ liệu16.10.2017
Kích0.67 Mb.
1   2   3   4

Nội dung tiêu chuẩn kỹ thuật


  1. Phạm vi áp dụng

  2. Tài liệu viện dẫn

  3. Thuật ngữ, định nghĩa, danh mục các từ viết tắt

  4. Xử lý nhãn hiệu thời gian vị trí âm thanh.

  5. Hoạt động của bộ mã hóa/giải mã AAC

  6. Các vấn đề luồng dữ liệu

  7. Phụ lục A - Cú pháp định dạng tệp tin đa phương tiện dựa trên ISO



  1. Bảng đối chiếu tiêu chuẩn viện dẫn


Tiêu chuẩn Việt Nam TCVN-xxx:2016/BTTTT

Tiêu chuẩn viện dẫn


Sửa đổi, bổ sung

Ghi chú

1. Phạm vi áp dụng

ISO/IEC 14496-24: 2008-1. Scope

Chấp thuận nguyên vẹn




2. Tài liệu viện dẫn




Bổ sung

Theo quy định tài liệu TCVN

3. Thuật ngữ, định nghĩa, danh mục các từ viết tắt




Bổ sung

Theo quy định tài liệu TCVN

4. Xử lý nhãn hiệu thời gian vị trí âm thanh

ISO/IEC 14496-24: 2008– 2. Motivating audio composition time stamp handling

Chấp thuận nguyên vẹn




5. Hoạt động bộ mã hóa/ giải mã AAC

ISO/IEC 14496-24: 2008–3. AAC Encoder/Decoder Behavior

Chấp thuận nguyên vẹn




6. Các vấn đề luồng dữ liệu

ISO/IEC 14496-24: 2008– 4. Streaming Consideration

Chấp thuận nguyên vẹn




7. Phụ lục A: Cú pháp định dạng tệp đa phương tiện dựa trên ISO

ISO/IEC 14496-24: 2008–5.Annex A: Relevant ISO Base Media File Format Syntax

Chấp thuận nguyên vẹn




Bảng 5‑1. Đối chiếu chuẩn viện dẫn

  1. Kết luận


Hiện nay các thiết bị giải trí và truyền thông ngày càng ứng dụng chuẩn nén/giải nén MPEG-4 bởi tính năng nén chất lượng cao các dữ liệu âm thanh và hình ảnh. Để góp phần cho các hoạt động nghiên cứu, chế tạo và phát triển sản phẩm cần phải có các tài liệu kỹ thuật nhằm cung cấp các kiến thức sâu về phương thức hoạt động của các chuẩn này, đặc biệt là những hoạt động tương tác của âm thanh bên trong các hệ thống mã hóa/ giải mã. Chính vì vậy việc xây dựng dự thảo tiêu chuẩn liên quan đến tương tác dữ liệu âm thanh trong các hệ thống MPEG-4 là hoạt động cần thiết nhằm tạo ra hệ thống các tiêu chuẩn liên quan đến mã hóa / giải mã các đối tượng âm thanh hình ảnh, áp dụng tại Việt nam.

Khuyến nghị nên đổi tên tiêu chuẩn cho rõ nghĩa hơn:



  • Tên cũ “Công nghệ thông tin – mã hóa các đối tượng hình ảnh âm thanh - tương tác giữa âm thanh với các hệ thống”

  • Tên mới “Tương tác giữa âm thanh và các hệ thống MPEG-4”


Phụ lục

Các định dạng âm thanh


  1. Định dạng âm thanh số

Định dạng âm thanh số ban đầu có dạng dữ liệu thô và phổ biến là định dạng Wave có phần đuôi mở rộng là WAV (*.wav). Wave sử dụng kỹ thuật điều chế xung mã –PCM (Pulse Code Modulation) để chuyển đổi và lưu trữ dữ liệu. Cơ bản phương pháp PCM được thực hiện qua 3 bước là lấy mẫu, lượng tử và mã hóa như hình vẽ.



Hình 1: Lấy mẫu, lượng tử và mã hóa

Lấy mẫu là rời rạc hoá tín hiệu tương tự về mặt thời gian theo một quy luật nhất định. Về ý nghĩa vật lý thì lấy mẫu là lấy ra những giá trị tức thời của tín hiệu tương tự vào những thời điểm cách đều nhau. Tín hiệu sau khi lấy mẫu là một dãy xung có biên độ được điều chế theo tín hiệu gốc, dãy xung đó gọi là dãy xung PAM (Pulse Amplitude Modulation).

Lượng tử hoá nghĩa là chia biên độ của tín hiệu thành các khoảng đều hoặc không đều, mỗi khoảng là một bước lượng tử, biên độ tín hiệu ứng với đầu hoặc cuối mỗi bước lượng tử gọi là một mức lượng tử. Sau khi có các mức lượng tử thì biên độ của các xung mẫu được làm tròn đến mức gần nhất. Thực chất lượng tử hóa là quá trình làm tròn giá trị biên độ xung PAM.

Quá trình mã hoá tín hiệu trong kỹ thuật PCM thực hiện việc chuyển đổi các mẫu tín hiệu đã lượng tử hoá thành các mã nhị phân 8 bit. Khuôn dạng của một từ mã PCM như sau: X = P ABC DEGH ; X thể hiện từ mã, P là bít dấu, ABC là bit chỉ thị phân đoạn, DEGH là bit chỉ thị các mức lưu lượng trong đoạn. Trong thực tế, quá trình lượng tử và mã hóa được thực hiện đồng thời trong một chip vi xử lý theo luật A hoặc luật µ.

Tuy nhiên, định dạng WAVE có nhược điểm là không gian lưu trữ thường rất lớn, dung lượng của tín hiệu thường tỷ lệ với chất lượng tín hiệu. Tín hiệu chất lượng càng cao (tần số lấy mẫu lớn, bít mã hóa cao) thì dung lượng sẽ càng cao.

Ví dụ định dạng phổ biến ghi trên đĩa CD thường là 2 kênh, tần số lấy mẫu là 44100 mẫu/giây và được mã hóa bằng 16 bít. Vậy dung lượng của một đĩa CD khoảng 60 phút sẽ là: 44100 mẫu x 2 kênh x 2 byte (16 bit) x 60 (giây) x (60 phút) = 635Mb.

Với dung lượng như vậy thì không thể truyền đi trên mạng được vì chiếm băng thông, mất nhiều thời gian. Do vậy, người ta mới nghĩ đến việc nén tín hiệu.

Các kỹ thuật nén ban đầu nhằm thu nhỏ kích thước tối đa nhưng vẫn giữ được chất lượng âm thanh ở mức chấp nhận được. Nổi bật nhất của kỹ thuật nén mất dữ liệu này là định dạng MP3 của tổ chức MPEG đưa ra năm 1991.



  1. Chuẩn nén MP3:

Ban đầu MP3 hay còn gọi là MPEG-1 Audio Layer III (MPEG âm thanh lớp 3) do Tổ chức MPEG (Moving Picture Experts Group) thiết kế là một phần của tiêu chuẩn MPEG-1 (tiêu chuẩn nén tổn thất về âm thanh và hình ảnh), sau đó được mở rộng trong tiêu chuẩn MPEG-2. MPEG-1 Audio (MPEG-1 Phần 3), trong đó bao gồm MPEG-1 Audio Lớp I, II và III đã được phê duyệt thành dự thảo tiêu chuẩn của ISO/IEC vào năm 1991, hoàn thành vào năm 1992 và công bố vào năm 1993 (xem tại ISO/IEC 11172-3:1993). Sau đó vào năm 1995, ISO/IEC công bố bản sửa đổi của MP3 bổ sung khả năng tương thích với MPEG-2 Audio (MPEG-2 Phần 3) về tốc độ bít và tỷ lệ mẫu (xem tại ISO/IEC 13818-3:1995, sau đó sửa đổi thành ISO/IEC 13818-3:1998).

Một phần mở rộng bổ sung cho MPEG-2 được gọi là MPEG-2.5 Audio vì MPEG-3 có một ý nghĩa khác. Phần mở rộng này được phát triển bởi tổ chức Fraunhofer Institute for Integrated Circuits (Fraunhofer IIS), nơi đăng ký sở hữu bằng sáng chế MP3. Giống như MPEG-2, MPEG-2.5 bổ sung 50% tỷ lệ lấy mẫu tương thích với MPEG-2 và mở rộng phạm vi của MP3 để ứng dụng giọng nói con người và các ứng dụng khác chỉ yêu cầu 25% của tần số sinh ra của MPEG-1. Mặc dù không được công nhận là tiêu chuẩn ISO nhưng MPEG-2.5 được hỗ trợ rộng rãi của các nhà sản xuất máy nghe nhạc kỹ thuật số có thương hiệu và cả không thương hiệu cũng như các phần mềm máy tính dựa trên bộ mã hóa và giải mã MP3. MPEG-2.5 không được phát triển bởi MPEG và chưa bao giờ được chấp nhận là một tiêu chuẩn quốc tế, do đó MPEG-2.5 là một phần mở rộng không chính thức và độc quyền đối với định dạng MP3.

MPEG-1 Audio Lớp I hoặc II là một bộ mã hóa băng phụ (subband coder) hoạt động ở tốc độ bít trong khoảng 32-448 kb/s và hỗ trợ tần số mẫu tại 32; 44,1 và 48 kHz. Tốc độ bít điển hình cho Lớp II trong khoảng 128-256 kb/s và 384 kb/s cho các ứng dụng yêu cầu tốc độ cao. MPEG-1 Lớp I và II (MP1 hoặc MP2) là bộ mã hóa âm thanh điển hình cho nội dung âm thanh 1 hoặc 2 kênh. Lớp I được thiết kế cho các ứng dụng yêu cầu mã hóa và giải mã có độ phức tạp thấp. Lớp II sẽ cho hiệu quả nén cao hơn với độ phức tạp cao hơn một chút. Sử dụng MPEG-1 Lớp I, có thể nén dữ liệu CD (Compact Disc là định dạng lưu trữ dữ liệu đĩa quang kỹ thuật số, chế tạo bằng chất dẻo, đường kính 4,75 inch hay 120 mm, lưu trữ được khoảng 80 phút âm thanh hoặc khoảng 700 MB dữ liệu) âm thanh với chất lượng cao với tốc độ bít trung bình là 384 kb/s trong khi vẫn bảo đảm chất lượng âm thanh cao sau khi giải mã. Lớp II đòi hỏi tốc độ bít trong khoảng 192 -256 kb/s cho chất lượng gần bằng CD. Một bộ giải mã Lớp II cũng có thể giải mã dữ liệu Lớp I.

MP3 là một bộ giải mã nhận biết âm thanh 1 hoặc 2 kênh cho chất lượng nén tín hiệu âm nhạc (music signal) xuất sắc. So với Lớp 1 và Lớp 2, MP3 cung cấp một hiệu suất nén cao hơn. Thông thường, MP3 có thể nén dữ liệu CD âm thanh chất lượng cao theo hệ số 12 trong khi vẫn có chất lượng âm thanh cao. Nói chung, MP3 là thích hợp cho các ứng dụng liên quan đến lưu trữ hoặc truyền tải âm nhạc mono (Âm thanh mono là âm thanh được thu hoặc phát ra từ một nguồn âm thanh từ một địa điểm cố định) hay stereo (Âm thanh stereo là âm thanh từ nhiều nguồn âm được phân bổ từ phải sang trái hoặc ngược lại) hoặc tín hiệu âm thanh khác. MPEG-1 Lớp 3 đã được chuẩn hóa cho tốc độ lấy mẫu cao hơn 32; 44,1 và 48 kHz trong MPEG-1 vào năm 1992.

Về cấu trúc thì một tập tin âm thanh MPEG được xây dựng từ các phần nhỏ hơn gọi là khung (frame). Nhìn chung các frame là độc lập với nhau. Mỗi frame có một header riêng và thông tin âm thanh riêng. Vì không có header của tập tin nên chúng ta có thể cắt bất kỳ tập tin MPEG và chơi nó chính xác. Tuy nhiên với lớp 3 thì không hoàn toàn chính xác. Vì tổ chức dữ liệu bên trong tập tin MPEG lớp 3 có các frame phụ thuộc lẫn nhau và chúng không thể cắt ra được.

Khi chúng ta muốn đọc thông tin về một tập tin MPEG, nó thường phải tìm frame đầu tiên, đọc tiêu đề (header) của nó và thực hiện các khung khác theo như frame đầu. Nhưng điều này có thể khác. Tập tin MPEG có tốc độ bít thay đổi dùng chuyển mạch tốc độ tức là tốc độ bit thay đổi theo nội dung của mỗi frame. Tốc độ bít thấp có thể dùng trong các frame đề giảm chất lượng và cho phép nén tốt hơn.

Tiêu đề frame gồm 4 byte liên tiếp trong một khung. 11-12 bit đầu là đồng bộ khung (sync frame) gọi là khung đồng bộ. Khi chúng ta đọc toàn bộ header và kiểm tra, nếu các giá trị đúng chúng ta sẽ thấy bảng giải nghĩa chính xác mỗi bít trong header. Mỗi giá trị chỉ rõ được dùng, không dùng, xấu, hoặc không được hiển thị,…

Các khung có thể có kiểm tra CRC. CRC dài 16 bít, nếu nó tồn tại theo header khung. Sau CRC là dữ liệu âm thanh. Chúng ta có thể tính CRC của khung và so sánh nó với giá trị chúng ta đọc từ tập tin.

Như trình bày, một tập tin MP3 được tạo ra từ nhiều khung MP3, mỗi khung bao gồm khối header và khối dữ liệu. Chuỗi các khung này gọi là luồng cơ sở. Các khung không là các thành phần độc lập và thường không thể tách các khung một cách tùy tiện. Các khối dữ liệu MP3 chứa các thông tin âm thanh về biên độ và tần số. Sơ đồ trên cho thấy Header MP3 bao gồm phần đồng bộ từ (sync word) dùng để xác định điểm đầu của một khung. Tiếp theo là một bít hiển thị chuẩn MPEG và 2 bít hiển thị lớp 3, do vậy nó có tên là chuẩn âm thanh MPEG-1 lớp 3 hoặc là MP3. Sau này, giá trị sẽ khác phụ thuộc vào file MP3. Chuẩn ISO/IEC 11172-3 xác định phạm vi giá trị mỗi phần chiều dài của header cho các header đặc biệt. Phần lớn các file MP3 ngày nay chứa thông tin ID3 metadata trước hoặc sau các khung MP3 như hình vẽ 2.

ID3 metadata là một nhãn “tag” trong file âm thanh là một phần của file chứa các thông tin metadata như tiêu đề ,nhạc sỹ, album, số bài hoặc các thông tin khác về file.

Các chuẩn MP3 không định nghĩa các tag cho các file MP3, do vậy không có một định dạng chuẩn hỗ trợ cho metadata và xóa bỏ tính cần thiết của các tag

Tuy nhiên, một vài chuẩn trong thực tế có tồn tại các tag. Như năm 2010, phổ biến là các tag ID3v1 và ID3v2 và gần đây hơn là APEv2. Những nhãn này thường được nhúng trong phần đầu hay cuối của file MP3, phân chia các khung dữ liệu MP3. Các bộ giải mã MP3 thường hoặc là đọc thông tin từ các tag hoặc là bỏ qua. (ID3v1- ID cho MP3 version 1 gồm 128 byte).


Hình 2: Cấu trúc tệp tin âm thanh MP3



1   2   3   4


Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2019
được sử dụng cho việc quản lý

    Quê hương