- 相關(guān)推薦
音頻壓縮的成功者-感知編碼
音頻壓縮的成功者——感知編碼
2004年中南地區(qū)省級(jí)電視臺(tái)技術(shù)年會(huì)論文二等獎(jiǎng)近年來(lái),隨著現(xiàn)代通信的發(fā)展,數(shù)字化日益滲透人們的日常生活,人們對(duì)各種多媒體業(yè)務(wù)的需求日益增長(zhǎng),我們正享受著數(shù)字化帶來(lái)的方便和快捷,衛(wèi)星電視、數(shù)字電視、各種數(shù)碼音樂(lè)產(chǎn)品正改變著我們的生活。于是便要求得到更多更好的音頻產(chǎn)品和服務(wù)。數(shù)字聲音作為一種存儲(chǔ)、處理和傳輸高保真聲音的方法,在消費(fèi)電子、專業(yè)聲音等眾多領(lǐng)域已得到廣泛應(yīng)用。但是如果沒(méi)有通用有效的高質(zhì)量音頻編解碼方案,數(shù)字存儲(chǔ)和傳輸技術(shù)的進(jìn)一步發(fā)展將會(huì)受到嚴(yán)重的束縛。在音頻數(shù)字壓縮技術(shù)中,當(dāng)前比較成功的編碼方式被稱為“感知型編碼( Perceptual Coding )”,現(xiàn)在比較常用的 MP3 、 MD 等都是感知編碼原理。
一般來(lái)說(shuō),數(shù)據(jù)壓縮有兩種方法。一種方法是利用信號(hào)的統(tǒng)計(jì)性質(zhì),完全不丟失信息的高效率編碼法,稱為平均信息量編碼或熵編碼。第二種方法是利用接收信號(hào)的人的感覺(jué)特性,省略不必要的信息,壓縮信息量,這種方法稱為感覺(jué)編碼。
因?yàn)殪鼐幋a可通過(guò)解碼完全再現(xiàn)編碼前的數(shù)據(jù),故應(yīng)用范圍廣泛 ,例如可用于磁盤壓縮、文件壓縮等,在保存信息方面,完全不用擔(dān)心劣化。不過(guò)遺憾的是,僅依靠熵編碼不能將音頻信號(hào)進(jìn)行大幅度的數(shù)據(jù)壓縮。這是因?yàn)樵谝纛l信號(hào)中會(huì)有白噪聲信號(hào),這種完全隨機(jī)的信號(hào),根據(jù)信息論是決不能用熵編碼進(jìn)行壓縮的。因此在音頻壓縮中,必須同時(shí)采用感知編碼 。
感知編碼是利用人耳聽(tīng)覺(jué)的心理聲學(xué)特性(頻譜掩蔽特性和時(shí)間掩蔽特性)、人耳對(duì)信號(hào)幅度、頻率、時(shí)間的有限分辨能力,凡是人耳感覺(jué)不到的成分不編碼,不傳送,即凡是對(duì)人耳辨別聲音信號(hào)的強(qiáng)度、音調(diào)、方位有貢獻(xiàn)的部分(稱為不相關(guān)部分或無(wú)關(guān)部分)都不編碼和傳送。對(duì)感覺(jué)到的部分進(jìn)行編碼時(shí),允許有較大的量化失真、并使其處于聽(tīng)閾以下,人耳仍然感覺(jué)不到。簡(jiǎn)單的說(shuō)感知編碼是建立在人類聽(tīng)覺(jué)系統(tǒng)的心理聲學(xué)原理為基礎(chǔ),只記錄那些能被人的聽(tīng)覺(jué)所感知的聲音信號(hào),從而達(dá)到減少數(shù)據(jù)量而又不降低音質(zhì)的目的。
目前音頻壓縮編碼已成為標(biāo)準(zhǔn)的是 MPEG-1 ( ISO/IEC11172-3 )、 MPEG-2 ( ISO/IEC13818-3 )和美國(guó)大聯(lián)盟的 AC-3 。他們都是感知編碼。
一、為什么壓縮
了解數(shù)字音頻首先要提到 脈沖編碼調(diào)制 PCM ( Pulse Code Modulation ),它 是概念上最簡(jiǎn)單、理論上最完善的編碼系統(tǒng),是最早研制成功、使用最為廣泛的編碼系統(tǒng),但也是數(shù)據(jù)量最大的編碼系統(tǒng)。 PCM 指模擬音頻信號(hào)只經(jīng)過(guò)采樣、量化、編碼,模數(shù)轉(zhuǎn)換成 PCM 信號(hào),得到標(biāo)準(zhǔn)的數(shù)字音頻碼流,而未經(jīng)過(guò)任何編碼和壓縮處理。
根據(jù)奈奎斯特采樣定律,通常其采樣頻率至少應(yīng)當(dāng)是信號(hào)中的最高頻率分量的兩倍。對(duì)于高質(zhì)量的音頻信號(hào),其頻率范圍是從 20Hz ~ 20kHz 。所以其采樣頻率必須在 40kHz 以上。在 CD 中采用了 44.1kHz 的采樣頻率。普通 CD 線性 PCM 的取樣頻率為 44.1kHz ,量化精度為 16bit ,動(dòng)態(tài)范圍為 98db 。(在對(duì)模擬信號(hào)采樣以后,還必須對(duì)其幅度上加以分層。在 CD 中,其分層以后的幅度信號(hào)用 16 bit 的二進(jìn)制信號(hào)來(lái)表示,也就是把模擬的音頻信號(hào)在幅度上分為 65536 ( 2 16 )層。這樣,它的動(dòng)態(tài)范圍就可以達(dá)到 96 分貝( 6 分貝 / 比特)。)
PCM 的編碼原理比較直觀和簡(jiǎn)單,它的原理框圖如圖所示。
在這個(gè)編碼框圖中,它的輸入是模擬聲音信號(hào),它的輸出是 PCM 樣本。圖中的“防失真濾波器”是一個(gè)低通濾波器,用來(lái)濾除聲音頻帶以外的信號(hào);“波形編碼器”可暫時(shí)理解為“采樣器”,“量化器”可理解為“量化階大小 (step-size) ”生成器或者稱為“量化間隔”生成器。
那么這種未經(jīng)壓縮的 PCM 信號(hào)的數(shù)據(jù)量具體有多大呢?以 CD 音質(zhì)的信號(hào)為例,它的單通道的采樣率是 44.1k Hz ,每個(gè)樣值是 16bit 的量化,而立體聲 CD 音質(zhì)信號(hào),有兩個(gè)通道,它每秒的碼流是 44.1K × 16 × 2 ≈ 1.4Mbit/s 。(數(shù)字信號(hào)傳輸率 = 取樣頻率 × 量化比特 × 通道數(shù))一張 CD 唱片的容量約為 680MB ,可以容納約 1 小時(shí)的雙聲道 PCM 數(shù)字音頻節(jié)目,由于這種編碼方式所產(chǎn)生的數(shù)據(jù)量太大,存儲(chǔ)和傳輸都既不方便也不經(jīng)濟(jì),有時(shí)甚至是行不通的。對(duì)于電視廣播來(lái)說(shuō),數(shù)據(jù)傳輸速率越高,每套節(jié)目所需的頻寬就越大,在頻帶資源日趨緊張的今天,過(guò)寬的頻帶是不能允許的,同時(shí)對(duì)于有形載體(激光碟、磁帶等),每種載體的記錄密度都是有限的(受當(dāng)時(shí)技術(shù)發(fā)展程度的制約),增大數(shù)據(jù)量就意味著縮短節(jié)目長(zhǎng)度。因此需要開(kāi)發(fā)一種新的編碼方式,它應(yīng)該使用較少的數(shù)據(jù)量,而又不會(huì)導(dǎo)致音質(zhì)的主觀聽(tīng)感有明顯的下降。
二、 感知編碼原理
1 、理論基礎(chǔ)——聞?dòng)蚝团R界頻段
音頻壓縮理論是建立在心理聲學(xué)模型基礎(chǔ)上,從研究人耳的聽(tīng)感系統(tǒng)開(kāi)始的。
人耳實(shí)際上可看成一個(gè)多頻段的聽(tīng)感分析器,在接收端的最后,它對(duì)瞬間的頻譜功率進(jìn)行了重新分配,這就為音頻的數(shù)據(jù)壓縮提供了依據(jù)。
眾所周知,聲源振動(dòng)的能量通過(guò)聲波傳入人耳,使耳膜發(fā)生振動(dòng),人們就產(chǎn)生了聲音的感覺(jué)。但是人耳能聽(tīng)到的振動(dòng)頻率約在 20 Hz 到 20KHz 之間,低于 20 Hz 或高于 20K Hz 的振動(dòng),不能引起人類聽(tīng)覺(jué)器官的感覺(jué)。心理聲學(xué)模型中一個(gè)基本的概念就是聽(tīng)覺(jué)系統(tǒng)中存在一個(gè)聽(tīng)覺(jué)閾值電平,低于這個(gè)電平的聲音信號(hào)就聽(tīng)不到,因此就可以把這部分信號(hào)去掉。聽(tīng)覺(jué)閾值的大小隨聲音頻率的改變而改變,各個(gè)人的聽(tīng)覺(jué)閾值也不同。大多數(shù)人的聽(tīng)覺(jué)系統(tǒng)對(duì) 2kHz ~ 5kHz 之間的聲音最敏感。一個(gè)人是否能聽(tīng)到聲音取決于聲音的頻率,以及聲音的幅度是否高于這種頻率下的聽(tīng)覺(jué)閾值。 這就是說(shuō)在聽(tīng)覺(jué)閾值以外的電平可以去掉,相當(dāng)于壓縮了數(shù)據(jù)。另外, 聽(tīng)覺(jué)閾值電平是自適應(yīng)的,即聽(tīng)覺(jué)閾值電平會(huì)隨聽(tīng)到的不同頻率的聲音而發(fā)生變化。也許你有這樣的體驗(yàn),在一安靜房間里的普通談話可以聽(tīng)得很清楚,但在播放搖滾樂(lè)的環(huán)境下同樣的普通談話就聽(tīng)不清楚了。聲音壓縮算法也同樣可以確立這種特性的模型來(lái)取消更多的冗余數(shù)據(jù)。
【音頻壓縮的成功者-感知編碼】相關(guān)文章:
視音頻素材的編碼轉(zhuǎn)換03-19
視頻壓縮編碼的差錯(cuò)復(fù)原技術(shù)03-21
用于壓縮感知的無(wú)線傳感網(wǎng)測(cè)量矩陣設(shè)計(jì)方法01-06
多相編碼脈沖壓縮信號(hào)及其旁瓣抑制性能研究03-07
淺析音頻失真11-27
工程音頻電纜論文03-18