Thinuna 音頻信號的處理

2020-05-20 admin 657

一、音頻信號處理過程

1. 發(fā)聲

聲音是物體振動產(chǎn)生的，聲音是一種壓力波。聲音可以通過空氣、液體和固體傳播，且介質(zhì)不同，傳播的速度也不同。聲音在傳播中會產(chǎn)生能量。聲音的傳播需要物質(zhì)，物理學中把這樣的物質(zhì)叫做介質(zhì)，這個介質(zhì)可以是空氣，水，固體.當然在真空中，聲音不能傳播。聲音在不同的介質(zhì)中傳播的速度也是不同的。

介質(zhì)	速度	介質(zhì)	速度
空氣（15℃）	340m/s	空氣（25℃）	346m/s
水（常溫）	1500m/s	海水（25℃）	1530m/s
鋼鐵	5200m/s	冰	3160m/s
軟木	500m/s	松木	3320m/s
尼龍	2600m/s	水泥	4800m/s

物理中聲音是由物體振動發(fā)生的，正在發(fā)聲的物體叫做聲源。物體在一秒鐘之內(nèi)振動的次數(shù)叫做頻率，單位是赫茲，字母Hz.人的耳朵可以聽到20Hz-----20000Hz的聲音.最敏感是1000Hz-----3000Hz之間的聲音。人們以分貝為單位來表示聲音的強弱，符號為dB。0分貝剛剛引起聽覺。人們把超過聽力的聲音叫做超聲波，把低于聽力的聲音叫做次聲波。

2. 聲電轉(zhuǎn)換

將聲信號轉(zhuǎn)化為電信號的過程稱為聲電轉(zhuǎn)換。聲電轉(zhuǎn)化器是一種將聲音信號轉(zhuǎn)為電信號的裝置。由永久磁鐵和可繞線圈組成，線圈與話筒上的膜片連在一起，隨之一起振動，繞圈在永久磁鐵的磁鐵里振動。線圈中就產(chǎn)生感應電流，線圈的振動時就能感應到電流的大小和方向都變化，這就是實現(xiàn)了聲信號到電信號的轉(zhuǎn)換。

3. 抽樣(模數(shù)轉(zhuǎn)換)

模數(shù)轉(zhuǎn)換就是將連續(xù)的模擬信號轉(zhuǎn)化為離散的數(shù)字信號。模擬信號只有通過A/D轉(zhuǎn)化為數(shù)字信號后才能用軟件進行處理，這一切都是通過A/D轉(zhuǎn)換器（ADC）來實現(xiàn)的。模數(shù)變換主要是對模擬信號進行采樣，然后量化編碼為二進制數(shù)字信號。

4. 量化(將數(shù)字信號用適當?shù)臄?shù)值表示)

所謂量化，就是把經(jīng)過抽樣得到的瞬時值將其幅度離散，即用一組規(guī)定的電平，把瞬時抽樣值用最接近的電平值來表示。經(jīng)過抽樣的圖像，只是在空間上被離散成為像素(樣本)的陣列。而每個樣本灰度值還是一個由無窮多個取值的連續(xù)變化量，必須將其轉(zhuǎn)化為有限個離散值，賦予不同碼字才能真正成為數(shù)字圖像。這種轉(zhuǎn)化稱為量化。

在數(shù)字信號處理領(lǐng)域，量化指將信號的連續(xù)取值（或者大量可能的離散取值）近似為有限多個（或較少的）離散值的過程。量化主要應用于從連續(xù)信號到數(shù)字信號的轉(zhuǎn)換中。連續(xù)信號經(jīng)過采樣成為離散信號，離散信號經(jīng)過量化即成為數(shù)字信號。注意離散信號通常情況下并不需要經(jīng)過量化的過程，但可能在值域上并不離散，還是需要經(jīng)過量化的過程。信號的采樣和量化通常都是由ADC實現(xiàn)的。

5. 編碼(數(shù)據(jù)壓縮)

編碼是信息從一種形式或格式轉(zhuǎn)換為另一種形式的過程也稱為計算機編程語言的代碼簡稱編碼。用預先規(guī)定的方法將文字、數(shù)字或其它對象編成數(shù)碼，或?qū)⑿畔?、?shù)據(jù)轉(zhuǎn)換成規(guī)定的電脈沖信號。編碼在電子計算機、電視、遙控和通訊等方面廣泛使用。編碼是信息從一種形式或格式轉(zhuǎn)換為另一種形式的過程。

各種主流音頻編碼（或格式）的介紹：

PCM編碼

PCM 脈沖編碼調(diào)制是Pulse Code Modulation的縮寫。前面的文字我們提到了PCM大致的工作流程，我們不需要關(guān)心PCM最終編碼采用的是什么計算方式，我們只需要知道PCM編碼的音頻流的優(yōu)點和缺點就可以了。PCM編碼的最大的優(yōu)點就是音質(zhì)好，最大的缺點就是體積大。我們常見的Audio CD就采用了PCM編碼，一張光盤的容量只能容納72分鐘的音樂信息。

WAVE

這是一種古老的音頻文件格式，由微軟開發(fā)。WAV是一種文件格式，符合 PIFF Resource Interchange File Format規(guī)范。所有的WAV都有一個文件頭，這個文件頭音頻流的編碼參數(shù)。WAV對音頻流的編碼沒有硬性規(guī)定，除了PCM之外，還有幾乎所有支持ACM規(guī)范的編碼都可以為WAV的音頻流進行編碼。很多朋友沒有這個概念，我們拿AVI做個示范，因為AVI和WAV在文件結(jié)構(gòu)上是非常相似的，不過AVI多了一個視頻流而已。我們接觸到的AVI有很多種，因此我們經(jīng)常需要安裝一些Decode才能觀看一些AVI，我們接觸到比較多的DivX就是一種視頻編碼，AVI可以采用DivX編碼來壓縮視頻流，當然也可以使用其他的編碼壓縮。同樣，WAV也可以使用多種音頻編碼來壓縮其音頻流，不過我們常見的都是音頻流被PCM編碼處理的WAV，但這不表示W(wǎng)AV只能使用PCM編碼，MP3編碼同樣也可以運用在WAV中，和AVI一樣，只要安裝好了相應的Decode，就可以欣賞這些WAV了。

在Windows平臺下，基于PCM編碼的WAV是被支持得更好的音頻格式，所有音頻軟件都能完美支持，由于本身可以達到較高的音質(zhì)的要求，因此，WAV也是音樂編輯創(chuàng)作的首選格式，適合保存音樂素材。因此，基于PCM編碼的WAV被作為了一種中介的格式，常常使用在其他編碼的相互轉(zhuǎn)換之中，例如MP3轉(zhuǎn)換成WMA。

MP3編碼

MP3是一種音頻壓縮技術(shù)，其全稱是動態(tài)影像專家壓縮標準音頻層面3（Moving Picture Experts Group Audio Layer III），簡稱為MP3。它被設計用來大幅度地降低音頻數(shù)據(jù)量。利用 MPEG Audio Layer 3 的技術(shù)，將音樂以1:10 甚至 1:12 的壓縮率，壓縮成容量較小的文件，而對于大多數(shù)用戶來說重放的音質(zhì)與最初的不壓縮音頻相比沒有明顯的下降。它是在1991年由位于德國埃爾朗根的研究組織Fraunhofer-Gesellschaft的一組工程師發(fā)明和標準化的。用MP3形式存儲的音樂就叫作MP3音樂，能播放MP3音樂的機器就叫作MP3播放器。

OGG編碼

網(wǎng)絡上出現(xiàn)了一種叫Ogg Vorbis的音頻編碼，號稱MP3殺手！Ogg Vorbis究竟什么來頭呢？OGG是一個龐大的多媒體開發(fā)計劃的項目名稱，將涉及視頻音頻等方面的編碼開發(fā)。整個OGG項目計劃的目的就是向任何人提供完全免費多媒體編碼方案！OGG的信念就是：OPEN！FREE！Vorbis這個詞匯是特里·普拉特柴特的幻想小說《Small Gods》中的一個"花花公子"人物名。這個詞匯成為了OGG項目中音頻編碼的正式命名。目前Vorbis已經(jīng)開發(fā)成功，并且開發(fā)出了編碼器。
Ogg Vorbis是高質(zhì)量的音頻編碼方案，官方數(shù)據(jù)顯示：Ogg Vorbis可以在相對較低的數(shù)據(jù)速率下實現(xiàn)比MP3更好的音質(zhì)！Ogg Vorbis這種編碼也遠比90年代開發(fā)成功的MP3先進，她可以支持多聲道，這意味著什么？這意味著Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓軌軟件（目前這種軟件還沒有）的支持下，可以對所有的聲道進行編碼，而不是MP3只能編碼2個聲道。多聲道音樂的興起，給音樂欣賞帶來了革命性的變化，尤其在欣賞交響時，會帶來更多臨場感。這場革命性的變化是MP3無法適應的。
和MP3一樣，Ogg Vorbis是一種靈活開放的音頻編碼，能夠在編碼方案已經(jīng)固定下來后還能對音質(zhì)進行明顯的調(diào)節(jié)和新算法的改良。因此，它的聲音質(zhì)量將會越來越好，和MP3相似，Ogg Vorbis更像一個音頻編碼框架，可以不斷導入新技術(shù)逐步完善。和MP3一樣，OGG也支持VBR。

MPC 編碼

MPC是又是另外一個令人刮目相看的實力派選手，它的普及過程非常低調(diào)，也沒有什么復雜的背景故事，她的出現(xiàn)目的就只有一個，更小的體積更好的音質(zhì)！MPC以前被稱作MP+，很顯然，可以看出她針對的競爭對手是誰。但是，只要用過這種編碼的人都會有個深刻的印象，就是她出眾的音質(zhì)。

mp3PRO 編碼

2001年6月14日，美國湯姆森多媒體公司(Thomson Multimedia SA)與佛朗赫弗協(xié)會(Fraunhofer Institute)于6月14日發(fā)布了一種新的音樂格式版本，名稱為mp3PRO，這是一種基于mp3編碼技術(shù)的改良方案，從官方公布的特征看來確實相當吸引人。從各方面的資料顯示，mp3PRO并不是一種全新的格式，完全是基于傳統(tǒng)mp3編碼技術(shù)的一種改良，本身最大的技術(shù)亮點就在于SBR（Spectral Band Replication 頻段復制），這是一種新的音頻編碼增強算法。它提供了改善低位率情況下音頻和語音編碼的性能的可能。這種方法可在指定的位率下增加音頻的帶寬或改善編碼效率。SBR最大的優(yōu)勢就是在低數(shù)據(jù)速率下實現(xiàn)非常高效的編碼，與傳統(tǒng)的編碼技術(shù)不同的是，SBR更像是一種后處理技術(shù)，因此解碼器的算法的優(yōu)劣直接影響到音質(zhì)的好壞。高頻實際上是由解碼器（播放器）產(chǎn)生的，SBR編碼的數(shù)據(jù)更像是一種產(chǎn)生高頻的命令集，或者稱為指導性的信號源，這有點駇idi的工作方式。我們可以看到，mp3PRO其實是一種mp3信號流和SBR信號流的混合數(shù)據(jù)流編碼。有關(guān)資料顯示，SBR技術(shù)可以改善低數(shù)據(jù)流量下的高頻音質(zhì)，改善程度約為30%，我們不管這個30%是如何得來的，但可以事先預知這種改善可以讓64kbps的mp3達到128kbps的mp3的音質(zhì)水平（注：在相同的編碼條件下，數(shù)據(jù)速率的提升和音質(zhì)的提升不是成正比的，至少人耳聽覺上是這樣的），這和官方聲稱的64kbps的mp3PRO可以媲美128kbps的mp3的宣傳基本是吻合的。

WMA就是Windows Media Audio編碼后的文件格式，由微軟開發(fā)，WMA針對的不是單機市場，是網(wǎng)絡！競爭對手就是網(wǎng)絡媒體市場中著名的Real Networks。微軟聲稱，在只有64kbps的碼率情況下，WMA可以達到接近CD的音質(zhì)。和以往的編碼不同，WMA支持防復制功能，她支持通過Windows Media Rights Manager 加入保護，可以限制播放時間和播放次數(shù)甚至于播放的機器等等。WMA支持流技術(shù)，即一邊讀一邊播放，因此WMA可以很輕松的實現(xiàn)在線廣播，由于是微軟的杰作，因此，微軟在Windows中加入了對WMA的支持，WMA有著優(yōu)秀的技術(shù)特征，在微軟的大力推廣下，這種格式被越來越多的人所接受。

RA就是RealAudio格式，這是各位網(wǎng)蟲接觸得非常多的一種格式，大部分音樂網(wǎng)站的在線試聽都是采用了RealAudio，這種格式完全針對的就是網(wǎng)絡上的媒體市場，支持非常豐富的功能。最大的閃爍點就是這種格式可以根據(jù)聽眾的帶寬來控制自己的碼率，在保證流暢的前提下盡可能提高音質(zhì)。RA可以支持多種音頻編碼，包括ATRAC3。和WMA一樣，RA不但都支持邊讀邊放，也同樣支持使用特殊協(xié)議來隱匿文件的真實網(wǎng)絡地址，從而實現(xiàn)只在線播放而不提供下載的欣賞方式。這對唱片公司和唱片銷售公司很重要，在各方的大力推廣下，RA和WMA是目前互聯(lián)網(wǎng)上，用于在線試聽最多的音頻媒體格式。

APE是Monkey's Audio提供的一種無損壓縮格式。Monkey's Audio提供了Winamp的插件支持，因此這就意味著壓縮后的文件不再是單純的壓縮格式，而是和MP3一樣可以播放的音頻文件格式。這種格式的壓縮比遠低于其他格式，但能夠做到真正無損，因此獲得了不少發(fā)燒用戶的青睞。在現(xiàn)有不少無損壓縮方案種，APE是一種有著突出性能的格式，令人滿意的壓縮比以及飛快的壓縮速度，成為了不少朋友私下交流發(fā)燒音樂的唯一選擇。

6. 傳輸

在電信中，傳輸是通過物理點對點或點對多點傳輸介質(zhì)（有線，光纖或無線）發(fā)送和傳播模擬或數(shù)字信息信號的過程。

通過傳送者分派，為了別處接受的一種信號、消息、或者任何種類的信息。通過各種手段實現(xiàn)的信號傳播，例如電報、電話、廣播、電視，或者經(jīng)由任意媒介電話傳真、例如電線、同軸電纜、微波、光纖，或者無線電頻率。

在一般信息論中傳輸被用于表示經(jīng)由信道的信息通訊的整個過程。例如數(shù)據(jù)塊或數(shù)據(jù)包，電話或電子郵件。傳輸技術(shù)和方案通常涉及物理層協(xié)議任務，例如調(diào)制，解調(diào)，線路編碼，均衡，差錯控制，比特同步和多路復用，但該術(shù)語還可能涉及更高層的協(xié)議任務，例如數(shù)字化模擬消息信號和數(shù)據(jù)壓縮。數(shù)字信息或數(shù)字化模擬信號的傳輸被稱為數(shù)字通信。

7. 解碼(數(shù)據(jù)還原)

在計算機網(wǎng)絡中，網(wǎng)絡通過通信網(wǎng)將計算機互聯(lián)以實現(xiàn)資源共享和數(shù)據(jù)傳輸?shù)摹．斒褂玫耐ㄐ啪W(wǎng)信號形式和傳輸設備的信號形式不一樣時，就必須進行信號形式的轉(zhuǎn)換。一般將在發(fā)送方進行的信號形式轉(zhuǎn)換稱為編碼，接收方進行的信號形式的轉(zhuǎn)換成為解碼。

音頻編解碼框圖

將模擬的、連續(xù)的聲音波形數(shù)字化 ( 離散化 ) ，可以得到數(shù)字音頻。數(shù)字音頻是把模擬的聲音信號通過采樣、量化和編碼過程轉(zhuǎn)變成數(shù)字信號，然后再進行記錄、傳輸及其他加工處理；重放時再將這些記錄的數(shù)字音頻信號還原為模擬信號，獲得連續(xù)的聲音。

采用數(shù)字音頻技術(shù)可以避免模擬信號容易受噪聲和干擾的影響，可以擴大音頻的動態(tài)范圍，可以利用計算機進行數(shù)據(jù)處理，可以不失真地遠距離傳輸，可以與圖像、視頻等其他媒體信息進行多路復用，以實現(xiàn)多媒體化和網(wǎng)絡化。

圖 1給出了音頻編解碼的一般模型。每個子帶信號都在經(jīng)過定標處理后被重新進行量化，量化編碼過程引入的量化噪聲不能超過已確定的對應子帶的掩蔽門限。因此量化噪聲頻譜與信號頻譜進行了動態(tài)自適應?！氨壤蜃印焙透髯?帶所使用量化器的相關(guān)信息與編碼后的子帶樣值一同進行傳輸，而解碼器可以在不了解編碼器如何確定編碼所需信息的情況下對碼流進行解碼。這降低了解碼器的復雜度，并為編碼器的選擇和解碼器開發(fā)提供了很大的靈活性。

圖1.png

圖1

這里主要涉及的技術(shù)有： A/D 和 D/A 轉(zhuǎn)換、壓縮編碼技術(shù)、數(shù)字信號處理技術(shù)、信道編碼和調(diào)制技術(shù)。

音頻編碼過程

音頻信號數(shù)字化

信號的數(shù)字化就是將連續(xù)的模擬信號轉(zhuǎn)換成離散的數(shù)字信號，一般需要完成采樣、量化和編碼三個步驟，如圖 2 所示。采樣是指用每隔一定時間間隔的信號樣本值序列來代替原來在時間上連續(xù)的信號。量化是用有限個幅度近似表示原來在時間上連續(xù)變化的幅度值，把模擬信號的連續(xù)幅度變?yōu)橛邢迶?shù)量、有一定時間間隔的離散值。編碼則是按照一定的規(guī)律，把量化后的離散值用二進制數(shù)碼表示。上述數(shù)字化的過程又稱為脈沖編碼調(diào)制(Pulse Code Modulation) ，通常由 A/D 轉(zhuǎn)換器來實現(xiàn)。

圖2.png

圖2

數(shù)字音頻信號經(jīng)過處理、記錄或傳輸后，當需要重現(xiàn)聲音時，還必須還原為連續(xù)變化的模擬信號。將數(shù)字信號轉(zhuǎn)換成模擬信號為 D/A 變換。

數(shù)字音頻的質(zhì)量取決于采樣頻率和量化位數(shù)。采樣頻率越高，量化位數(shù)越多，數(shù)字化后的音頻質(zhì)量越高。

音頻采樣

采樣就是從一個時間上連續(xù)變化的模擬信號取出若干個有代表性的樣本值，來代表這個連續(xù)變化的模擬信號。一個在時間和幅值上都連續(xù)的模擬音頻信號的函數(shù)表為 x(t), 采樣的過程就是在時間上將函數(shù) x(t) 離散化的過程。一般的采樣是按均勻的時間間隔進行的。設這一時間間隔為 T ，則取樣后的信號為 x(nT) ， n 為自然數(shù)。

根據(jù)奈奎斯特采樣定理：要從采樣值序列完全恢復原始的波形，采樣頻率必須大于或等于原始信號最高頻率的 2倍。設連續(xù)信號 x(t) 的頻譜為 x(W) ，以采樣間隔時間 T 抽樣得到離散信號 x(nT) ，如果滿足 │ W │ ≤ Wc 時，其中 Wc 是截止頻率，即 T ≤ l/2Wc 時，可以由 x(nT) 完全確定連續(xù)信號 x(t) 。

當采樣頻率為 1 ／ 2T 時，即 WN=Wc=1/2T 時，稱 WN 為奈奎斯特采樣頻率。

音頻量化
采樣只解決了音頻波形信號在時間坐標(即橫軸 ) 上把一個波形切成若干個等分的數(shù)字化問題，但是還需要用某種數(shù)字化的方法來反映某一瞬間聲波幅度的電壓值大小。該值的大小影響音量的高低。我們把對聲波波形幅度的數(shù)字化表示稱之為“量化” 。

量化的過程是先將采樣后的信號按整個聲波的幅度劃分成有限個區(qū)段的集合，把落入某個區(qū)段內(nèi)的樣值歸為一類，并賦于相同的量化值。如何分割采樣信號的幅度呢 ? 我們還是采取二進制的方式，以８位 (bit) 或 16 位 (bit) 的方式來劃分縱軸。也就是說在一個以8位為記錄模式的音效中，其縱軸將會被劃分為2^8個量化等級，用以記錄其幅度大小,其精度為音頻信號最大振幅的 1/256 。量化位數(shù)越多，量化值越接近于采樣值，其精度越高，但要求的信息存儲量就越大。

存儲數(shù)字音頻信號的比特率為：

I=N·Ws

其中的 Ws 是采樣率， N 是每個采樣值的比特數(shù)。

要減小比特率 I ，在 Ws 已經(jīng)確定的情況下，只能去減少 N 的值。 N 的值降低會導致量化的精度降低， N 的值增加又會導致信息存儲量的增加。因此在編碼時就需要合理地選擇 N 的值。

均勻量化就是采用相等的量化間隔進行采樣，也稱為線性量化。用均勻量化來量化輸入信號時，無論對大的輸入信號還是小的輸入信號都一律采用相同的量化間隔。因此，要想既適應幅度大的輸入信號，同時又要滿足精度高的要求，就需要增加采樣樣本的位數(shù)。

非均勻量化的基本思想是對輸入信號進行量化時，大的輸入信號采用大的量化間隔，小的輸入信號采用小的量化間隔，這樣就可以在滿足精度要求的情況下使用較少的位數(shù)來表示。其中采樣輸入信號幅度和量化輸出數(shù)據(jù)之間一般定義了兩種對應關(guān)系，一種稱為 u 律壓縮算法，另一種稱為 A 律壓縮算法。

采用不同的量化方法，量化后的數(shù)據(jù)量也就不同。因此說量化也是一種壓縮數(shù)據(jù)的方法。

8. 反抽樣(數(shù)模轉(zhuǎn)換)

數(shù)模轉(zhuǎn)換就是將離散的數(shù)字量轉(zhuǎn)換為連接變化的模擬量。

主要技術(shù)指標如下：

分辯率（Resolution）指數(shù)字量變化一個最小量時模擬信號的變化量，定義為滿刻度與2n的比值。分辯率又稱精度，通常以數(shù)字信號的位數(shù)來表示。
轉(zhuǎn)換速率（Conversion Rate）是指完成一次從模擬轉(zhuǎn)換到數(shù)字的AD轉(zhuǎn)換所需的時間的倒數(shù)。積分型AD的轉(zhuǎn)換時間是毫秒級屬低速AD，逐次比較型AD是微秒級屬中速AD，全并行/串并行型AD可達到納秒級。采樣時間則是另外一個概念，是指兩次轉(zhuǎn)換的間隔。為了保證轉(zhuǎn)換的正確完成，采樣速率（Sample Rate）必須小于或等于轉(zhuǎn)換速率。因此有人習慣上將轉(zhuǎn)換速率在數(shù)值上等同于采樣速率也是可以接受的。常用單位是ksps和Msps，表示每秒采樣千/百萬次（kilo / Million Samples per Second）。
量化誤差（Quantizing Error）由于AD的有限分辯率而引起的誤差，即有限分辯率AD的階梯狀轉(zhuǎn)移特性曲線與無限分辯率AD（理想AD）的轉(zhuǎn)移特性曲線（直線）之間的最大偏差。通常是1 個或半個最小數(shù)字量的模擬變化量，表示為1LSB、1/2LSB。
偏移誤差（Offset Error）輸入信號為零時輸出信號不為零的值，可外接電位器調(diào)至最小。
滿刻度誤差（Full Scale Error）滿度輸出時對應的輸入信號與理想輸入信號值之差。
線性度（Linearity）實際轉(zhuǎn)換器的轉(zhuǎn)移函數(shù)與理想直線的最大偏移，不包括以上三種誤差。
其他指標還有：絕對精度（Absolute Accuracy），相對精度（Relative Accuracy），微分非線性，單調(diào)性和無錯碼，總諧波失真（Total Harmonic Distotortion縮寫THD）和積分非線性。

模數(shù)變換方法

采樣方法應滿足采樣定理，適當加入抗混迭濾波器；
寬帶化，如在中頻對模擬信號進行數(shù)字化，信號帶寬通常在十幾到幾十兆赫茲；
保持較高的信號動態(tài)范圍；
高采樣率，應盡量在中頻或射頻工作，以盡可能保證整機的軟件化處理；
減少量化噪聲。

9. 電聲轉(zhuǎn)換

將電信號轉(zhuǎn)化為聲信號的過程稱為電聲轉(zhuǎn)換。電聲轉(zhuǎn)換器是把聲能轉(zhuǎn)換成電能或電能轉(zhuǎn)換成聲能的器件，電聲工程中的傳聲器、揚聲器和耳機是最典型的電能、聲能之間相互變換的器些器件統(tǒng)稱為電聲轉(zhuǎn)換器，亦稱電聲換能器。

換能器工作頻率的設計依據(jù)涉及傳聲媒質(zhì)對超聲波能量衰減的因素、檢測目標（如缺陷）對超聲波的反射反射反射反射特性、傳聲媒質(zhì)的本底噪聲以及輻射阻抗等等。決定換能器工作頻率的影響因素有很多，如激勵用電信號的頻率、換能器的組裝結(jié)構(gòu)設計、工作原理的應用范圍與限制條件、換能元件自身的材料物理特性等等。換能器的許多重要性能，如指向性、發(fā)射聲功率、接收靈敏度以及聲場特性等都直接受其工作頻率的影響。

10. 人耳聽聲

人耳對不同強度、不同頻率聲音的聽覺范圍稱為聲域。在人耳的聲域范圍內(nèi)，聲音聽覺心理的主觀感受主要有響度、音高、音色等特征和掩蔽效應、高頻定位等特性。其中響度、音高、音色可以在主觀上用來描述具有振幅、頻率和相位三個物理量的任何復雜的聲音，故又稱為聲音“三要素”；

響度，又稱聲強或音量，它表示的是聲音能量的強弱程度，主要取決于聲波振幅的大小。聲音的響度一般用聲壓（達因/平方厘米）或聲強（瓦特/平方厘米）來計量，聲壓的單位為帕(Pa），它與基準聲壓比值的對數(shù)值稱為聲壓級，單位是分貝（dB）。

音高

音高也稱音調(diào)，表示人耳對聲音調(diào)子高低的主觀感受。客觀上音高大小主要取決于聲波基頻的高低，頻率高則音調(diào)高，反之則低，單位用赫茲(Hz）表示。主觀感覺的音高單位是“美”，通常定義響度為40方的 1kHz純音的音高為1000美。赫茲與“美”同樣是表示音高的兩個不同概念而又有聯(lián)系的單位。

11. 音色

音色又稱音品，由聲音波形的諧波頻譜和包絡決定。聲音波形的基頻所產(chǎn)生的聽得最清楚的音稱為基音，各次諧波的微小振動所產(chǎn)生的聲音稱泛音。單一頻率的音稱為純音，具有諧波的音稱為復音。每個基音都有固有的頻率和不同響度的泛音，借此可以區(qū)別其它具有相同響度和音調(diào)的聲音。聲音波形各次諧波的比例和隨時間的衰減大小決定了各種聲源的音色特征，其包絡是每個周期波峰間的連線，包絡的陡緩影響聲音強度的瞬態(tài)特性。聲音的音色色彩紛呈，變化萬千，高保真（Hi— Fi）音響的目標就是要盡可能準確地傳輸、還原重建原始聲場的一切特征，使人們其實地感受到諸如聲源定位感、空間包圍感、層次厚度感等各種臨場聽感的立體環(huán)繞聲效果。

二、音頻的關(guān)鍵參數(shù)詳解

1、聲道數(shù)：聲道數(shù)是音頻傳輸?shù)闹匾笜?，現(xiàn)在主要有單聲道和雙聲道之分。雙聲道又稱為立體聲，在硬件中要占兩條線路，音質(zhì)、音色好，但立體聲數(shù)字化后所占空間比單聲道多一倍。

2、量化位數(shù)：量化位是對模擬音頻信號的幅度軸進行數(shù)字化，它決定了模擬信號數(shù)字化以后的動態(tài)范圍。由于計算機按字節(jié)運算，一般的量化位數(shù)為8位和16位。量化位越高，信號的動態(tài)范圍越大，數(shù)字化后的音頻信號就越可能接近原始信號，但所需要的存貯空間也越大。

3、采樣頻率：采樣頻率這個專業(yè)術(shù)語是指一秒鐘內(nèi)采樣的次數(shù)。采樣頻率的選擇應該遵循奈奎斯特(Harry Nyquist)采樣理論(如果對某一模擬信號進行采樣，則采樣后可還原的最高信號頻率只有采樣頻率的一半，或者說只要采樣頻率高于輸入信號最高頻率的兩倍，就能從采樣信號系列重構(gòu)原始信號)。根據(jù)該采樣理論，CD激光唱盤采樣頻率為44kHz，可記錄的最高音頻為22kHz，這樣的音質(zhì)與原始聲音相差無幾，也就是我們常說的超級高保真音質(zhì)。通信系統(tǒng)中數(shù)字電話的采用頻率通常為8kHz，與原4k帶寬聲音一致的。

補充：聲音其實是一種能量波，因此也有頻率和振幅的特征，頻率對應于時間軸線，振幅對應于電平軸線。波是無限光滑的，弦線可以看成由無數(shù)點組成，由于存儲空間是相對有限的，數(shù)字編碼過程中，必須對弦線的點進行采樣。

采樣的過程就是抽取某點的頻率值，很顯然，在一秒中內(nèi)抽取的點越多，獲取得頻率信息更豐富，為了復原波形，采樣頻率越高，聲音的質(zhì)量也就越好，聲音的還原也就越真實，但同時它占的資源比較多。由于人耳的分辨率很有限，太高的頻率并不能分辨出來。22050 的采樣頻率是常用的，44100已是CD音質(zhì)，超過48000或96000的采樣對人耳已經(jīng)沒有意義。這和電影的每秒24幀圖片的道理差不多。如果是雙聲道(stereo)，采樣就是雙份的，文件也差不多要大一倍。

根據(jù)奈奎斯特采樣理論，為了保證聲音不失真，采樣頻率應該在40kHz左右。這個定理怎么得來，我們不需要知道，只需知道這個定理告訴我們，如果我們要精確的記錄一個信號，我們的采樣頻率必須大于等于音頻信號的最大頻率的兩倍，記住，是最大頻率。

在數(shù)字音頻領(lǐng)域，常用的采樣率有：

8000 Hz - 電話所用采樣率，對于人的說話已經(jīng)足夠

11025 Hz - 電話所用采樣率

22050 Hz - 無線電廣播所用采樣率

32000 Hz - miniDV 數(shù)碼視頻 camcorder、DAT (LP mode)所用采樣率

44100 Hz - 音頻 CD, 也常用于 MPEG-1 音頻（VCD，SVCD，MP3）所用采樣率

47250 Hz - 商用 PCM 錄音機所用采樣率

48000 Hz - miniDV、數(shù)字電視、DVD、DAT、電影和專業(yè)音頻所用的數(shù)字聲音所用采樣率

50000 Hz - 商用數(shù)字錄音機所用采樣率

96000 Hz或者 192000 Hz - DVD-Audio、一些 LPCM DVD 音軌、BD-ROM（藍光盤）音軌、和 HD-DVD （高清晰度 DVD）音軌所用所用采樣率

4、碼率

比特率也叫碼率，指音樂每秒播放的數(shù)據(jù)量，單位用bit表示，也就是二進制位。 bps就是比特率。b就是比特（bit），s就是秒（second），p就是每（per），一個字節(jié)相當于8個二進制位。也就是說128bps的4分鐘的歌曲的文件大小是這樣計算的(128/8)*4*60=3840kB=3.8MB，1B（Byte）=8b（bit），一般mp3在128比特率左右為益，也大概在3-4 BM左右的大小。

在計算機應用中，能夠達到最高保真水平的就是PCM編碼，被廣泛用于素材保存及音樂欣賞，CD、DVD以及我們常見的 WAV文件中均有應用。因此，PCM約定俗成了無損編碼，因為PCM代表了數(shù)字音頻中最佳的保真水準，并不意味著PCM就能夠確保信號絕對保真，PCM也只能做到最大程度的無限接近。

要算一個PCM音頻流的碼率是一件很輕松的事情，采樣率值×采樣大小值×聲道數(shù) bps。一個采樣率為44.1KHz，采樣大小為16bit，雙聲道的PCM編碼的WAV文件，它的數(shù)據(jù)速率則為 44.1K×16×2 =1411.2Kbps。我們常見的Audio CD就采用了PCM編碼，一張光盤的容量只能容納72分鐘的音樂信息。

雙聲道的PCM編碼的音頻信號，1秒鐘需要176.4KB的空間，1分鐘則約為10.34M，這對大部分用戶是不可接受的，尤其是喜歡在電腦上聽音樂的朋友，要降低磁盤占用，只有2種方法，降低采樣指標或者壓縮。降低采樣指標是不可取的，因此專家們研發(fā)了各種壓縮方案。最原始的有DPCM、ADPCM，其中最出名的為MP3。所以，采用了數(shù)據(jù)壓縮以后的碼率遠小于原始碼。

采樣率為44.1HZ，采樣精度為16位的雙音頻，你可以算出比特率是44100*16*2bps，每秒的音頻數(shù)據(jù)是固定的44100*16*2/8 字節(jié)

Thinuna 音頻信號的處理

English

友情鏈接

站內(nèi)搜索

網(wǎng)站地圖

使用條款

在線反饋