談談語音識別與人聲的物理原理,以及真聲假聲頭聲混聲等概念
來自專欄技術備忘錄
29 人贊了文章
繼續最近的話題。知乎有不少語音識別的文章,但主要是黑箱子端對端,沒涉及背後的物理過程。
其實,人類的發聲過程很有意思,在此我們從物理的第一性原理談談這些問題,也可以更好地理解唱歌中涉及的各種名詞。
1. 頻譜,與母音、輔音的來源
聲音來自於振動。重要的方法是頻譜分析(傅里葉分析),就是把聲音拆成各個頻率組分:

那麼請看下面的三張頻譜圖,來自於我寫的微信小程序「聲音精靈」,大家在微信可以搜到:

這是「MA」音(豎格對應的頻率是20到20000Hz):

這是「MI」音:

這是「MU」音:

這幾個音的音高(基頻,對應的是紅圈標記的峰中最左邊的峰)差不多,都是130Hz左右,但為什麼我們可以分辨出是不同的音?其實是來自於聲音的共振峰(formant)的位置區別。
這裡的母音A在700Hz和1400Hz特別高,母音I在2000Hz和3500Hz特別高,母音U的峰不明顯(因為對應的頻率比較低)。大家感興趣可以測測自己的共振峰頻率,每個人會不一樣,但都會差不多。
如下圖所示,共振峰的區別,是因為我們在發不同母音時,會靈活地變動各個腔體的體積和形狀,從而改變共振的情況,塑造出想要的頻譜。這一切都是我們下意識完成的,可見人的發聲是可以千變萬化。

聲帶本身振動產生的頻譜,是很簡單的,但經過腔體的塑造就可以形成不同的母音,甚至不同的音色。

上面分析的是母音。輔音是如何來的呢?輔音是來自於發聲在時間上的變化,需要在聲譜圖(spectrogram)才能看見,熟手可以直接從聲譜圖看出在說什麼:

語音識別,自然也可以在這樣的聲譜圖上完成。不過算聲譜圖的計算量比較大,所以大家會用一些偷懶的方法,或者直接在原始波形上進行識別。
2. 真聲,假聲,頭聲,混聲,邊緣化,咽音,閉合
各種唱歌的發聲概念,在頻譜圖上也有清晰的反應。小程序「微信精靈」有一個「真實度」評分,反應的就是泛音的多少。
通常來說,真實度越高,發聲的質量就越高。當然,有時我們也會用偏假的聲音實現特殊的感情效果。
真聲的特點是泛音多(高峰多),頻率低。推薦大家體會一下把真實度唱到2以上的感覺,這可以稱為較好的「胸聲」,通常需要稍大一些的音量才能做到,請離手機遠一些,保證錄音的音量不超限:

假聲的特點是泛音少(高峰少),所以「真實度」低。例如,這是純假聲的高音「A」,只有基頻和「A"的共振峰較高:

如果更高一些,就連「A」的共振峰都消失了,「真實度」極低,因為共振峰必須是基頻的倍數,659*2已經超過了「A」對應的共振峰的高度:

怎麼把假音變得更「實」?前面說過,「i」對應的共振峰很高,所以許多初級高音愛好者會研究把「i」這個音加進假聲,讓聲音更「實」。這屬於聲帶的邊緣化技術。例如這是一個加了「i」的假聲,在後面的峰翹起來:

邊緣化的極端情形是「咽音」,聽上去有點像唱戲,民族唱法會用到,在流行歌中也可以適量加。不過,雖然這些方法會令假聲「實」一些,但還是顯得尖銳,單靠這些方法是無法實現混聲。
混聲,是練聲的重要目標,可以讓高音彷彿沒有換聲點,而且音色優美純凈又有厚度,例如近年林俊傑的混聲技術很好,李健輕唱的音色也是混聲。
舉例,在下面的視頻中,從40秒開始的高音的部分,林俊傑的聲音非常順滑,令女聲的聲音都相對顯得粗糙了,這就是典型的混聲。
我想和你唱直播 林俊傑和粉絲愛新覺羅媚演唱《不為誰而作的歌》,JJ真是行...混聲高音的頻譜如下圖,泛音和真聲一樣豐富(有多個很高的峰),而且頻率可以很高(這是安卓機錄的,可以看到兩端的高低音被砍掉了,建議大家用iPhone錄音):

優質的混聲,「真實度」評分可以達到2以上。如果你能做到,就一定是「閉合」高手。
因為混聲的發聲原理是通過氣流的伯努利效應、肌肉的控制、腔體的配合,將聲帶幾乎閉合,讓嗓子成為像笛/管一般的樂器。樂器的特點就是泛音豐富,聲音悠揚動聽。

聽上去簡單,實際是很有難度的。如果你能做到,會有「在嗓子里找到了一個支點的感覺」,然後在沒到換聲點的時候就可以轉成混聲,從而可以輕鬆地直接通過換聲點,實現音色的統一,且音色的聽感很好。
比混聲簡單的是頭聲。頭聲的頻率更高,泛音沒那麼豐富,但也不錯:

最後還有哨音(海豚音)。哨音也是通過閉合實現,如果看頻譜是假聲,不過這可能只是因為基頻太高,所以難以出現共振峰。哨音的頻率可以高破天際:

3. 總結
以上我們介紹了常用的發聲知識。大家可在微信搜索「聲音精靈」小程序,直觀地了解自己的發聲屬於什麼類型,發聲的質量如何。

未來還會加入AI輔助練聲,和更多有趣的功能(例如與歌手/他人的聲音比對,與歌曲比對,找到問題所在)。大家如果覺得好用,請多多推薦給朋友吧。
推薦閱讀:
※重磅!阿里開源自研語音識別模型DFSMN,準確率高達96.04%
※AI時代,為什麼懂語音者得天下?
※雲諾智能語音機器人
※想撩外國妹紙,你需要島國推出的這款翻譯神器!
※語音識別中的CTC演算法的基本原理解釋
