能否利用神經網路對低質量音頻進行優化?

用類似與waifu2x的方法是否可以進行音頻的優化,如果可以是否也需要像waifu2x一樣只能對特定種類音頻優化?


難得感恩長假我來就自己所知答一下吧。

我對神經網路在音頻中應用的了解局限於自動語音識別,但是基本上音頻處理和圖像處理是很不一樣的。首先如果是音頻降噪以提升質量的話那估計肯定是有用但降噪演算法不拘一格而且各有利弊,質量評估比起圖像來要難很多,簡單算一個SNR幾乎跟實際效果不相關。而如果樓主意思是對有損音頻進行優化,那就得攤開了說了:背景知識是音頻界一般把20KHz當成人聽覺上限 -- 當然HiFi界就有人跳出來說什麼超高頻可以被第六感感知到之類的在這裡不討論。由於人耳對音頻的感知是log scale所以早期很多壓縮演算法比如mp3會暴力削減高頻,因為10K到20K對於人耳也不過就是一個八度而已,但對於一個48KHz採樣率的音頻來講要花接近一半帶寬來記載極其占空間。那麼削減完的高頻可不可以用演算法彌補回來呢?答案當然是肯定的,但對這方面音頻界應該是極其慎重。這是因為人耳對音頻感知的機制之複雜決定了不能用簡單粗暴的辦法進行彌補,而增加的信息量對於實際聽感的提升來講一般也不大,不然當初又為何在壓縮的時候去掉了呢哈哈。對音頻回放來講肯定是首先注重於減小器材和聽音環境所添加的失真,如果對音源做處理一不小心就會畫蛇添足。Anyway,假設這些都不考慮,那麼經典的音質彌補的演算法一般是引入非線性失真,如這篇paper所描述的那樣http://cseweb.ucsd.edu/~marora/files/papers/13565.pdf

被音頻壓縮演算法處理的音頻基本思路就是用窄帶有的帶寬去推算猜測被壓縮掉的高頻。在音頻處理中大把工程師肯定首選DSP的知識,什麼分頻啊濾波啊很少往神經網路里去想。就這個演算法而言是有神經網路的用武之地,比如把現有的低頻信息分析頻率成分,找到基頻然後按照Equivalent rectangular bandwidth分段,加以不同的權重,然後去predict高頻。當然,假設你已經有一套常見音頻的training set。。。

Again,由於工作的關係我越來越了解到做一個演算法真的不是太難太難的事情,難的是做一個有效而穩定的演算法。在實際音頻工程運用中這樣的演算法幾乎只出現在窄帶語音通信中,這是因為窄帶語音通信的音頻可以當做是single event,這樣不用考慮耳朵的Auditory masking。那篇paper出自三星,分頻和演算法實現上毫不掩飾地暴露了對心理聲學知識的欠缺,validation上面的不足更是槽點滿滿【專業黑對手】。開個玩笑,這只是人家十年前的水平。

最後總結一下,我覺得ANN當然可以用在音質優化的某些方面,但是

1. 面臨與傳統方法在增強結果上的較量。

2. training set不像語音那樣簡單。

3. cost可能太大並不值得。

最大的問題是,跳出來看通信上是往增加帶寬走比如WB/SWB和VolTE,哪怕FaceTime和微信通話等;在音頻壓縮格式上mp3也已經日暮西山,新一代的mp4(AAC)非常複雜,再也不是簡單地一刀切高頻而是運用了極其複雜的心理聲學模型,paper就有六七十頁。這樣的大環境下增強演算法的用武之地就比較少了,尤其是HiFi領域。


能,腦放,好多人都在用。

之前的答主從技術角度分析的很到位,我只是來抖個機靈。


推薦閱讀:

如何理解 AlphaGo 2.0 所用的殘差網路?它是怎樣一種神經網路?有哪些優點缺點?
神經翻譯?
哪位高手能解釋一下卷積神經網路的卷積核?
如何作用和理解神經網路在電力電子方向的運用?

TAG:Hi-Fi | 神經網路 | 音頻處理 | 深度學習DeepLearning |