目前國內的語音識別技術是什麼水準？

01-28

最近加了一些AI的討論群，這段時間大家都在討論語音技術，感覺現在用語音輸入的人越來越多了，一是發語音確實不方便，二是現在技術越來越厲害了，前幾年還感覺語音打字特別不靠譜，各種語音助手也相當蠢萌，想問下現在國內語音識別到什麼水準了，謝謝大家了！

前幾天百度弄了個發布會，不知道有木有人關注過，就是找了華少來PK語音識別的那個（話說，華少的語速真快。。）我看他們提到了語音識別方面的技術突破。本人算是人工智慧的愛好者把，如有不妥之處，虛心接受大神們指點

這次百度這次發布的叫做Deep Peak 2 模型，全稱是「基於 LSTM 和 CTC 的上下文無關音素組合建模」。對語音識別有了解的盆友可能應該知道，以前咱們語音識別中用的是「上下文相關建模」。這個「上下文相關建模」，說的是「同一個音素，由於其左邊或者右邊相連的音素不同，被定義成不同的建模單元」。這種模型是把高頻出現的音素聯合在一起，形成一個音素組合體，然後把這個音素組合體看作一個基本建模單元，進行上下文無關的建模。

那麼問題來來，以前的「相關」和百度這次的「無關」之間，差別是啥呢？

而且從字面意義上來看，似乎「相關」能夠結合上下文語境分析的更準確些。但是吧，因為把建模能力用在對建模單元的模擬上，而不是在上下文相關性上，所以上下文無關建模，其實可以更充分發揮神經網路模型的參數優勢，因此精度更高。而且因為不需要利用決策樹聚類模擬建模單元的上下文聚類，模型對多種說話方式的魯棒性更強。

如果用DeepPeak2模型，建模單元由之前的萬的量級降低到一千以內，而帶來更快的解碼速度。由於不受到上下文相關性的約束，可以在口語對話、正規朗讀、中英文混合等等各種模式中來識別。所以說，「中英文混合」也是可以識別的~ 這一點就很貼心了。

總體來說，其實國內目前語音識別已經很成熟了，不過就是中文太複雜，老祖宗留下的漢語博大精深。以口音為例，這是深層神經網路要解決的問題，理論上只要數據足夠豐富的話是可以消化的，這也是為什麼我覺得百度能在這方面很有前景的原因，之前天天說什麼大數據大數據，在中國真正能掌握著數據的不過BAT，百度又有優勢，本身就是搜索起家的，各類數據積累不要太豐富哦。。。

現在國內很多公司發聲說自己的語音識別率達到了97%甚至98%，但個人來看，對實用環境的要求很高才能達到這個指標。而在實際生活中並沒有這個數字顯示的那麼牛逼。比如在嘈雜環境，或帶口音的方言等等，這些都很大程度影響著語音識別的準確度。更不用說中文這麼複雜，同一個發音的詞會很多不同的意義，按照目前的技術水平來看，隨著麥克風陣列等硬體技術的升級，語音數據的收集，語音識別的準確流程還能提升，但也只能無限接近於100%，但絕不可能做到完全準確。

據我了解，目前國內比較牛的語音識別系統在日常場合已經能達到實用化的水平了。技術方面，從最初的FNN（前饋全連接神經網路）到RNN（的遞歸神經網路），再到現在應用比較廣的LSTM和DFCNN，網路結構越來越複雜，越來越能對語音的特性進行建模，相應的效果也越來越好

其實語音識別在發音規範，背景噪音可控的情況下，很早之前就已經可以勉強實用了。但是每個人發音以及用詞習慣都存在差異性，所以如何使得語音識別更加智能化也是一個問題。受制於複雜環境，像自然對話、口音、雜訊大的環境，識別率會明顯下降。而且語音的訓練和測試用的數據很難匹配，使用新聞聯播測試的語音模型，對於人們的日常對話就很難識別了。

看到答案想起以前有段時間沉迷和Siri聊天，那會它真的相當蠢萌，答非所問也就算了，說的最多的就是「我好像不明白……」

要提高語音識別準確率，光語音方面努力不夠，必須得加上語義處理，結合起來才有用，要不光聽的清楚理解不了也不行呀......

現在國內語音識別技術做的最好的是科大訊飛，已經達到98%，前兩天試了一下，功能確實很強大，竟然還有各省的方言識別。同時百度的語音識別技術也是非常強悍的，起一段時間剛和高通達成戰略合作，據說以後曉龍系列晶元將內置百度的語音識別技術（當天科大訊飛股價大跌QAQ）。

沒人提訊飛？摔