學界 | 從剪枝法到低秩分解，手機端語言模型的神經網路壓縮

07-07

日前，機器之心介紹了一種壓縮手機端計算機視覺模型的方法。在這篇文章中，我們介紹了一篇論文，介紹和對比了手機端語言模型的神經網路壓縮方法。

神經網路模型需要大量的磁碟與存儲空間，也需要大量的時間進行推理，特別是對部署到手機這樣的設備上的模型而言。

在目前的研究中，業內已有多種方法解決該難題。部分是基於稀疏計算，也包括剪枝或其他更高級的方法。總而言之，在將模型存儲到磁碟時，這樣的方法能夠大大降低訓練網路的大小。

但是，當用模型進行推理時，還存在其他問題。這些問題是由稀疏計算的高計算時間造成的。有一種解決方式是使用神經網路中不同的基於矩陣的方法。因此，Lu,Z等人2016年ICASSP的論文提出基於使用Toeplitz-like結構化矩陣的方法。此外還有其他的矩陣分解技術：低秩分解、TT分解（張量訓練分解）。YoshuaBengio等人2016年ICML論文提出的uRNN（UnitaryEvolutionRecurrentNeuralNetworks）也是一種新型RNN。

在這篇論文中，來自俄羅斯三星研發機構、俄羅斯高等經濟研究大學的研究人員對上述的研究方法進行了分析。首先，他們對語言模型方法進行了概述，然後介紹了不同類型的壓縮方法。這些方法包括剪枝、量化這樣的簡單方法，也包括基於不同的矩陣分解方法的神經網路壓縮。更多論文細節如下，具體信息可點論文鏈接查看。

論文：NeuralNetworksCompressionforLanguageModeling

論文鏈接：https://arxiv.org/abs/1708.05963

摘要：在本論文中，我們考慮了多種壓縮技術，對基於RNN的語言模型進行壓縮。我們知道，傳統的RNN（例如基於LSTM的語言模型），要麼具有很高的空間複雜度，要麼需要大量的推理時間。對手機應用而言，這一問題非常關鍵，在手機中與遠程伺服器持續互動很不合適。通過使用PennTreebank(PTB）數據集，我們對比了LSTM模型在剪枝、量化、低秩分解、張量訓練分解之後的模型大小與對快速推斷的適應性。

3. 壓縮方法統計

3.1剪枝與量化

圖1：剪枝前後的權重分布

3.2低秩分解

3.3TT分解法（張量訓練分解）

4.結果

表1：在PTB數據集上的剪枝和量化結果

表2：在PTB數據集上的矩陣分解結果

5.結論

在此論文中，我們考慮語言模型神經網路壓縮的多種方法。文章第一部分介紹剪枝與量化方法，結果顯示這兩種技術應用於語言模型壓縮時毫無差別。文章第二部分介紹矩陣分解方法，我們演示了在設備上實現模型時，這些方法的優勢。移動設備任務對模型大小與結構都有嚴格的限制。從這個角度來看，LRLSTM650-650模型有更好的特性。它比PTB數據集上的最小基準還要小，且其質量可與PTB上的中型模型媲美。