Neural ODE：連續層的可變深度的神經網路，將殘差網路變為微分方程

07-02

來自專欄技術備忘錄

去年我寫的一個idea，殘差網路可以連續化變成微分方程：

PENG Bo：通往無限層神經網路 (2)：一個富迭代性的微分方程，與幾個小實驗?

zhuanlan.zhihu.com

現在總算有人做了：

https://arxiv.org/pdf/1806.07366.pdf?

arxiv.org

個人的看法是，還是用這個思路來做卷積網路吧。例如，直觀的辦法：

最近還有一篇文章，認為神經網路就是多項式：

https://arxiv.org/pdf/1806.06850.pdf?

arxiv.org

這個其實在 Why does deep and cheap learning work so well? 已經說過了，適合 toy model + toy data。

這些都可以結合，例如flow就是在identity附近做微擾展開，就是多項式級數。

目前這些替代模型的主要問題都是執行速度慢，不實用。我現在認為，我們應該找與完全不同的硬體架構結合更緊密的方法，才能實現真正超越深度網路。這個下次繼續說。

從前還在知乎寫過一個每個神經元用不同的學習速率而且有大致的公式，閑的同學可以去試一試在具體訓練的做法，例如先把學習速率在不同層有weight（也許還可以自動學會這個weight，因為也可以變成可訓練的參數）。現在的整個網路用單個學習速率的做法必定是有改善空間的。