Neural ODE:連續層的可變深度的神經網路,將殘差網路變為微分方程

Neural ODE:連續層的可變深度的神經網路,將殘差網路變為微分方程

來自專欄技術備忘錄

去年我寫的一個idea,殘差網路可以連續化變成微分方程:

PENG Bo:通往無限層神經網路 (2):一個富迭代性的微分方程,與幾個小實驗?

zhuanlan.zhihu.com圖標

現在總算有人做了:

https://arxiv.org/pdf/1806.07366.pdf?

arxiv.org

個人的看法是,還是用這個思路來做卷積網路吧。例如,直觀的辦法:

  • 構建出flow,把圖像中的物體流到canonical的姿態上(canonical的位置,大小,角度,各個部位在canonical的位置,大小,角度)。
  • 或者(或者與此同時),像傳統網路一樣,把激活的區域流到與特徵相關的位置上。
  • 然後根據flow的方法和flow後的結果做事情。這個的優點是容易讓人類理解。

有興趣做的同學可以留個言。

最近還有一篇文章,認為神經網路就是多項式:

https://arxiv.org/pdf/1806.06850.pdf?

arxiv.org

這個其實在 Why does deep and cheap learning work so well? 已經說過了,適合 toy model + toy data。

這些都可以結合,例如flow就是在identity附近做微擾展開,就是多項式級數。

目前這些替代模型的主要問題都是執行速度慢,不實用。我現在認為,我們應該找與完全不同的硬體架構結合更緊密的方法,才能實現真正超越深度網路。這個下次繼續說。

從前還在知乎寫過一個每個神經元用不同的學習速率而且有大致的公式,閑的同學可以去試一試在具體訓練的做法,例如先把學習速率在不同層有weight(也許還可以自動學會這個weight,因為也可以變成可訓練的參數)。現在的整個網路用單個學習速率的做法必定是有改善空間的。


推薦閱讀:

有限元演算法,無論四面體單元還是六面體單元,如果單元數量無窮多,結果是否都收斂於一個值?
完整學習測度論、實分析、隨機微分方程需要多久時間?
一階線性齊次微分方程中的齊次的含義?
偏微分方程解的存在唯一性?
通過亥姆霍茲方程是如何推導出球面波表達式的?

TAG:深度學習DeepLearning | 神經網路 | 微分方程 |