如何看待《The Landscape of Deep Learning Algorithms》?

这篇论文通过证明uniform convergence of the landscape of empirical risk of deep learning, 假设是不是足够合理?是不是成功讨论了为什么SGD在deep learning中work的比较好?相比于之前的uniform convergence of the landscape有没有创新?和Deep learning without poor local minima相比呢?


这篇和SGD毫无关系,主要证明empirical quantity(对样本求和)和population quantity(对样本的分布取期望)之间的关系,在样本足够多的时候,empirical quantity应该能收敛到population quantity。这样的结论肯定在意料之中,至于需要多少数量级的样本,收敛的速度是多少,各个量loss, gradient, hessian各有什么不同,这就是文章要解决的问题。

这篇和uniform convergence of the landscape有可比性,更进一步证明多层网络的empirical quantity同样收敛到population quantity,之前的只证了单层非凸loss的情况。更细的比较就需要看各自的样本复杂度有多少了。

Deep learning without poor local minima这篇是讨论critical point的结构的(比如说所有局部极小就是全局极小),对样本分布未作假设,在多层线性网络上直接可以证明所有局部极小就是全局极小。对多层非线性网络也可以证明相似的结论,但是对网络中间层输出有独立性假设(当然我觉得这个假设实在太强)。所以是另一个方面的问题。


吐几个槽:

1. 用的是很standard的证明方法,novelty不是很高,而且很大程度上借鉴了这篇:

[1607.06534] The Landscape of Empirical Risk for Non-convex Losses

看正文页数是投了nips。祝好运

2.sample complexity 分子上有根号 d,基本说明了这个paper impact会很低。大家都知道deep learning里dimension &> sample数。他们的理论分析并没有挖掘deep learning的intrinsic structure。当然这个问题本身很难啦。

3.明明研究的empirical risk偏偏标题把empirical这个词去掉让人以为是研究几何的=。=大概作者觉得这样看的人多一点。毕竟搞deep leaning嘛,标题总要吹吹水。


推薦閱讀:

如何理解卷積神經網路中的卷積?
能否利用神經網路對低質量音頻進行優化?
如何理解 AlphaGo 2.0 所用的殘差網路?它是怎樣一種神經網路?有哪些優點缺點?
神經翻譯?
哪位高手能解釋一下卷積神經網路的卷積核?

TAG:机器学习 | 神经网络 | 统计学习 | 深度学习DeepLearning |