如何看待《The Landscape of Deep Learning Algorithms》？

01-16

这篇论文通过证明uniform convergence of the landscape of empirical risk of deep learning, 假设是不是足够合理？是不是成功讨论了为什么SGD在deep learning中work的比较好？相比于之前的uniform convergence of the landscape有没有创新？和Deep learning without poor local minima相比呢？

这篇和SGD毫无关系，主要证明empirical quantity（对样本求和）和population quantity（对样本的分布取期望）之间的关系，在样本足够多的时候，empirical quantity应该能收敛到population quantity。这样的结论肯定在意料之中，至于需要多少数量级的样本，收敛的速度是多少，各个量loss, gradient, hessian各有什么不同，这就是文章要解决的问题。

这篇和uniform convergence of the landscape有可比性，更进一步证明多层网络的empirical quantity同样收敛到population quantity，之前的只证了单层非凸loss的情况。更细的比较就需要看各自的样本复杂度有多少了。

Deep learning without poor local minima这篇是讨论critical point的结构的（比如说所有局部极小就是全局极小），对样本分布未作假设，在多层线性网络上直接可以证明所有局部极小就是全局极小。对多层非线性网络也可以证明相似的结论，但是对网络中间层输出有独立性假设（当然我觉得这个假设实在太强）。所以是另一个方面的问题。

吐几个槽：

1. 用的是很standard的证明方法，novelty不是很高，而且很大程度上借鉴了这篇:

[1607.06534] The Landscape of Empirical Risk for Non-convex Losses

看正文页数是投了nips。祝好运

2.sample complexity 分子上有根号 d，基本说明了这个paper impact会很低。大家都知道deep learning里dimension &> sample数。他们的理论分析并没有挖掘deep learning的intrinsic structure。当然这个问题本身很难啦。

3.明明研究的empirical risk偏偏标题把empirical这个词去掉让人以为是研究几何的=。=大概作者觉得这样看的人多一点。毕竟搞deep leaning嘛，标题总要吹吹水。