第一屆Deep Learning for Visual SLAM Workshop觀感: 後四講

07-20

來自專欄探討深度學習在SLAM中的應用25 人贊了文章

書接上回，我們這一篇介紹1st International Workshop of Deep Learning for Visual SLAM的前三講。這一篇介紹後續的四講內容。

Matthias Niessner

Niessner教授（個人主頁http://www.niessnerlab.org/）目前在TUM任職，早年以利用CUDA技術改進KinectFusion[1]一舉成名。目前在很多領域都有研究成果，不過最出名的還是他在三維重建方面的貢獻，比如BundleFusion[2]ScanNet[3]。Niessner大佬這次演講的主題是三維數據的演變：從三維幾何到語義信息，再到圖像與三維信息的結合。他介紹了他們實驗室開放的數個開源數據集，包括ScanNet的兩個版本以及和Matterport合作發布的Matterport3D，都在幾何信息的基礎上由專人標註了語義信息。他們組最新的論文3DMV[4]通過結合圖像與三維幾何這兩類互補的信息來提高三維物體識別和分割的精度。這種融合多類信息的學習方式也是不錯的研究方向。不過他們組到目前還只在用Voxel這種表示方法，不知道將來會不會嘗試別的三維表示方式。

Katerina Frakiadaki

Fragkiadaki教授（個人主頁https://www.cs.cmu.edu/~katef/）任職於CMU。她師承UPenn的Jianbo Shi大牛，在往上數就是Malik大佬了，是一個比較年輕的教授。她講的主題是SLAM與物體識別相互輔助（Objects-aware SLAM and SLAM-aware Object Recognition）。首先深度學習可以幫助解決SLAM中的如下問題：1. 物體尺寸上的二義性；2. 動態物體；3. 重建不可見的內容。而相應的SLAM可以為深度學習提供幾何信息輔助物體識別。她舉得例子中一個是典型的利用Photometric Loss無監督恢復深度與相機運動的工作。在這個基礎上加入了物體識別和物體姿態估計。另一個則是用RGB圖象序列恢復三維信息的工作。她們實驗室感覺是GAN的死忠粉，瘋狂的在各種問題加入GAN。由於講的時候還呼籲大家不要斃掉她提的這些還未發表的工作，整體觀感比較差。不過核心理念是沒錯的，利用物體識別解決動態物體和不確定的場景比例，同時在物體識別中引入位置信息提高準確率。

Noah Snavely

Snavely大神（個人主頁http://www.cs.cornell.edu/~snavely/）也無須多介紹，只要知道Photo tourism和Building rome in a day這兩篇利用互聯網海量圖片做SfM的工作，就會知道他的影響力。他講的主題是如何利用互聯網視頻進行無監督的深度和相機姿態學習，算是在Zhou et. al. [5] 的基礎上再繼續深挖無監督視頻學習的潛力。Zhou et. al. [6] 這一篇採用Youtube視頻作為訓練集來訓練一個能夠增幅相機間距離（Stereo Magnification）的網路。訓練時取連續兩幀（窄基線）作為輸入，而網路生成的則是以多個平面（例如前景，背景）表示的圖像。採用多平面表示方法能夠很方便地合成出寬基線的圖片。這也是這篇論文的主要創新點。除了開發不同的圖像表示方法，從視頻中學習更多信息外，Noah還介紹了他們的新單目深度估計數據集MegaDepth[7]。MegaDepth包含了196個知名景點的網路數據，採用SfM+MVS以及一些depth outlier剔除方法生成，很可能會成為將來單目深度估計的標準數據集。

雖然Noah Snavely大神的工作多是SfM方面的，但是對於SLAM來說還是有很多值得借鑒的地方。總而言之，一方面是通過視頻進行無監督學習，另一方面則是用單目深度估計來做稠密的場景重建。

Vladlen Koltun

Vladlen Koltun是Intel Intelligent System Lab的director，個人主頁（http://vladlen.info/）。他這次講的主題比較哲學，探討的是機器人導航是否需要完整且精確的SLAM結果。在引用了一些哲人名言以及神經學論文後，他給出的結論是動物（包括人類）在做導航時大多數時候並不需要建立完整的場景信息，而一些局部信息加上一些稀疏的導航點（waypoints）就夠了。在[8] 這篇論文中，他們在毀滅公爵第一代（Doom）上進行訓練，通過深度網路同時構建場景信息並完成導航。這個深度網路包括特徵提取（傳統CNN圖像處理）和記憶圖兩個部分。CNN網路讀取圖片得到記憶圖中的節點，然後學習記憶圖中邊的權重從而得到尋路的路徑。雖然這篇論文訓練的場景相對簡單，但是結果還是很有說服力的。Vladlen Koltun很喜歡用合成數據（Synthetic Data）來做機器人導航和SLAM，他的另一篇工作MINOS[9]中就結合了合成數據集SUNCG和真實數據集Matterport3D搞了一套機器人導航的框架。

總結

第一屆Deep Learning for Visual SLAM Workshop總得來說還是乾貨滿滿的。可以預見在將來深度學習和SLAM結合的案例會越來越多，希望大家能在這個方向里找到自己的研究方向。最後祝大家和SLAM玩得愉快！

Reference

[1] Nie?ner, Matthias, et al. "Real-time 3D reconstruction at scale using voxel hashing." ACM Transactions on Graphics (ToG) 32.6 (2013): 169.

[2] Dai, Angela, et al. "Bundlefusion: Real-time globally consistent 3d reconstruction using on-the-fly surface reintegration." ACM Transactions on Graphics (TOG) 36.3 (2017): 24.

[3] Dai, Angela, et al. "Scannet: Richly-annotated 3d reconstructions of indoor scenes." Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). Vol. 1. 2017.

[4] Dai, Angela, and Matthias Nie?ner. "3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation." arXiv preprint arXiv:1803.10409 (2018).

[5] Zhou, Tinghui, et al. "Unsupervised learning of depth and ego-motion from video." CVPR. Vol. 2. No. 6. 2017.

[6] Zhou, Tinghui, et al. "Stereo Magnification: Learning view synthesis using multiplane images." arXiv preprint arXiv:1805.09817 (2018).

[7] Li, Zhengqi, and Noah Snavely. "MegaDepth: Learning Single-View Depth Prediction from Internet Photos." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

[8] Savinov, Nikolay, Alexey Dosovitskiy, and Vladlen Koltun. "Semi-parametric topological memory for navigation." arXiv preprint arXiv:1803.00653 (2018).