目前姿態估計（pose estimation）有哪些主流方法？

03-23

目前姿態估計（pose estimation）有哪些主流方法？比如linemod，點雲，機器學習等實現手段。有大神能幫忙梳理一下嘛？

二維圖像姿態估計基於cnn的單人姿態估計方法

2014 deep pose 直接回歸關節的坐標

2015 flow convnet 回歸heatmap，間接得到坐標

2016 很多方法了 CPM，hourglass，以及一票改結構的方法

2017 依舊改結構，感覺很無趣，xiaogang組的wei wang和xiao chu基於hourglass改的一個網路目前是第一，91.5%

總體感覺，單人姿態估計領域被cnn佔領的差不多啦，cpm這個模型的魯棒性相當好，遮擋很多都能推斷出來，真的讓人很震驚。

---------------------分割線-----------------

基於cnn的多人姿態估計方法

多人估計方法一般分為兩大類，即自頂向下和自底向上，其中自頂向下是指先把人框出來，然後再用單人的方法去定位人的關節，而自底向上的方法是先把所有關節位置弄出來，然後再區分關節屬於誰。

2016 mpii的deep cut和deeper cut

2017 part affine field方法，cmu的，效果很贊。目前開源的就是這個方法，openpose。

-----------------------------------------

說說目前姿態估計的面臨的一些問題

(1)遮擋問題，這個問題恐怕是最難的，也是必須要解決的

(2)速度過慢，當前的所有方法，都是需要像titanx才能做到准實時的，15fps，說白了，距離實用還是有一段距離，不過不遠了。

(3)僅僅有二維的姿態是不夠的，目前也有這一類的研究，關於直接從2d到3d的姿態進行直接估計。這一點才是未來的趨勢。

有空再更。

此外還可以看我的另外一個回答關於姿態估計的

張曉：如何評價卡內基梅隆大學的開源項目openpose？

blog.csdn.net/xizero00

【姿態估計】(qq群號650059258)

一、2D Pose estimation：

1. open-Pose：&（CVPR 2017 Oral, CMU）

性能：COCO: 61% MPII:75%

2. G-RMI & (CVPR 2017 Google)

性能：COCO: 67%

3. Associative Embedding & (rejected by ICCV2017 , UMICH Jia Deng)

性能： COCO :66% MPII: 77%

4. & ( ICCV 2017, UCLA)

性能：PASCAL-Person-Part: 62.8%

5. & (ICCV 2017, Facebook，Kaiming He）

性能：COCO: 63%

6. &<RMPE: Regional Multi-Person Pose Estimation&> (ICCV 2017 , SJTU ,Tencent Youtu)

性能：COCO : 61.8% MPII: 76%

二、3D Pose and Shape estimation

7. SMPLify: 3D Human Pose and Shape from a Single Image (ECCV 2016)

8. A simple baseline for 3d human pose estimation in tensorflow. To be presented at ICCV 17.

9. Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose (CVPR), 2017

其中：

1. Bottom-up approach：先檢測joints 和 limbs，然後將他們group成一個人。代表文章&<1&> &<4&> 。

優點：整個圖像只需要處理一遍，速度不隨人數增加而變化；

2. Top-Down approach：先檢測單個人，再針對單個人做single-person pose estimation。代表文章 &<2&> &<3&> &<5&>

優點：思路直觀，自然，被絕大部分人所青睞，且單人估計精度非常高。

參考文獻：

AI Challenger-人體骨骼關鍵點檢測 Human Pose Estimation

openpose目前state of the art

路過，多目標3D人體姿態估計一篇很有意思的文章DensePose (CVPR18 oral)。還沒讀過但demo很驚艷

Densepose project page?

densepose.org

另外物體的3D姿態估計的state of the art:

BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses of Challenging Objects without Using Depth

BB8 project page?

www.tugraz.at

人體姿態估計綜述（Human Pose Estimation Overview）

額，為啥都是人體的pose estimation，物體的呢

arxiv compositional human pose regression， deep learning