Why vedio-based person re-id?

Why vedio-based person re-id?

1 人贊了文章

"孔乙己是站著喝酒而穿長衫的唯一的人。他身材很高大;青白臉色,皺紋間時常夾些傷痕;一部亂蓬蓬的花白的鬍子。穿的雖然是長衫,可是又臟又破,似乎十多年沒有補,也沒有洗。"[0]

圖1 小明的路線圖,被攝像頭A和B同時拍到,不過A拍到的是小明的背影,B拍到的是小明的正面,小明在從A到B的路上走的過程中,走到一半感覺很熱,把帽子給摘了

首先我們先來解釋一下行人重識別(person re-id)這個任務,這個任務就是在不同的信息採集設備採集的多個行人影像之間確定某些行人影像是否屬於同一個人,此處的信息採集設備大多是監控場景下的攝像設備。通俗來說就是,現在有幾個攝像頭在一段時間內都拍到了一個人,我們要設計一種演算法來識別這幾個攝像頭拍到的是不是同一個人

那這種任務在現實中又沒有什麼實際應用價值呢?舉個最常見的例子,比如現在一條道路上有兩個攝像頭,攝像頭A, 攝像頭B,現在有一個行人就叫小明吧,小明剛好路過了這條道路,又恰好被兩個攝像頭給拍下了,如果小明沒有在攝像頭的視野中進行隨地大小便等等違法亂紀的行為的話,那這兩段視頻(攝像頭A和攝像頭B)本身是沒有太大用處的,只是現在茫茫數據海洋里的兩滴水而已。好了,現在我們想像一下,如果我們能夠設計一種演算法,能夠自動識別出出現在攝像頭A和攝像頭B中的小明是同一個人,那這兩段視頻就有一定的意義了,至少我們能將小明這個人的行動路線,行動方向大概識別出來。那這樣的信息在現實中的應用就很廣了,最簡單的例子,比如現在小明剛搶完銀行,那我們完全就可以根據他在不同攝像頭中的出現時間點,分析他的逃跑路線,再比如小明是個智障兒童,出來瞎走走丟了,那我們也可以根據不同攝像頭中的出現時間點定位他最可能出現的位置,還有一個很重要的一點就是如果攝像頭足夠多的話,這些數據可以用於分析每個人的生活習慣,比如小明每天就喜歡三點一線,比如小明每個周三都會去KFC吃早餐,每個周二都會去永和大王等等。。。當然這一些都是基於能夠自動識別出現在不同攝像頭中的某一個人像是否是同一個人這一演算法的基礎上的,而這一演算法就是行人重識別

圖2 引自[1]

現在道路上的攝像頭數量與日俱增,這樣的任務如果要進行人工排查,顯然要耗費大量的人力物力,所以要實現這一任務的自動化。但這樣的任務要自動化的話有很多的難處。就比如圖1中,小明在從攝像頭A走向攝像頭B的過程中,攝像頭A拍到的是他的背面,攝像頭B拍的是他的正面,一個看到後腦勺,一個看到臉(攝像頭角度不同);還有本來小明戴著帽子, 快走到B的時候摘掉了(外形著裝變化),類似的困難還有很多,比如光照變化,背景變化,人物遮擋,如圖2。有困難就要解決它嘛,好的論文都是用來解決困難的嘛(爛論文增加困難),於是衍生出了一系列的行人再識別方面的研究。

數據畢竟是機器學習的石油,所以我們先看數據,現在person re-id的主流資料庫有以下幾種,基於靜態圖像(攝像頭採集的行人照片)的主要有QMUL iLIDS,Market-1501等等,基於視頻(攝像頭採集的行人視頻段落)的主要有MARS,DukeMTMC等等。具體的行人重識別的資料庫介紹在這個地址里介紹的很全(我們是輪子的搬運工)。

圖3 DukeMTMC-reID的檢索demo[2]

現在person reid的主流的工作還是基於靜態圖片,而具體解決問題的思路也是大同小異,主要的思想都是將reid問題轉化為一個最相似圖像檢索的問題,也就是在訓練的時候利用所有訓練集數據進行訓練,努力使模型的不同行人圖片的類間距離增大,同一行人圖片的類內距離減小。然後進行reference的時候,努力檢索出與query最相似的圖像,我們將最相似的圖像的行人label作為此query的結果輸出, 如[3,4]。

而既然問題轉化為檢索問題,那麼特徵的構建就顯得尤為重要,從傳統人的思維來看待這個問題的話,人們更多的會從照片中行人的服飾,身材,髮型等等因素來判定行人的身份,正如文章開頭的那一段眾人皆知的描述孔乙己的話[0],通過一個人的身材,穿著等等,我們可以很方便地定位一個人的身份,所以現在研究人員在用深度學習構建person re-id的模型的時候,在對深度特徵進行組合的時候,也開始考慮到這些具有強判別性的因素的影像,在設計特徵描述子的時候開始利用attention的思維,嘗試讓模型將更多的重心放到這些因素上,如[5]。

以上就是目前person reid問題的主要解決思路,面向靜態圖片,通過強化特徵的區分度,提高檢索器的精度,努力讓同一行人的圖片類內距離越小,不同行人的圖片類間距離越大

但我們未來要討論的不是面向靜態圖片的person re-id,而將會是面向vedio的person re-id,兩者之間主要有以下區別:

  1. 行人的視頻相較於行人的靜態圖片蘊含更多信息,比如行人行走的姿態,動作,這些時序信息都不會在靜態圖片中得到體現。
  2. 基於視頻的行人再識別更符合現實場景的應用,因為真正的現實場景中的原始數據都是視頻,很少會有刻意單獨選出幾幀單獨進行行人再識別的情況。

圖4 黑衣小哥在這段視頻中就被黃衣女子擋住了

當然,信息越多,屁事肯定越多,相較於基於靜態圖片的person reid,基於vedio的研究困難主要有以下幾點:

  1. 視頻噪音相較於靜態圖片數據普遍噪音更大,比如很容易出現一段視頻中,檢測目標會被障礙物或其他行人遮擋,如圖4。
  2. 視頻若逐幀處理計算代價很大。
  3. 視頻特徵在普通分類器上更容易過擬合。

所以在未來的博客中,我們會逐漸跟進這一方面的研究,介紹一下相關的一些方法,如果我突然有一天遇到了幸運蘋果,我也會及時把自己的成果公布在這兒。

堅持吧,堅持就是勝利!

ref:

[0] 魯迅. 孔乙己[J]. 新青年,1919-4: 第六卷第四號

[1] Wang T, Gong S, Zhu X, et al. Person Re-Identification by Discriminative Selection in Video Ranking[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 38(12):2501-2514.

[2] Gou M, Karanam S, Liu W, et al. DukeMTMC4ReID: A Large-Scale Multi-camera Person Re-identification Dataset[C]// Computer Vision and Pattern Recognition Workshops. IEEE, 2017:1425-1434.

[3] Ding S, Lin L, Wang G, et al. Deep feature learning with relative distance comparison for person re-identification[J]. Pattern Recognition, 2015, 48(10):2993-3003.

[4] Zheng Z, Zheng L, Yang Y. A Discriminatively Learned CNN Embedding for Person Re-identification[J]. Acm Transactions on Multimedia Computing Communications & Applications, 2017, 14(1).

[5] Wei L, Zhang S, Yao H, et al. GLAD: Global-Local-Alignment Descriptor for Pedestrian Retrieval[J]. 2017.


推薦閱讀:

A Discriminatively Learned CNN Embedding for Person Re-identification
行人再識別-Attention
行人reid-局部特徵
Person Re-Identification:論文筆記3
Video-based Person ReID的時序建模

TAG:行人重識別 | 機器學習 | 計算機視覺 |