Beyond Correlation Filters:Learning Continuous Convolution Operators for Visual Tracking
背景介紹
Martin大神想必做跟蹤這塊無人不知,無人不曉吧,近幾年一直出比較高質量的東西,這篇C-COT也是VOT2016的冠軍,但是鑒於文章有多處公式複雜,沒有仔細推導(原因是推導不不動~~~~),也不敢說完全理解,只是講了一下自己對這篇文章的看法和一些理解,希望不要誤人子弟,有錯誤的地方希望大傢伙幫忙指正,有任何不同的理解也歡迎溝通交流。
簡介
本篇文章是對相關濾波所做的一個改進,大神在研究之後發現,原始的CFs跟蹤演算法只使用一種解析度的特徵對目標進行跟蹤,這樣會導致一部分的 信息丟失,也給跟蹤器的提升帶來限制。所以,作者提出了一種新的形式,使用連續的卷積濾波器。使用內插值法把學習問題映射到多個連續的解析度域上面。同時在標準數據集上測試了實驗結果,效果很好,在VOT2016上也證明了確實是現有演算法中最好的一個。
核心思想

如圖一所示,簡單明了的表達了本篇文章的核心意思,在每一幀到來的時候,把所需圖片輸入到已經訓練好的網路中,從中間抽取出我們需要的層的特徵,(對應本文的意思就是,不同的卷積層得到的feature map 的解析度大小是不一樣的,高層特徵解析度比較小,低層特徵解析度比較高,這樣能夠和本文使用連續不同的解析度對圖片進行跟蹤結合起來。)然後使用從不同層訓練得到的濾波模版進行運算,得到不同的置信圖,對所有的置信圖進行加權求和得到最終的置信圖,然後和以前的方法一樣,找到置信圖中最大值所在的位置即為我們要跟蹤的目標所在的位置。
在相關工作中介紹的時候,作者有提過這麼一段

本文方法
本文主要的貢獻是提出一個使用連續空間域的卷積操作的理論框架。我們的方法有兩個主要的優點比著其他的相關濾波器跟蹤演算法。第一,可以自然地融合不同解析度的特徵圖,像融合卷積特徵或者多解析度的HOG特徵、顏色特徵等。可以用在跟蹤、檢測和行為識別方面。第二,連續的規劃能夠精確的進行次像素定位(sub-pixel localization),對於很多特徵點的跟蹤問題來說是很重要的。文中公式實在是太多,一個一個的我都整迷糊了,接下來挑幾個重點的說一下,

公式(2),大牛@和傻牛一起闖天下說很重要,我必須得放上來講解一下了。這個公式就是為了把學習問題放到連續空間域。對訓練樣本使用隱式內插模型。經過公式(2)轉換之後,就把學習問題放到了連續空間域上。
公式(4)就是所使用的優化函數,最小化這個函數,對濾波器進行訓練得到我們的濾波器。

Sf是由公式(3)得到的

Yj代表的是數據標籤。「+」後邊的一項是懲罰項,為了防止過擬合而設置的。
訓練過程中的公式(5)就是由公式(3)得到的,

直接把3.3中的定義帶進公式,轉換到傅里葉域就是這個,相對應的公式(6)也是對最小化損失函數公式(4)所做的轉換,為了是能夠加速訓練

對標籤y的定義

拓展到高維

作者在文章當中有說明,空間拓展到二維空間,復指數使用二維的,期望輸出也使用二維的高斯函數等等。
跟蹤框架
這部分想要說明的一點就是樣本的選取過程,作者選取樣本的方式和以前使用輪轉矩陣的方式不一樣,這裡使用的是以目標點為中心,在5倍大小的區域內以α為權重,選擇樣本,樣本容量設置為400,損失率設置為0.0075,所有的權重和為1.權重計算公式如下:

實驗效果

OTB-2015測試結果




Feature Point Tracking

總結
最後,作者提出兩個未來的研究方向。1、未使用任何的視頻數據去訓練一個特定的深度特徵代表,這個可以作為未來一個提升的方向。2、另一個研究方向就是融合基因運動的深度特徵到我們的框架當中。
推薦閱讀:
