視覺 AI 到底發展到了什麼地步？

01-28

編輯｜陳思
AI前線出品｜ ID：ai-front

隨著 AI 的發展，計算機視覺技術逐漸擁有了更廣泛的應用，人臉識別，物體檢測等等技術更是在安防、無人車等領域起著至關重要的作用。來自騰訊優圖實驗室的傑出科學家賈佳亞先生在 2017 年 6 月 21 日中國深圳「雲 + 未來」峰會上發表了關於 AI 視覺技術的演講，為聽眾展示了優圖實驗室先進的AI視覺系統。

以下為演講內容

AI 這個詞從進入大家的視野到變得巷聞皆知才用了兩年時間，所以 AI 在這個時間發展過程中有點像突然發現的東西，用什麼來比喻它？我會用哈利波特的隱形斗篷來比喻它，這個隱星斗篷就是當你穿上它的時候，你會發現空無一人，但是你把隱形斗篷取下來，你發現原來裡面躲了一個龐然大物。

其實 AI 視覺技術就是這樣一個過程，AI 的發展從最開始到現在經歷了幾十年的發展，所以到今天這個規模絕對不是一朝一夕能夠形成的。所以我從隱性斗篷的例子來從頭看看到底怎麼理解 AI 技術。

我們在很多的小說、電影、科幻讀物里都有很多擬人化的機器人或者產物，其中有四個最重要的功能，第一是看，第二是聽，第三是說，第四是動。當然不是所有東西都會動，但如果這是一個超級的智能產物一定會控制其他東西在動，自己不用動。當我今天想跟大家介紹 AI 的時候，我會專註在一個方向上，那就是看。為什麼我們要去講看這件事？我覺得還要從自然智能理解起。

自然智能不是 AI 智能的對立面，但是卻是反方面的詞。人工智慧是人創造的，自然智能是從遠古時代演化到現在的，我們從自然智能里學到很多東西，比如說看到自然智能的時候，我會想，我們有非常多的視網膜神經細胞，有柱狀和椎裝細胞但是我們有超過 40 億以上的神經元會處理我們的視覺信息，相比之下，我們的觸覺和聽覺可能只有 8% 和 3% 的比例，這說明什麼？說明我們這個世界太複雜了，當我們從第一天人類開始去理解這個世界的時候，我們就有足夠多的神經元或者處理單元去理解這個世界，所以「看」是我們理解這個世界最重要的部分。

我們做到了什麼？

視覺的 AI 可以運用在很多的遊戲裡面，比如說體感遊戲或者是增強現實遊戲，滿大街去找小精靈的遊戲就是重要的體現。除了視覺娛樂之外還有很大用處，比如解決在監控、安防或者需要大量人手去觀察視頻和圖像的分為之內，我們從幾百人減成幾個人，這也是視覺 AI 發揮的作用。

騰訊是一個非常大的社交網路公司，裡面有各種各樣的媒體或者軟體幫大家做交流，比如我有一個好的照片想給大家看看，是不是能夠達到把人年輕十歲的效果呢？這個事情是可以做到了，甚至於如果想把自己變一個性別，從男生變成女生，那也很容易，甚至不用去醫院了。這是在相冊上或者是在手機端產生的變化，除此之外還有兩塊非常大的部分，一個是智能醫療，如何能夠讓一個機器智能讀懂所有醫療的片，比如說 CT 片、MRI 片，這是非常重要的部分。還有自動駕駛，我們能不能輔助駕駛、自動駕駛的功能加入在視覺 AI 裡面。

這些 AI 的技術代表在這個領域飛速發展的進程，但是與此同時，在不同的途徑、不同的視頻或者不同的專家給大家介紹各種方法的時候會說，我們的技術已經做到多麼強、多麼好，我在這裡更希望通過科學家的角度跟大家介紹，我們的視覺 AI 角度到底發展到什麼地步。

首先可以超過 1000 個類別的上億張圖像的分類理解。

當我有一張圖像的時候，人和機器都可以告訴你這張圖像是什麼，這是一頭牛還是一朵花，有的時候你可以想像機器甚至做得比人更出色，我三歲的女兒經常跟我說，爸爸，我看到那邊有非常漂亮的蝴蝶。我就糾正她，寶貝，那不是蝴蝶，那是蛾子。但是我的寶貝說，這個蛾子比蝴蝶還漂亮，肯定是蝴蝶。

說明我們在圖像理解上有一個過程，我需要理解它的含義得到一個結果，但是在機器學習的時候，甚至可以達到比成年人更高的境界，我們可以細分到山丘、山陵的區別，而超越人的理解。科學家已經不滿足於這個問題，這個問題被認為已經在這個領域解決，下一個要解決的是檢測問題。當我們有一張圖，我希望不但知道這個圖的整體表達是什麼，還要知道這個圖裡哪個地方是車，哪個地方是路面，哪個地方是人，這是檢測過程。由於現在有強大的計算資源和計算能力，我們可以超過五億個品種的檢測，這是視覺 AI 的另外一個可以達到的目標。

除此之外，科學家們想，當我們能檢測到一些物體的時候，能不能把細緻度做得更深？比如說顆粒度更深的每個像素、每個點，我是不是能知道這個點是屬於馬路的，屬於人還是屬於車的，這是遠遠超越於之前問題的更加進一步的推廣問題。所以我們管它叫做語義分割，現在可以超過總數四千億像素級別的多圖圖像分割，這是這幾年整個領域產生的巨大推進作用和研究成果，能夠達到的效果。除此之外更加熟悉的是對人臉的匹配查詢，可以超過一億張人臉匹配查詢，找到你想要的人，你問問自己，能不能認識一億個人？認識一百個人，我就很開心了，這在電腦上是遠遠超越了人。

在之前五到十年的時候，我在學校的團隊還會做一些有意思的研究：我們當時想，如果看到這樣一張模糊的圖片你會做什麼事情？你看到一張模糊圖像會做什麼事情？可能大家要做的就是把它刪除，為什麼？因為這張圖片模糊了，已經沒有用了，但是對我們科學家而言，是非常珍貴的資源，因為通過這張圖像我們發掘出一些人類看不到的東西。

為大家舉一個有趣的例子，比如在這張圖像里，我們是在一個高速行進的車上，周圍的環境是容易被模糊的，當我們理解環境的時候你發現，車牌或者路標已經被模糊掉，在這張圖上，在這個圖標上看著公路的信息，但是左邊小的是什麼東西？左邊路牌上的數字是什麼東西呢？之前大學裡的團隊經過五到十年的研究，把這些信息充分理解出來，最後通過我們的技術手段，能夠看到最後這是在美國 101 公路上的場景，我們可以超越人類的圖像模糊。

還有一個東西，我們希望十年之後出現傢具機器人，什麼叫傢具機器人？就是你希望他能幫你洗衣服、洗碗、做飯，甚至帶孩子，但是要達到這個智能機器人，怎麼樣才能做到這一步？其中重要的就是如何把自然語言和自然圖像結合起來，也就是兩者的充分結合。所以我們在之前有一系列的研究，是當你看到一張圖像的時候，我的人來問一個問題，是什麼放在了這個工作間的檯子上，電腦看到通過你這句話，分析是什麼意思，然後再去尋找在這張圖像上是問了什麼問題，最後把圖像上重要的位置找到之後反饋回來，得到一個結果，這個結果就是船，這就是說這個答案是對的。

這個說明現在電腦可以結合自然語言，我說的話和看到的場景可以結合起來，這是一個非常了不起的進步。正是因為有這個進步，我相信令到傢具機器人的理想在十年之內能夠變為現實。

我們還可以做到什麼？

可能有講座介紹說，幸虧 AI 達到的程度還沒有人那麼高，因為人會創造，AI 不會創造。我想跟大家說，其實這句話是不對的，電腦也會創造，而且創造出來的種類和試樣，很多時候是讓我們驚嘆的，在以往知識庫里是找不到這些模組的，這就是創造的功能，視覺 AI 已經可以實現創造。

比如看這兩幅圖，看在座各位認為右邊這張圖是電腦畫的？真理永遠掌握在少數人手裡，右邊這張圖確實是電腦畫的，電腦用鉛筆畫出了整體輪廓的表達、陰影的表達，達到了非常高的層次，人類需要長期訓練才能畫出，但是我們畫出這張圖只用了 0.1 秒，就是它的創造過程，這是非常有趣的事情。

我大學的團隊在去年為了去理解這個非常複雜的場景，創造了全世界最像素級的分割技術，做場景理解分析。

這個例子可以看到車是一個顏色，因為我識別出來這是車，所以是藍色，旁邊的樹，我識別出是樹，所以標成綠色。我們在去年實現了在大規模場景的多複雜環境下的內容分析，這是去年做的事情。今年我們不滿足這樣一個結果，我說我們還能做什麼？然後我的團隊開始在今年做了另外一件讓大家激動的事情，我們實現了到迄今為止最準確的道路上的像素級語義分割技術，在已知的論文裡面，我們這個技術遠遠高出第二名，直接到每秒 30 偵的運算速度，沒有改變任何的硬體資源，我們加速了一百倍。

AI 視覺技術的社會價值

除了我剛才跟大家講的商業價值或者學術價值之外，我今天還有另外一個內容。我想跟大家講講優圖 AI 所產生的社會價值。有一個優圖跟騰訊的公益部門以及騰訊雲、騰訊互聯網 + 的部門合作，我們開創了一個新的活動，這個活動叫做天眼。

大家有沒有看過這部《親愛的》？講述的就是現在有很多很多的家庭，家裡的孩子被拐賣走失，這些父母組成了一個團體，他們希望通過這個團體找尋自己的孩子，這就是 2014 年這部電影上映反映的嚴重現實，孩子的丟失也許是社會的一小部分現象，但是這個現象確實是存在的。所以可以想像，在這樣一個環境下，可以有一個大概的估計，但是現在走失的現象在統計意義上而言非常巨大，每個城市這樣的現象很少，但是因為中國人口多，在這麼大的中國人口的基數上，我們能夠把這個比例一點點的上升，這也是我們能貢獻的力量。雖然我們有了各種各樣的途徑，有微博打拐，有大家貢獻的力量來找尋，但是貢獻率依然是 0。

2015 年，優圖團隊跟騰訊公益部門和騰訊雲和騰訊互聯網 + 的單位一起開始加入了「天眼」計劃，希望通過優圖的技術積累，幫助社會實現社會價值，而不僅僅是商業價值，因為這對我們而言是一件相對比較容易的事情，但是社會價值如何體現在 AI 上？

於是我們加入了這個公益計劃，當時在上海的小夥伴們拿到這個計劃的時候非常興奮，他們覺得終於有一天，他們坐在電腦前面也可以像蜘蛛俠一樣出去救人。他們做了很多評測，發現我們在人臉識別率上只有 40%，這個數字讓我們的小夥伴非常驚訝，發現原來問題這麼難，不是我們拿到一張圖做一個尋人就可以把人找回來。主要有以下三點困難：

第一個是場景

我們有非常複雜的場景，有城市，有農村，有山林，有不同區域，甚至當我找回這樣一個失蹤人口的時候，他的髮型、衣著、輪廓改變都是複雜因素。

第二是年齡

很多的失蹤人口找回來的時候，他們可能在外面已經漂流了幾年的時間甚至十年時間，這是一個非常長的時間段，所以從我們的面容上看，他們改變了很多，從輪廓、皺紋、皮膚的粗糙程度，這都是對我們實用演算法是非常大的挑戰。

第三需要具備有億級人臉的檢索能力

當我拿到一張檢索照片的時候，是不是能夠通過實時尋找對比，找到這個人出來。

這三大挑戰是我當時面對的，但是好在我們優圖的小夥伴們並沒有放棄，他們覺得這件事情既然做了就要做到底，而且要做好。所以我們在經歷一系列的，超過一年多的研究，把 Megaface 的準確率從 40% 提升到 83.29%，這代表了我們可以在億級人臉檢索上達到毫秒的速度，把成功率從之前的不到 50% 提高到 99%。我們立項之後，在短短三個月時間之內，就開始用在福建省公安一起合作，做了網上在線系統找回人群。

2017 年 3 月份的時候，福建省公安廳接到一個群眾電話，他們在小學邊上找到一個老奶奶，神智不清語言也不通，把他接到公安局以後，通過我們的線上人臉比對系統，發現可能是這個奶奶失蹤了，最後我們發現，家人為了防止她走失，在公安系統已經把她掛上號，最後通過這個系統把這個老人找了回來。

我們上線這個系統短短三個月時間，在整個福建省公安部門的幫助下，實現了找回人數超過 120 人，才三個月時間。這樣的成效是高過以往通過群眾電話，再去通過大海撈針式的訪問拿到結果的過程，所以整個福建系統「牽掛你」是有一個過程的，我們發上名單照片，通過群眾找到某一個人群的時候，拍張照片，最後在資料庫里做比對，然後把這個人找回來，這樣成功的案例已經超過一百起，這是非常振奮人心的，而且也是很有意義的。

除此之外，我們希望技術不僅僅是幫到這樣一些走失的人，我們甚至可以走得更廣一點，所以我們這幾年做了一個「萬象鑒黃」的全球兒童網路保護行動，整個優圖團隊開始貢獻對成人圖片的檢測，我們發現準確率在大部分上線系統上可以超過 99%，也就是可以實現對兒童在網路上的保護，防止這些兒童受到欺凌欺騙，這樣的事情是我們團隊的小夥伴最願意做的事情之一。

結語

AI 就是一種工具，AI 的出現可能會令一些人失去自己的工作，但是 AI 確實便利了我們這個社會，使得我們這個社會更加容易和諧，做得更好。當我們發現一些不好的事實的時候，AI 這個系統能夠準確判別，打擊犯罪，這是一種工具，就像是一把刀一樣，你切菜是好的工具，但是傷害人的時候是一個壞的工具。AI 無所謂好和壞，但是好的部分需要我們去弘揚，發光廣大。最後我想說，每一個技術人員雖然都坐在電腦前面，大家都認為我們是電腦高手，但是我們每個人都有一顆蜘蛛俠的心，我們希望自己有一天不上街也能夠幫助人們，打擊犯罪。

－全文完－

關注人工智慧的落地實踐，與企業一起探尋 AI 的邊界，AICon 全球人工智慧技術大會火熱售票中，8 折倒計時一周搶票，詳情點擊：

http://t.cn/Rl2MftP

《深入淺出TensorFlow》迷你書現已發布，關注公眾號「AI前線」，ID：ai-front，回復關鍵字：TF，獲取下載鏈接！