視覺 AI 到底發展到了什麼地步?

編輯|陳思

AI前線出品| ID:ai-front

隨著 AI 的發展,計算機視覺技術逐漸擁有了更廣泛的應用,人臉識別,物體檢測等等技術更是在安防、無人車等領域起著至關重要的作用。來自騰訊優圖實驗室的傑出科學家賈佳亞先生在 2017 年 6 月 21 日中國深圳「雲 + 未來」峰會上發表了關於 AI 視覺技術的演講,為聽眾展示了優圖實驗室先進的AI視覺系統。

以下為演講內容

AI 這個詞從進入大家的視野到變得巷聞皆知才用了兩年時間,所以 AI 在這個時間發展過程中有點像突然發現的東西,用什麼來比喻它?我會用哈利波特的隱形斗篷來比喻它,這個隱星斗篷就是當你穿上它的時候,你會發現空無一人,但是你把隱形斗篷取下來,你發現原來裡面躲了一個龐然大物。

其實 AI 視覺技術就是這樣一個過程,AI 的發展從最開始到現在經歷了幾十年的發展,所以到今天這個規模絕對不是一朝一夕能夠形成的。所以我從隱性斗篷的例子來從頭看看到底怎麼理解 AI 技術。

我們在很多的小說、電影、科幻讀物里都有很多擬人化的機器人或者產物,其中有四個最重要的功能,第一是看,第二是聽,第三是說,第四是動。當然不是所有東西都會動,但如果這是一個超級的智能產物一定會控制其他東西在動,自己不用動。當我今天想跟大家介紹 AI 的時候,我會專註在一個方向上,那就是看。為什麼我們要去講看這件事?我覺得還要從自然智能理解起。

自然智能不是 AI 智能的對立面,但是卻是反方面的詞。人工智慧是人創造的,自然智能是從遠古時代演化到現在的,我們從自然智能里學到很多東西,比如說看到自然智能的時候,我會想,我們有非常多的視網膜神經細胞,有柱狀和椎裝細胞但是我們有超過 40 億以上的神經元會處理我們的視覺信息,相比之下,我們的觸覺和聽覺可能只有 8% 和 3% 的比例,這說明什麼?說明我們這個世界太複雜了,當我們從第一天人類開始去理解這個世界的時候,我們就有足夠多的神經元或者處理單元去理解這個世界,所以「看」是我們理解這個世界最重要的部分

我們做到了什麼?

視覺的 AI 可以運用在很多的遊戲裡面,比如說體感遊戲或者是增強現實遊戲,滿大街去找小精靈的遊戲就是重要的體現。除了視覺娛樂之外還有很大用處,比如解決在監控、安防或者需要大量人手去觀察視頻和圖像的分為之內,我們從幾百人減成幾個人,這也是視覺 AI 發揮的作用。

騰訊是一個非常大的社交網路公司,裡面有各種各樣的媒體或者軟體幫大家做交流,比如我有一個好的照片想給大家看看,是不是能夠達到把人年輕十歲的效果呢?這個事情是可以做到了,甚至於如果想把自己變一個性別,從男生變成女生,那也很容易,甚至不用去醫院了。這是在相冊上或者是在手機端產生的變化,除此之外還有兩塊非常大的部分,一個是智能醫療,如何能夠讓一個機器智能讀懂所有醫療的片,比如說 CT 片、MRI 片,這是非常重要的部分。還有自動駕駛,我們能不能輔助駕駛、自動駕駛的功能加入在視覺 AI 裡面。

這些 AI 的技術代表在這個領域飛速發展的進程,但是與此同時,在不同的途徑、不同的視頻或者不同的專家給大家介紹各種方法的時候會說,我們的技術已經做到多麼強、多麼好,我在這裡更希望通過科學家的角度跟大家介紹,我們的視覺 AI 角度到底發展到什麼地步。

首先可以超過 1000 個類別的上億張圖像的分類理解。

當我有一張圖像的時候,人和機器都可以告訴你這張圖像是什麼,這是一頭牛還是一朵花,有的時候你可以想像機器甚至做得比人更出色,我三歲的女兒經常跟我說,爸爸,我看到那邊有非常漂亮的蝴蝶。我就糾正她,寶貝,那不是蝴蝶,那是蛾子。但是我的寶貝說,這個蛾子比蝴蝶還漂亮,肯定是蝴蝶。

說明我們在圖像理解上有一個過程,我需要理解它的含義得到一個結果,但是在機器學習的時候,甚至可以達到比成年人更高的境界,我們可以細分到山丘、山陵的區別,而超越人的理解。科學家已經不滿足於這個問題,這個問題被認為已經在這個領域解決,下一個要解決的是檢測問題。當我們有一張圖,我希望不但知道這個圖的整體表達是什麼,還要知道這個圖裡哪個地方是車,哪個地方是路面,哪個地方是人,這是檢測過程。由於現在有強大的計算資源和計算能力,我們可以超過五億個品種的檢測,這是視覺 AI 的另外一個可以達到的目標。

除此之外,科學家們想,當我們能檢測到一些物體的時候,能不能把細緻度做得更深?比如說顆粒度更深的每個像素、每個點,我是不是能知道這個點是屬於馬路的,屬於人還是屬於車的,這是遠遠超越於之前問題的更加進一步的推廣問題。所以我們管它叫做語義分割,現在可以超過總數四千億像素級別的多圖圖像分割,這是這幾年整個領域產生的巨大推進作用和研究成果,能夠達到的效果。除此之外更加熟悉的是對人臉的匹配查詢,可以超過一億張人臉匹配查詢,找到你想要的人,你問問自己,能不能認識一億個人?認識一百個人,我就很開心了,這在電腦上是遠遠超越了人。

在之前五到十年的時候,我在學校的團隊還會做一些有意思的研究:我們當時想,如果看到這樣一張模糊的圖片你會做什麼事情?你看到一張模糊圖像會做什麼事情?可能大家要做的就是把它刪除,為什麼?因為這張圖片模糊了,已經沒有用了,但是對我們科學家而言,是非常珍貴的資源,因為通過這張圖像我們發掘出一些人類看不到的東西。

為大家舉一個有趣的例子,比如在這張圖像里,我們是在一個高速行進的車上,周圍的環境是容易被模糊的,當我們理解環境的時候你發現,車牌或者路標已經被模糊掉,在這張圖上,在這個圖標上看著公路的信息,但是左邊小的是什麼東西?左邊路牌上的數字是什麼東西呢?之前大學裡的團隊經過五到十年的研究,把這些信息充分理解出來,最後通過我們的技術手段,能夠看到最後這是在美國 101 公路上的場景,我們可以超越人類的圖像模糊。

還有一個東西,我們希望十年之後出現傢具機器人,什麼叫傢具機器人?就是你希望他能幫你洗衣服、洗碗、做飯,甚至帶孩子,但是要達到這個智能機器人,怎麼樣才能做到這一步?其中重要的就是如何把自然語言和自然圖像結合起來,也就是兩者的充分結合。所以我們在之前有一系列的研究,是當你看到一張圖像的時候,我的人來問一個問題,是什麼放在了這個工作間的檯子上,電腦看到通過你這句話,分析是什麼意思,然後再去尋找在這張圖像上是問了什麼問題,最後把圖像上重要的位置找到之後反饋回來,得到一個結果,這個結果就是船,這就是說這個答案是對的。

這個說明現在電腦可以結合自然語言,我說的話和看到的場景可以結合起來,這是一個非常了不起的進步。正是因為有這個進步,我相信令到傢具機器人的理想在十年之內能夠變為現實。

我們還可以做到什麼?

可能有講座介紹說,幸虧 AI 達到的程度還沒有人那麼高,因為人會創造,AI 不會創造。我想跟大家說,其實這句話是不對的,電腦也會創造,而且創造出來的種類和試樣,很多時候是讓我們驚嘆的,在以往知識庫里是找不到這些模組的,這就是創造的功能,視覺 AI 已經可以實現創造

比如看這兩幅圖,看在座各位認為右邊這張圖是電腦畫的?真理永遠掌握在少數人手裡,右邊這張圖確實是電腦畫的,電腦用鉛筆畫出了整體輪廓的表達、陰影的表達,達到了非常高的層次,人類需要長期訓練才能畫出,但是我們畫出這張圖只用了 0.1 秒,就是它的創造過程,這是非常有趣的事情。

我大學的團隊在去年為了去理解這個非常複雜的場景,創造了全世界最像素級的分割技術,做場景理解分析。

這個例子可以看到車是一個顏色,因為我識別出來這是車,所以是藍色,旁邊的樹,我識別出是樹,所以標成綠色。我們在去年實現了在大規模場景的多複雜環境下的內容分析,這是去年做的事情。今年我們不滿足這樣一個結果,我說我們還能做什麼?然後我的團隊開始在今年做了另外一件讓大家激動的事情,我們實現了到迄今為止最準確的道路上的像素級語義分割技術,在已知的論文裡面,我們這個技術遠遠高出第二名,直接到每秒 30 偵的運算速度,沒有改變任何的硬體資源,我們加速了一百倍。

AI 視覺技術的社會價值

除了我剛才跟大家講的商業價值或者學術價值之外,我今天還有另外一個內容。我想跟大家講講優圖 AI 所產生的社會價值。有一個優圖跟騰訊的公益部門以及騰訊雲、騰訊互聯網 + 的部門合作,我們開創了一個新的活動,這個活動叫做天眼。

大家有沒有看過這部《親愛的》?講述的就是現在有很多很多的家庭,家裡的孩子被拐賣走失,這些父母組成了一個團體,他們希望通過這個團體找尋自己的孩子,這就是 2014 年這部電影上映反映的嚴重現實,孩子的丟失也許是社會的一小部分現象,但是這個現象確實是存在的。所以可以想像,在這樣一個環境下,可以有一個大概的估計,但是現在走失的現象在統計意義上而言非常巨大,每個城市這樣的現象很少,但是因為中國人口多,在這麼大的中國人口的基數上,我們能夠把這個比例一點點的上升,這也是我們能貢獻的力量。雖然我們有了各種各樣的途徑,有微博打拐,有大家貢獻的力量來找尋,但是貢獻率依然是 0。

2015 年,優圖團隊跟騰訊公益部門和騰訊雲和騰訊互聯網 + 的單位一起開始加入了「天眼」計劃,希望通過優圖的技術積累,幫助社會實現社會價值,而不僅僅是商業價值,因為這對我們而言是一件相對比較容易的事情,但是社會價值如何體現在 AI 上?

於是我們加入了這個公益計劃,當時在上海的小夥伴們拿到這個計劃的時候非常興奮,他們覺得終於有一天,他們坐在電腦前面也可以像蜘蛛俠一樣出去救人。他們做了很多評測,發現我們在人臉識別率上只有 40%,這個數字讓我們的小夥伴非常驚訝,發現原來問題這麼難,不是我們拿到一張圖做一個尋人就可以把人找回來。主要有以下三點困難:

第一個是場景

我們有非常複雜的場景,有城市,有農村,有山林,有不同區域,甚至當我找回這樣一個失蹤人口的時候,他的髮型、衣著、輪廓改變都是複雜因素。

第二是年齡

很多的失蹤人口找回來的時候,他們可能在外面已經漂流了幾年的時間甚至十年時間,這是一個非常長的時間段,所以從我們的面容上看,他們改變了很多,從輪廓、皺紋、皮膚的粗糙程度,這都是對我們實用演算法是非常大的挑戰。

第三需要具備有億級人臉的檢索能力

當我拿到一張檢索照片的時候,是不是能夠通過實時尋找對比,找到這個人出來。

這三大挑戰是我當時面對的,但是好在我們優圖的小夥伴們並沒有放棄,他們覺得這件事情既然做了就要做到底,而且要做好。所以我們在經歷一系列的,超過一年多的研究,把 Megaface 的準確率從 40% 提升到 83.29%,這代表了我們可以在億級人臉檢索上達到毫秒的速度,把成功率從之前的不到 50% 提高到 99%。我們立項之後,在短短三個月時間之內,就開始用在福建省公安一起合作,做了網上在線系統找回人群。

2017 年 3 月份的時候,福建省公安廳接到一個群眾電話,他們在小學邊上找到一個老奶奶,神智不清語言也不通,把他接到公安局以後,通過我們的線上人臉比對系統,發現可能是這個奶奶失蹤了,最後我們發現,家人為了防止她走失,在公安系統已經把她掛上號,最後通過這個系統把這個老人找了回來。

我們上線這個系統短短三個月時間,在整個福建省公安部門的幫助下,實現了找回人數超過 120 人,才三個月時間。這樣的成效是高過以往通過群眾電話,再去通過大海撈針式的訪問拿到結果的過程,所以整個福建系統「牽掛你」是有一個過程的,我們發上名單照片,通過群眾找到某一個人群的時候,拍張照片,最後在資料庫里做比對,然後把這個人找回來,這樣成功的案例已經超過一百起,這是非常振奮人心的,而且也是很有意義的。

除此之外,我們希望技術不僅僅是幫到這樣一些走失的人,我們甚至可以走得更廣一點,所以我們這幾年做了一個「萬象鑒黃」的全球兒童網路保護行動,整個優圖團隊開始貢獻對成人圖片的檢測,我們發現準確率在大部分上線系統上可以超過 99%,也就是可以實現對兒童在網路上的保護,防止這些兒童受到欺凌欺騙,這樣的事情是我們團隊的小夥伴最願意做的事情之一。

結語

AI 就是一種工具,AI 的出現可能會令一些人失去自己的工作,但是 AI 確實便利了我們這個社會,使得我們這個社會更加容易和諧,做得更好。當我們發現一些不好的事實的時候,AI 這個系統能夠準確判別,打擊犯罪,這是一種工具,就像是一把刀一樣,你切菜是好的工具,但是傷害人的時候是一個壞的工具。AI 無所謂好和壞,但是好的部分需要我們去弘揚,發光廣大。最後我想說,每一個技術人員雖然都坐在電腦前面,大家都認為我們是電腦高手,但是我們每個人都有一顆蜘蛛俠的心,我們希望自己有一天不上街也能夠幫助人們,打擊犯罪。


-全文完-

關注人工智慧的落地實踐,與企業一起探尋 AI 的邊界,AICon 全球人工智慧技術大會火熱售票中,8 折倒計時一周搶票,詳情點擊:

t.cn/Rl2MftP

《深入淺出TensorFlow》迷你書現已發布,關注公眾號「AI前線」,ID:ai-front,回復關鍵字:TF,獲取下載鏈接!


推薦閱讀:

計算機視覺中 RNN 應用於目標檢測
語言指示位置的最佳方式
為什麼人閉上眼睛就看不見任何東西了?
眼中的血管的秘密
【認真想】你看到世界並不是真的

TAG:视觉 | 人工智能 |