商湯IPO指日可待，管理140位博士的工程VP談AI落地

01-29

採訪 & 撰稿 | Natalie
AI前線出品｜ ID：ai-front

AI 前線導語：「在這篇文章整理完髮布的前一天，很多人的朋友圈都被《商湯科技計劃IPO並將在美設立研發中心》的消息刷屏了。AI前線向商湯科技官方求證關於IPO的時間問題，得到的答覆是「公司有未來上市計劃，但是並無具體時間表。」同為以計算機視覺起家的創業公司，商湯和曠視一直在不斷刷新AI公司的融資記錄，如今商湯似乎在C輪和IPO上又先走了一步。很多人對於商湯的印象更多是橫掃CVPR和ICCV的數十篇學術論文，以及擁有120位博士帶來的技術底氣（實際上最新數字已經上升到了140位），但副總裁楊帆卻告訴我們：「只有技術壁壘，長期來看還是在給他人做嫁衣。」

人臉識別技術，曾經是反烏托邦的科幻小說中出現的想法，現在可能正在成為中國日常生活的一個特色。

廣東深圳已經有了人臉識別抓拍行人闖紅燈的示範路口，如果你闖紅燈的時候被攝像頭拍了下來，下次你再試圖闖紅燈時，你的臉就會出現在街道旁邊的顯示屏上，顯示屏上還會出現一行字：「人臉識別智能抓拍行人闖紅燈」。

人臉識別技術已經成為監視領域最有力的新工具之一，地鐵站、機場、海關都在使用這項技術。刷臉取款、刷臉支付、刷臉登機等新應用更是層出不窮，刷手機的時代彷彿也才到來沒多久，刷臉時代已經來勢洶洶。

今年 9 月下旬，一段被稱為「中國天網」監控視頻的視頻片段在新浪微博和朋友圈裡瘋傳，視頻展示了我國最新實時行人檢測識別系統，該系統可以實時監測區分出機動車、非機動車和行人，並能準確識別出機動車和非機動車的種類，以及行人的年齡、性別、穿著。而這個系統的背後，其實是商湯科技的 Sense Video 技術。

主打人臉識別技術的商湯科技成立於 2014 年 10 月，其核心創始人湯曉鷗，同時也是香港中文大學教授，領導著計算機視覺實驗室，這一特殊的跨界身份似乎也預示了為何商湯科技未來能夠橫跨學術和商業兩界並取得亮眼成績。商湯科技目前擁有 140 位博士，2016 年 ImageNet 大規模視覺識別挑戰賽中，商湯科技聯合香港中文大學一舉攬下三項冠軍；近日，商湯科技與香港中大 - 商湯科技聯合實驗室，繼以 23 篇論文橫掃 CVPR 後，又以 20 篇論文力壓群雄稱霸 ICCV，在全球頂級視覺學術會議上颳起了一陣中國旋風。而在業界落地方面，商湯科技的產品遍布金融、安防、互聯網娛樂、AR、智能手機等多個行業場景，與華為、Qualcomm、中國移動、小米等眾多公司都達成了合作。2017 年 7 月，商湯科技獲得 4.1 億美元 B 輪融資，成為史上人工智慧最高單筆投資，直到 11 月 2 日曠視科技獲得 4.6 億美元 C 輪融資再度刷新這項紀錄。

人臉識別大行其道，不免讓人對這項技術及其背後的公司產生了許多好奇。人臉識別技術到底有何門道？它經歷了怎樣的技術演進歷程？各家公司宣傳的識別正確率百分之 99 點幾後面的小數點真的有區別嗎？人臉識別技術在商湯是如何落地的？它帶來的安全性問題如何應對？帶著這些問題，InfoQ 記者來到了商湯科技（下文統稱商湯）在深圳的辦公室，對商湯科技聯合創始人、副總裁楊帆進行了專訪。

商湯到底是一家什麼樣的公司？

提到商湯，大部分人第一反應就是人臉識別，但人臉識別並不足以定義商湯。

在楊帆看來，商湯是一個堅持人工智慧原創技術的平台服務提供商，它利用原創的 AI 技術給不同的行業提供平台化服務、賦能各個行業，讓 AI 技術真正地去改變每個行業。「當然目前來說，我們的工作主要集中在人工智慧的計算機視覺，也就是圖像和視頻分析的這個領域。毫無疑問，人臉作為一種非常特殊且具有極高價值的影象標識，會是整個圖像視頻分析領域中佔比重非常大的一部分。但同時商湯還經常給不同行業提供其他解決方案，涵蓋範圍會遠遠超過人臉識別。」

計算機視覺技術的發展和突破

深度學習使 CV 真正從學術界走向工業應用

楊帆在計算機視覺技術領域沉浸多年，在微軟任職期間，他主要從事計算機視覺、計算機圖形學等領域的新技術孵化工作，包括人臉識別、圖像物體識別、人像三維重建等；目前商湯的核心技術也是以人臉識別、智能監控、圖像識別等為主。作為主導技術落地的負責人，楊帆笑稱自己是給公司的研究員們打下手的，但回憶起計算機視覺技術的發展歷程，他表示還是有很大的感觸。

上世紀 90 年代末期，有一波所謂的人工智慧，或至少是人臉識別的熱潮。當時在實驗室環境下，人臉識別已經能夠達到一個相當不錯的結果，但離實際應用還是有比較大的差距。從 2004 年楊帆進入微軟實習開始，到 2010、2011 年這段時間內，計算機視覺領域的技術進步一直在持續，但主要還是積累期，整個行業的技術進步相對比較緩慢，基本沒有太多新的應用和機會。到了 2011-2012 年，隨著硬體設備計算能力的進步，以及各大公司開始具備收集海量數據的能力，深度學習變得越來越實用，給行業帶來了巨大的改變，從那之後計算機視覺技術就進入了一個特別高速的快車道。計算機視覺技術從學術界蔓延到了工業界，在各行各業都有了越來越多廣泛的應用，這是外因。

從內因角度來講，這一輪以深度學習為核心的視覺技術，對數據的依賴更強了，核心技術研發能力提高了，而且最終得到的成果普適性也變好了。楊帆回憶道，「我以前在微軟做過一些人臉識別的工作，在深度學習出現之前，你做一個演算法能夠把膚色的問題解決得很好，但它可能對光線的問題就很難適應。假如你想要一個對光線適應很好的演算法，它可能對膚色問題又解決不好，它的技術突破是單點性的突破。」

而今天，伴隨著海量數據的應用，很多識別技術會變成一種相對通用的方法論，可以以更低的成本、更短的時間，快速遷移到不同的領域上，這其中的價值非常巨大。隨著人工智慧技術的發展，雖然它難度依然很高，但是它的不可知性和風險已經大大降低，在這種情況下，就會有越來越多的企業願意投入力量到這些技術的研發中，從而帶來更大的價值。

以前只有世界頂尖級別的公司才會成立研究院，去做核心技術研究，比如貝爾實驗室、微軟等。但是今天你會發現完全不一樣，我相信未來整個技術在不同行業的落地，對於整個業界生態會有比較大的改變。

基礎研究和應用科研，二者不可偏廢

業界曾出現一種批評的聲音，稱現在很多公司和開發者其實對於深度學習的運作原理並不清楚，只知道應用，卻不知其所以然。對此，楊帆也有自己的看法。

楊帆表示，學術界有兩套觀念，一套觀念說知其然不知其所以然是離經叛道、是不對的。對於這個觀念，楊帆表示認可，其實現在已經有很多團隊，包括商湯也投入力量在進行更加前沿、更加基礎性的科研，「這樣的基礎科研能夠指導我們將來在正確的方向上走得更遠。」但楊帆認為，基礎研究與應用科研，二者不可偏廢，完整的科學體系和持續的方向性指引非常重要，但是實證科學也非常重要，企業最終還是要以技術落地的結果說話。

脫離場景談識別正確率毫無意義

近幾年，很多公司在人臉識別技術上投入了大量的研發並取得了亮眼的成績，其中識別率一直是各家宣傳的重點，今年我們能在各類報道中頻繁看到各種 99%、99.4%、99.8%，如何理解這些識別率中小數點後面數字的差距？

技術指標是沒法一概而論的，任何一個技術指標背後都隱藏了一大堆的假設條件。

楊帆列舉了幾個例子，比如在金融場景做 1：1 的人臉識別，用於互聯網金融的註冊，這與在家用相冊中做人臉識別，也就是把照片集中同一個人的照片找出來，以及在安防場景中，根據模糊的照片在一個海量的逃犯庫中找到特定的人，這些場景都是人臉識別，準確率可能都差不多 99%、或者 99% 點幾。雖然企業這麼宣稱，但實際背後蘊含的差異是非常大的，它會有非常多影響因素，所以準確率跟行業背景以及前置假設會是一個強相關的關係。而不同的場景下取得的識別準確率很難做類比。

相比不知前提的識別正確率，更為重要的是，在不同的場景下，企業是不是能夠使用原創技術真正地取得突破。在互聯網相冊的應用場景下，商湯可以說是全世界第一個讓計算機的人臉識別超越了人類，而後續很多智能相冊的業務和服務都脫胎於這項突破。在楊帆看來，當公司面臨一個新的行業場景，和過去的場景不一樣且遇到新的挑戰的時候，是不是能夠率先去形成量變的突破，這才是最重要的。當技術沉澱、數據積累和對業務場景的理解，三者融合在一起的時候，才能幫助公司完成一個真正有價值的、有意義的技術突破。

當識別率達到 99% 以後，人臉識別技術面臨的難點主要在於，如何在不同行業場景中深化這項技術。雖然看上去 99% 的識別率已經很高了，但不同行業場景對於識別率的要求不同，99% 可能只是該技術得以使用的入門條件，比如銀行身份認證服務，如今商湯人臉識別的誤識別率已經可以做到 10 的負 7 次方，相當於 7 位銀行密碼，但在這個場景下也才剛剛得以使用；而安防場景下，照片模糊、有遮擋、角度不佳都給人臉識別帶來了更現實的挑戰。

「看似同質化很強、很簡單的人臉識別，細分的技術場景其實非常複雜，所以脫離場景去談技術是沒有太大意義的，今天能看得到的，包括以安防、手機這樣的一些重點行業為代表，對於真正的人臉識別技術的全面深化存在著非常多的挑戰，值得我們去攻克。」

圖像和視頻分析比你想像的更複雜

圖像和視頻分析其實是一個從功能或者從能力角度來看都比較複雜的技術體系，當我們將一項技術落地或深化的時候，它可能需要幾個團隊合作完成。

商湯在計算機視覺技術領域的探索工作大致可以分為圖像增強、物體檢測和分類、演算法模型、訓練引擎等幾個方面。

圖像智能化增強是圖像和視頻分析的第一步，雖然今天照片和視頻的採集設備已經非常好了，但圖像和視頻的採集還是經常面臨困難，比如用紅外攝像頭以及結構光攝像頭，拿到的深度圖信息裡面的噪音非常大，或者用安防設備拍攝高速運動的物體時會因為運動而導致模糊，因此分析前需要現對這些圖像和視頻進行智能化的增強和恢復，又叫做 Low Level Vision，這在商湯是一項獨立的的工作，目的在於提升採集到的圖像和視頻的質量。

而圖像和視頻的識別及分析又可以細分成多個部分，包括物體檢測，知道一個東西在哪裡；物體的關鍵點定位，知道物體的關鍵輪廓和形狀；物體的分類，就是對於找到的物體，能夠知道它是什麼東西；整個區域的分割，對整個物體的邊緣或輪廓有非常清晰的描述。實際上，整個識別體系可能需要分成若干個不同的子領域，在真正的行業應用中，它往往是一些子領域疊加組合的應用。

商湯有專門的團隊進行基礎研究，比如如何將演算法小型化，使之能夠在資源受限的移動終端上運行；如何優化演算法使之運行得更快；AI 核心的訓練引擎或操作系統的持續升級和演進；弱監督或無監督學習的研究，包括增強學習、遷移學習等前沿技術。

楊帆強調，從計算引擎到數據流程架構，更重要的意義其實不在於數據量，而在於讓演算法形成一個穩定的閉環。

計算機視覺技術如何落地實際產品

計算機視覺技術在商湯的落地場景

商湯一直非常關注計算機視覺技術的落地，楊帆在早前的一些分享和演講中也多次提及技術進步需要與產業需求相結合。據楊帆介紹，計算機視覺技術在商湯的產品和業務中主要包含以下應用場景：

安防

過去對安防的理解主要是公安，其實真正意義上的安防還包括交通、線下的商業場景、小區、學校等，可以涵蓋的場景非常大。

智能終端

目前智能終端主要指手機，但它未來的形態可能會繼續演化，人工智慧的技術一定會在這樣的終端設備上體現出非常大的價值。

互聯網視頻類應用

隨著互聯網應用的進一步加深，它會越來越多地從文本轉向圖像、視頻這種更加豐富的多媒體形態的應用，這些年從直播到短視頻的爆發都是例子。在這方面，商湯可以給視頻類應用的廠商提供非常完整而豐富的高附加價值的解決方案。

人像身份認證

基於人像的身份認證也是一個非常有價值的工作，它是一個特殊的跨行業的解決方案。這個解決方案現在已經從線上到線下開始極大範圍地蔓延。對中國來說，個人公民身份信息的實名制是一個非常重要的訴求，這個訴求能夠有效地幫我們在一定程度上解決互聯網的安全問題、解決線下的公共安全問題。所有線上的互聯網行業應用，到各種線下行業，包括機場、超市、酒店，都會有越來越多的對於個人身份信息核驗的強烈需求，商湯在這方面也提供了非常完整的解決方案。

自動駕駛

自動駕駛會是未來一個非常大的標杆性的方向，在這個過程中，人工智慧技術會是一個非常關鍵的環節，商湯在這個領域也有一定的投入和規劃。

商湯安防場景背後的技術支撐

一款合格的安防產品，背後絕不只靠人臉識別這一項，而是由多項技術共同支撐。

以一個廣場級別的安防監控場景為例，其背後涉及的技術主要包括：

硬體設備，即攝像頭。對於大型廣場，一個攝像頭無法全面覆蓋，因此可能需要全景攝像頭和可拉伸的近景攝像頭配合，完成人臉或其他圖像的採集。
採集演算法。攝像頭中會集成一個人群分析的演算法，即通過收集的數據、結合人工規則，了解這個廣場現在哪裡人流比較密集、哪裡人停留時間比較長，然後讓負責抓拍和跟進的攝像頭重點關注這些區域。
人臉識別。接下來就可以在上述區域使用人臉識別的技術，尋找是否有黑名單（比如扒手庫）中的人，可以用於反扒。這也是為什麼剛才要找人密集的區域、停留時間長的區域，因為這些是高發區。
肢體動作捕捉和識別。在尋找特定人員的過程中，需要進行人體姿態的跟蹤，通過對這些人的關鍵動作進行檢測和識別，從而判斷是否出現偷竊行為。
圖像增強。如果攝像頭採集到的圖片模糊了，還會用到圖像增強技術，使圖像變得更適合後續步驟分析。

如楊帆所說，真正去看行業落地的時候，往往都是不同的技術疊加和組合的應用，這裡面 人臉識別和動作識別是最關鍵的技術，但實際上想把落地場景做好，一定需要多種技術組合。

複合型人才是 AI 落地的關鍵

楊帆表示，將創新技術轉變為實際產品是一條滿是荊棘的道路，行之不易，而其中最大的難點，一是如何選對方向和時機，二是如何找到合適的人才。

AI 技術落地需要與行業相結合，而如何去選擇需要結合的行業就是第一個難題。楊帆說，「如果技術還沒有到真正能成功的門檻，比如搜索引擎中的視頻搜索，大公司不斷積累可能沒問題，但如果是一個小的創業公司，把它作為安身立命之本，難以得到回報，可能兩年之後就死了。」楊帆表示，首先需要確認所選擇的行業市場是一個真實有效、有規模的剛需市場；其次，需要在市場中真正拿到完整的閉環數據，才能獲得持續性的進步；接下來，需要考慮行業當前的技術紅線是不是在一個合理的區間內，介入太晚或介入太早，都是會有問題的；最後，在產品落地的過程中，需要考慮如何利用技術門檻期（通常 1 年到 1 年半）帶來的優勢，進一步建立行業壁壘，只有技術壁壘而沒有行業壁壘的話，最後從長期來講還是為他人做嫁衣。

從另一方面來講，行業落地需要各種綜合性的關鍵技術的整合。行業的需求往往是一些相對模糊的，而且從技術上來看是非常不明確的東西，這時候就需要有人有足夠的能力去一一拆解。在楊帆看來，找到或培養一些既有技術背景、又對行業有足夠深的理解的人才，是企業實現 AI 技術落地最關鍵的一點。他說到，「人才問題、團隊組織問題、發展問題，特別是做 2B 行業，標準化與非標準之間的平衡性掌握，任何一個技術性產品落地會面臨的共有問題，做 AI 技術落地，這些問題一個都不會少，而只會更嚴重。AI 人才是個更大的坑，AI 的技術性更深重，從過往來看，它跟行業的結合更弱，所以你想要真正去打磨出一個符合真正行業需求的產品的時候，需要把對行業的理解和對技術的理解融合在一起，這在我看來是最有挑戰的，因為過去可能這個世界上基本不存在這樣的人，對行業有理解的人很少。」

市場增量期，商湯更願意合作而非競爭

人工智慧領域的創業浪潮中，計算機視覺技術（CV）在國內是一個非常火熱的方向，呈遍地開花之勢。在安防、金融、機器人、醫療、無人駕駛等諸多業務場景都有大批公司在競爭。

安防是商湯非常重要的一個業務場景，也是國內很多計算機視覺初創企業（如曠視科技、依圖、雲從等）非常看重的市場，更不用說已經在這個領域深耕多年的海康威視。

楊帆認為，安防市場目前正處於高速增長期，從 2018 到 2019 年，整個安防市場還會大爆發，爆發速度可能會超過大家的想像。而 商湯的定位是依託原創技術去做能力服務平台，去做不同行業的賦能者，這使得商湯更願意跟行業上下游企業形成合作而不是競爭的關係。

人臉識別技術的安全性問題

人臉識別技術多用於安防和金融領域，尤其像銀行、支付相關的人臉識別應用對安全性要求特別高。前不久蘋果發布會上推出的 FaceID 也引發了大家對於其是否足夠安全的討論。

楊帆將人臉識別的安全性問題分為兩種，一種是人臉識別如何做得更準確，不會誤識別；另一種則是如何防禦非法攻擊，比如通過照片、視頻等方式繞開人臉識別。隨著數據量的增大以及新演算法的迭代演進，人臉識別的準確率一直在不斷提升，相對而言，後一個問題面對的挑戰更大，這個問題在業界又被稱為活體檢測問題。

對於金融場景的非法攻擊防禦，商湯目前的做法主要是通過積累大量的攻擊數據，並通過模式分析、光譜分析等方法識別出攻擊行為的模式，進而抵擋這些攻擊。楊帆解釋說：「不管用視頻還是照片，其實有很多蛛絲馬跡是可以看到的，但這種蛛絲馬跡人不一定能夠特別好地分辨，當有大量數據的時候機器可以比較好地分辨，比如手機屏幕的反光等。」

蘋果 FaceID 採用的 3D 人臉識別技術，主要的差異在於採集設備，將採集設備換成 3D 攝像頭之後，能夠採集到的圖像數據信息更大，除了彩色信息之外，還會擁有 3D 的數據信息，而這些深度信息能夠使演算法進行更好的分析，從而達到更好的人臉識別以及防禦攻擊的效果。楊帆認為 3D 採集設備的研發和發展是一個比較明確的行業趨勢，商湯未來在這個方向上也會做一些嘗試。

計算機視覺技術的未來

對於計算機視覺技術目前面臨的挑戰，楊帆認為主要有三點，第一是 如何減少對數據的依賴，而這也是行業內大家達成共識的一個大的方向，目前的圖像識別模式對於數據依賴太強，人類識別的時候並不需要這麼大量的數據。第二個是整體性能優化，就是 如何用更低的計算成本完成智能分析，這對於實用化非常重要。第三個則是 理論研究，知其所以然還是很重要的，這樣更有助於長期發展。

楊帆認為視頻的分析理解是未來計算機視覺比較有前景的研究方向之一。他說，「視頻的分析理解，其實大家喊了很多年，到底什麼時候算是真正成熟的點，不同的人會有不同的判斷，會在不同的時期投入。我個人認為互聯網作為一個已經成型的、具有特別大的商業價值的體系鏈，視頻的應用在我看來是太少而不是太多。視頻或者說視覺信號的潛在價值是非常大的，因為人和人之間溝通其實視覺信息占非常重要的比例，它的信息含量非常豐富。今天互聯網已經形成了非常完整的生態，它對信息的五個環節都有特別好的基礎技術支撐，在這種情況下，率先對視頻領域做更深的探索和挖掘其實是必經之路。很多線下的行業可能有剛需，互聯網上的視頻、圖像，特別是視頻內容分析理解相關的領域，在未來其實還是會有很大的空間，今天能夠做的事情還是太少。」

在整個人工智慧布局上，計算機視覺的定位是怎樣的？

視覺是最核心的，而且潛在商業價值也是最大的。

楊帆認為，信息是一切的核心，拋開人工智慧，整個 IT 行業所做的事情就是信息的採集、傳輸、存儲、分析、計算和反饋。而人工智慧就是在整個信息環中，機器越來越多地去承擔人的角色，可能比人做得更好。人和人日常進行交互的時候，視覺信息是更加本質的信息，所包含的信息量更大，因此計算機視覺在整個信息形態上是以一個相對高階的形態存在，對各個環節的技術要求都會更高。一旦在每個環節上逐步具備視覺信息的處理能力之後，它所迸發出來的價值可能會超過今天 IT 互聯網行業所能影響的空間，甚至可能會顛覆人和人、人和這個世界的交互。

在楊帆看來，計算機視覺有一個很重要的點，就是人的眼睛能夠分析、感受的電磁波是一個很窄的波段，而機器卻識別更寬的波段，比如紅外攝像頭、近紅外攝像頭、結構光深度的攝像頭。楊帆提出了一個很有趣的問題：「這些攝像頭能夠把人類所能夠看到的、能夠處理的波段進一步擴展。那這個東西是不是可以一直擴展下去？如果從這個角度去理解，計算機視覺意味著將來機器可以替代人類，或者它作為人類的助手擁有更加本質的對這個世界的洞察。」

楊帆認為，目前我們設計、使用紅外攝像頭的方式思路還是從人出發的，依賴於人類經驗的輔助和指導，也就是先將紅外攝像頭所採集到的影像信息，轉化成一個人類可理解的影像，然後用機器去理解它。他說：「而下一步，很可能是紅外攝像頭直接去採集機器可以理解的信息形態，然後機器可以再去擴展。」

－全文完－

人工智慧已不再停留在大家的想像之中，各路大牛也都紛紛抓住這波風口，投入AI創業大潮。那麼，2017年，到底都有哪些AI落地案例呢？機器學習、深度學習、NLP、圖像識別等技術又該如何用來解決業務問題？

2018年1月11-14日，AICon全球人工智慧技術大會上，一些大牛將首次分享AI在金融、電商、教育、外賣、搜索推薦、人臉識別、自動駕駛、語音交互等領域的最新落地案例，應該能學到不少東西。目前大會8折報名倒計時，更多精彩可點擊閱讀原文詳細了解。

http://t.cn/Rl2MftP