阿爾法狗將走入人類生活,發明人首次復盤人機大戰,人類已無敵 | 獨家

鈦度要點:席爾瓦透露了AlphaGo的下一步可能動向以及應用前景,將是人們息息相關的生活。AlphaGo的最新版本自我估分在4500左右,遠遠超出積分3625的柯潔,實力水平大約在13段左右,人類選手中已然無敵。

鈦媒體註:「谷李」世紀大戰硝煙散盡,由此引發的機器學習與人工智慧的熱潮不減反增。日前,AlphaGo (中文俗稱「阿爾法狗」)項目負責人,有著阿爾法狗之父之稱的大衛·席爾瓦(David Silver)回到英國倫敦,在母校倫敦大學學院(UniversityCollege London,UCL)一場私密會上復盤了人工智慧圍棋系統AlphaGo與李世石的5番棋大戰,在場的聽眾被禁止拍照。這也是賽後,阿爾法狗團隊的首次半公開復盤。

UCL計算機系是全英計算機排名第一的學院。在UCL計算機系攻讀博士學位的中國留學生張偉楠全程參與了這次分享會,並且在會後與席爾瓦進行了面對面的交流。鈦媒體獨家約稿張傳楠,根據席爾瓦的分享及會後與席爾瓦的交流,寫作此文,席爾瓦也透露了AlphaGo的下一步可能動向以及應用前景。席爾瓦透露,AlphaGo的最新版本自我估分在4500左右,遠遠超出積分3625的柯潔,實力水平大約在13段左右,人類選手中已然無敵。

兩周前的那場人機大戰,AlphaGo出人意料地獲得了壓倒性的勝利,4:1戰勝了李世石。棋局進程激烈精彩之處,不亞於那些人類棋手創造的歷史名局。

3月24晶,回到UCL大學,席爾瓦在復盤中詳細講述了AlphaGo背後的技術原理以及谷李5場比賽的分析。

獲得歷史性的勝利之後,外界十分關心AlphaGo的下一步和未來,席爾瓦透露,在《Nature》那篇文章引發廣泛關注和轟動之後,AlphaGo團隊還將再寫一篇論文,與外界分享AlphaGo與李世石比賽中的技術進步。

席爾瓦還表示,DeepMind一直希望能夠為開發者社區做貢獻,他們之前也公布了DQN項目(deep-q-network)的代碼——基於深度強化學習的遊戲平台。未來他們可能會公布AlphaGo的代碼,只要能找到一個合適的方案,但是目前還沒有找到。

投入20個人的團隊,花費大量的財力去做圍棋對弈,對谷歌來說意味著什麼?下一步會如何延伸到其他產業領域?

席爾瓦透露,DeepMind今後的著眼點是和人們日常生活息息相關,並可以改變世界的應用,比如精準醫療、家用機器人以及智能手機助手。

AlphaGo之父十年磨一劍

似乎在一夜之間,機器選手戰勝了人類最頂尖圍棋選手。但是,對於席爾瓦來說,人工智慧圍棋耗時十幾年,最終不過是水到渠成。

作為AlphaGo的幕後團隊的技術主管,也是谷歌DeepMind團隊最重要的科學家之一,席爾瓦還身兼UCL大學的教職,是該校計算機系的教授,教授「強化學習」的課程。

席爾瓦是在加拿大阿伯塔大學獲得博士學位,師從世界上首屈一指的「強化學習」大師理查德·薩頓(Richard S.Sutton)研究強化學習演算法,後來在另一座科技聖殿美國麻省理工學院從事博士後研究。

在攻讀博士以及博士後工作期間,席爾瓦一直致力於強化學習在圍棋人工智慧上的研究。到英國UCL大學計算機系執教以後,他還經常拿圍棋作為授課的應用實例。

席爾瓦的課程開始聽的人並非很多。三年前,我曾上過他的課程。有一次因故遲到了20分鐘,當時的教室里仍然可以找到座位。現在,隨著他加入到Deepmind團隊,尤其是他掌舵AlphaGo項目名聲大噪,他的課程也開始廣受歡迎,遲到的人基本上只能站著聽課了。

加入DeepMind之前,席爾瓦即已開始和CEO戴密斯·哈薩比斯(Demis Hassabis)共同研究強化學習。哈薩比斯在UCL拿到了神經學博士學位。兩個人都痴迷於遊戲,哈撒比斯少年時曾經是英國國際象棋隊隊長,在13歲便已經獲得國際象棋大師的頭銜,青年時自創遊戲公司,而席爾瓦則長期對圍棋情有獨鍾。

2014年初,在被谷歌收購之前,DeepMind即開始與UCL洽談,希望能買斷席爾瓦的工作時間。這樣可以保留他在大學的教職的同時,還可以讓他在DeepMind全心工作。

加盟DeepMind之後,席爾瓦成立了20個人的AlphaGo團隊,專門研究圍棋人工智慧。彙集整個團隊的力量,他要求在技術研發的每一個環節上都追求極致。AlphaGo團隊成員就透露,有的智能模塊在谷歌團隊看來已經很完美了,但是席爾瓦卻仍認為不及格,離完美還差很遠。

長期專註於人工智慧與圍棋項目,在技術方面追求極致,再加上勢大財雄的谷歌的團隊配合,最終成就了AlphaGo的驟然爆發。

復盤谷李大戰

復盤是職業圍棋選手經常做的一件事,他們相信總結過去一盤棋的經驗和教訓,可以提高自己的棋藝。

AlphaGo團隊也做了復盤,通過幾張幻燈片的形式,席爾瓦復盤了這5場比賽的勝負關鍵處,而在場的聽眾被禁止拍照。

第一盤的勝負關鍵處是,AlphaGo執白棋第102手打入黑空,職業高手們普遍認為這是一招險招,看上去李世石對此也早有準備。事後看,棋局的進程卻是李世石應對有誤,進入到了AlphaGo的計算步調中。再下了幾手棋之後,AlphaGo已經優勢明顯。

第二盤棋的開局不久,AlphaGo就下出了職業棋手們普遍認為不妥的一手棋。席爾瓦稱其為反人類(unhuman)一手——第37手5路肩沖。觀戰的多數職業高手認為這不太成立,超出了職業高手們正常的行棋邏輯。

隨後的進程,這手棋的價值逐漸閃現,李世石又一次輸得毫無脾氣。

席爾瓦解釋道:「多數評論員都第一時間批評這一步棋,從來沒有人在這樣的情況下走出如此一著。在勝負已定之後,一些專業人士重新思考這一步,他們改口稱自己很可能也會走這一著。」

而在AlphaGo看來,當時只是一步很正常的走子選擇而已。

對於第一盤棋和第二盤棋,許多職業圍棋選手以及媒體分析都認為,AlphaGo逆轉取勝,但是在AlphaGo自身的價值網路所做的實時勝率分析看來,自己始終處於領先。在AlphaGo獲勝的4盤中,AlphaGo系統自有的勝率評估始終都是領先李世石,從頭到尾壓制直到最終獲勝。

第三盤和第五盤,AlphaGo 都是在棋局剛開始不久,就已經取得了明顯優勢並持續提高勝率直到終局。與職業棋手根據經驗所做的勝負判斷不同,AlphaGo的自有勝率評估是基於一個價值模塊,做出對棋局勝負的預計。

這兩種判斷截然不同。當第五盤右下角的爭奪錯綜複雜時,AlphaGo選擇脫先,轉而落子在其他位置。不少職業棋手認為,AlphaGo在此犯錯並落後了,但AlphaGo的選擇卻是依據全局最優估計而做出的。

以幾局的成敗論,AlphaGo的這種判斷似乎更為準確。突破了職業棋手對圍棋的傳統的理解範疇,不再局限於棋手多年培養出來的圍棋直覺和套路定式,會選擇探索職業棋手正常不願意考慮的招數。AlphaGo在人類棋譜學習的基礎上,還進行了大量的自我對弈,從而研究出了一些人類從未涉及到的走法。

「神之一手」的背後

AlphaGo系統並非無懈可擊,但是,漏洞並不是所謂的模仿棋、打劫等等。它的漏洞體現在李世石贏得比賽的第四盤棋,AlphaGo取得巨大進步的價值模塊出現了瑕疵,這也是AlphaGo在5局棋中唯一的一次漏洞,也是唯一的一盤失利。

在第四盤棋中,開局之後很快就幾陷絕境中的李世石,弈出了被來自中國的世界冠軍古力成為「神之一手」的白78手,凌空一挖。堅韌如山的對手突然倒下,AlphaGo變得不知所措,連續出現低級昏招,這也成就了AlphaGo有記載的公開的第一局失利。

對於AlphaGo的異常表現,各路觀戰的職業高手充滿了猜測。即使是觀賽的哈撒比斯和席爾瓦也都不知道究竟發生了什麼。

事後的分析顯示,在李世石下出第78手之前,AlphaGo自有的勝率評估一直認為自己領先,評估的勝率高達70%。在第78手之後,AlphaGo評估的勝率急轉直下,被李世石遙遙領先,之後再也沒有縮短差距。

為什麼AlphaGo面對李世石的第78手表現如此差,是因為它沒有想到李世石的這手棋嗎?

席爾瓦揭曉了這一秘密。AlphaGo的計算體系中,的確曾經評估過這手棋,只是在AlphaGo的評估中,李世石走那一子的概率大概是萬分之一,最終,它沒有想到李世石會這樣走,也就沒有計算李世石這樣走之後如何應對。

賽後,獲勝的李世石則說,這一手在他看來是唯一的選擇。

AlphaGo背後的蒙特卡洛樹搜索依賴的策略網路,是根據人類對弈棋譜數據訓練出來的模型,它很難去預測白78手這樣的所謂手筋妙招,也就很難判斷基於這一步繼續往下搜索之後的勝負狀態。

這就是AlphaGo在這5盤對局中表現出的唯一破綻,也是目前人類智慧還領先於AlphaGo背後的大數據驅動的通用人工智慧(Data-driven Artificial General Intelligence)的地方。

人工智慧已然無敵?

在此次大賽之前,多數來自職業圍棋界的棋手包括李世石自己都認為,李世石會輕鬆取勝。但是,DeepMind團隊卻信心滿滿。另一位DeepMind團隊的主力成員也曾經在UCL介紹AlphaGo的進展,在展望與李世石的比賽時,他曾就篤定地預言,AlphaGo會贏。

當有人問及從去年10月戰勝梵麾,到今年3月對陣李世石,半年時間當中, AlphaGo究竟有哪些方面的提升時,席爾瓦簡要回答說:「我們在系統的每一個模型上儘可能推進效果極致,尤其在價值網路上獲得了很大的提升。訓練價值網路的目標勝率除了通過自我對弈的結果外,我們還使用了搜索策略去儘可能逼近理論的勝率。」

直觀地說,3月版本的AlphaGo比半年前的水平大概是讓4子——讓對方先佔據4個星位!

在戰勝李世石之後,中國、韓國、日本許多的職業棋手,包括李世石本人都希望能夠再與AlphaGo一戰。

按照等級分排名,AlphaGo僅次於中國的世界冠軍柯潔,排名世界第二。而席爾瓦透露,AlphaGo的最新版本自我估分在4500左右,遠遠超出現在3600多的柯潔,實力水平大約在13段左右,人類選手中已然無敵!

AlphaGo為什麼會有這麼強勁的表現?在講座當中,席爾瓦部分地複述和解釋了今年1月《Nature》上發表的論文,講述了人工智慧的基本原理以及AlphaGo的技術框架。

對於人工智慧來說,圍棋遊戲的難度在於,決策空間實在太大。決策(Decision Making)是人工智慧的關鍵要素,使得機器能夠在人類的世界中發揮作用。

在圍棋以及任何遊戲中,一次決策往往使得遊戲更新到了一個新的局面,於是影響到了接下來的決策,一直到最終遊戲的勝負。人工智慧的關鍵就是在決策空間中搜索達到最大效益的路徑,最終體現在當前決策中。

圍棋棋盤上棋子可能的組合方式的數量就有10的170次方之多,超過宇宙原子總數。在近乎無窮的決策空間中,去暴力搜索出當前棋盤的下一步最優走子是絕對不可能的事情。

AlphaGo的方案是在這樣的超級空間中,做到儘可能有效的路徑選擇。其思路是一個框架加兩個模塊:解決框架是蒙特卡洛樹搜索(MonteCarlo Tree Search),兩個模塊分別是策略網路和價值網路。

策略網路(Policy Network)根據當前棋盤狀態決策下一步走子,是典型的人工智慧決策問題。策略網路搭建的第一步,基於KGS圍棋伺服器上30萬張業餘選手對弈棋譜的監督學習(SupervisedLearning),來判斷當前棋盤人類最可能的下一走子是什麼。

第二步,是利用監督學習得到的第一個策略網路去通過自我對弈來訓練一個加強版的策略網路,學習方法是強化學習(Reinforcement Learning),自我對弈3000萬局,從人類的走子策略中進一步提升。

遵循策略網路的判斷,在蒙特卡洛樹搜索框架下對每個棋盤狀態的採樣範圍就大大減小,這是一個搜索寬度的減小,但是由於一盤圍棋總手數可以多達250步以上,搜索的深度仍然帶來無法處理的巨大計算量,而這就由第二個模塊——價值網路來解決。

價值網路(Value Network)的功能是根據當前棋盤狀態判斷黑白子某一方的勝率,是一個人工智慧預測(Prediction)問題。

處理預測問題的機器學習模型一般需要直接知道需要預測的真實目標是什麼,比如預測第二天的天氣,或者預測用戶是否會一周內購買某個商品,這些歷史數據都有直接的目標數據可供機器學習。而在圍棋對局中,給定的一盤棋局完全可能在歷史上就找不到哪次對弈出現過這樣的局面,也就不能直接得到對弈最終的勝負結果。

AlphaGo的解決方法是使用強化學習得到的策略網路,以該棋局為起點進行大量自我對弈,並把最終的勝率記錄下來作為價值網路學習的目標。

有了價值網路,蒙特卡洛樹搜索也就不再需要一直採樣到對弈的最後,而是在適當的搜索深度停下來,直接用價值網路估計當前勝率。這樣就通過降低搜索的深度來大大減小了運算量。

AlphaGo整合了目前機器學習領域的大多數有效的學習模型,包括通過採樣來逼近最優解的蒙特卡洛樹搜索,通過有監督學習和強化學習訓練來降低搜索寬度並作出走子決策的策略網路,以及通過有監督學習訓練的降低搜索深度提前判斷勝率的價值網路。

作為人類棋手翹楚,33歲的職業圍棋九段高手李世石,過去15年獲得了十幾個世界冠軍頭銜,總共下了1萬盤圍棋對弈,經過了3萬個小時訓練,每秒可以搜索10個走子可能。

但是,作為人工智慧科技進步的代表,吸收了近期機器學習人工智慧的最新進展,建立起了全新的價值網路和策略網路,誕生只有兩年時間的AlphaGo,差不多經歷了3萬小時的訓練,每秒卻可以搜索10萬個走子可能。

這一刻,勝負已分。

人工智慧的巨頭爭奪戰

在AlphaGo取得巨大成功,獲得全世界廣泛關注的背後,是谷歌、Facebook、微軟等幾家科技巨頭的競爭。基於人工智慧,幾大巨頭的都開展了各自的項目研究,以及人才爭奪。

幾天前的智能圍棋大賽上,Facebook派出了自己研發的「黑暗森林」,獲得了第二名,其主創人員田淵棟正是來自於谷歌,他曾經服務於谷歌的無人駕駛汽車項目團隊。

很明顯,黑暗森林現在還不是AlphaGo的對手。

2014年下半年以及2015年年中,我曾經兩次在微軟劍橋研究院實習,參與了微軟Xbox音樂推薦引擎的研究項目,期望通過基於強化學習的人工智慧演算法來互動式地為用戶推薦他們喜歡的音樂並從用戶提供的反饋中進一步學習。

該項目組直接負責人是特拉·格朗普(ThoreGraepel),業界大名鼎鼎的機器學習專家,又一個技術大咖中的圍棋高手。Windows中圍棋遊戲里的人工智慧就是他負責研發的,與席爾瓦一樣,他也是UCL計算機系的兼職教授。

一個周一的上午,當我來到微軟劍橋辦公室的時候,一個同事告訴我,格朗普已經離職了,和席爾瓦一樣,加入了DeepMind。他後來告訴我,他在DeepMind感受到了前所未有的魅力,以致於他很後悔沒有早一些加入。他感嘆自己從未見過凝聚力如此之高,目標如此統一,而又沒有任何考核壓力的團隊。

後來,格朗普的名字也出現在了《Nature》關於AlphaGo的論文作者名單中,在谷李大戰間隙,他曾經與李世石一起接受電視台的採訪,熟悉他的人能夠明顯地感受到,他發自內心快樂。

我在微軟實習的另一位導師,是畢業於劍橋大學的貝葉斯機器學習方面的專家,他有著紮實的數學功底,在2015年下半年也從微軟離職,加入了劍橋的一家做語音識別智能系統的初創公司,不久之後該公司即被蘋果公司收購。他帶領一個12人的團隊,負責蘋果Siri智能問答系統的一項技術。

就在最近,我在倫敦的酒吧里見到了他,他私下透露,自己正在申請加入DeepMind。他說,現在正處在人工智慧真正爆發的歷史轉折點,從0到1一般的重大。未來5到10年人工智慧將會井噴式地發展,無論是工業界還是學術界。在這樣一個時代,搞人工智慧出身的自己難道不想奮力擁抱浪潮么?

在這樣一種情境下,他不甘於在團隊中做管理,他已經半年沒有寫過一行程序,沒有推過一個數學公式了。「今天的人工智慧領域就像是一場舉世矚目的英超德比,全世界的人們都為此感到沸騰。而這個時候,我們人工智慧研究員就應該上場比賽,成為主角,而不是在觀眾席上加油。」

AlphaGo的巨大效應讓谷歌吸引人才方面佔盡優勢,但是,Facebook、蘋果、微軟也不甘就此授首。

在格朗普從微軟離職之後,一位年輕的女研究員接管了我在微軟的實習項目,兩人的研究成果在人工智慧會議AAAI2016上發表。2015年上半年,她在微軟啟動了一個叫做AIX的人工智慧項目,提供了一個通用人工智慧的平台,可以使得計算機科學家通過它編寫智能學習程序並在微軟旗下的《我的世界》(Minecraft)遊戲世界中測試。

在AIX里,科學家並不需要直接編程告訴機器人如何完成一個具體的任務,例如選擇什麼樣的路徑攀登上一座山的頂峰,而是把如何學習並取得進步的程序輸入機器人,讓它們來通過和環境的交互來自動學習到完成任務的辦法,真正做到「授機器以漁」。

與谷歌不一樣,微軟延續了自己慣用的平台戰略思路。巨頭之間戰略思路不同,事屬平常,但都非常看好人工智慧、機器學習帶來的戰略機遇,並同時開始在人才、技術、市場方面的布局和競爭,也許這場競爭會決定未來10年幾家巨頭競爭的勝負。(本文獨家首發鈦媒體)

* 鈦媒體作者介紹:張傳楠,英國倫敦大學學院(UCL)博士候選人,即將受聘於上海交大擔任助理教授,北京優路科技聯合創始人

相關回顧|戳 圖片獲取詳細內容

人類小贏一局,阿爾法狗露出了詭異的微笑


推薦閱讀:

怎樣看待阿爾法狗再進化?
阿爾法狗的前世今生
怎樣看待阿爾法狗再進化:3天自學高分贏過舊版?
人機大戰巔峰對決第一局:柯潔惜敗阿爾法狗
阿爾法狗再進化,人類棋手徹底奔潰?

TAG:生活 | 人類 | 發明 | 發明人 | 復盤 | 阿爾法狗 |