柯潔說:後兩場全力以赴,之後不再與AI對弈
02-09
23日14點52分,一盤圍棋在烏鎮互聯網國際會展中心收官,黑子以四分之一目輸給白子。這是AlphaGo和柯潔的第一場正式比賽,猜先後,柯潔先手執黑,AlphaGo執白,代AlphaGo執棋的人肉臂是DeepMind資深研究員黃士傑博士。
推薦閱讀:

對於一場被極度關注的賽事,柯潔在比賽剛開始時的表現卻顯得比較輕鬆。
他系一條特別小清新的天藍色領帶,正逢烏鎮梅雨時節,這條領帶讓他看起來又涼爽。雖然還不到20歲,但是比賽中的柯潔總讓人感覺不到他其實還是個少年。
其中一個重要的原因是,國際象棋的所有可能性只有 10 的 46 次方,而圍棋的可能性是 10 的 170 次方之外。
在深藍獲勝20年之後計算機領域幾乎沒有停滯過的摩爾定律為AlphaGo的出現提供了算力基礎。另一方面,人工智慧的演算法在過去的20年中也出現了變化。最典型的是從雙層神經網路進化到了多層神經網路,而在反向傳播的基礎上多層神經網路的自主學習實現了可能。簡單來說,即便是在1997年人類就已經製作出了AlphaGo所使用的演算法,我們也不足以製造出足夠能運算這一演算法的計算機。早在1952年,計算機專家艾倫·圖靈就編寫了世界上第一個可以下國際象棋的計算機程序。但當時的計算機算力不足以支撐這個程序,圖靈用紙和筆模擬驗算,半小時下一步與同事對弈。算力的改進為AlphaGo提供了比之前的所有AI更快的思考速度,演算法的改進則為AlphaGo提供了比之前的任何AI都更先進的思考方式。兩者共同實現的就是讓AlphaGo能夠在正常圍棋賽的時間內,計算出下一步落子的位置。這才是讓AlphaGo能夠在今天,在此刻有可能戰勝人類的原因。AlphaGo在這一局比賽中,剩餘的時間很長,但贏得的目數不多。AlphaGo在現有的算力基礎上,演算法依然有改進的空間。這也許是因為之前AlphaGo都在下快棋,還沒有習慣「多思考一會兒」。
那麼,AlphaGo是如何贏得比賽的?
AlphaGo的基礎原理在很多地方已經講過了——既然圍棋的可能性有 10 的 170 次方之多,那麼就不可能通過窮舉的辦法來預測對手的每一步行動。但是,現實中的圍棋對弈也不需要這樣預測所有的可能,只需要綜合圍棋的一般下法、經典的棋譜、對手的下棋風格,猜出「你此刻的對手打算怎麼走」就可以剋制對方了。
而很多人注意到,這一局比賽中「AlphaGo判斷自己勝定後,在小官子階段有退讓」這並不一定是AlphaGo變得人性化了。而是AlphaGo在「學習」的過程中,連人類的這種下棋的「禮儀」也學走了。
這有可能,反而是戰勝AlphaGo的一個突破點。如果人類完敗,AlphaGo的下一個目標是自己嗎?很多人問,「AlphaGo和AlphaGo比賽,哪個會獲勝?」這裡需要用「如何識別蘋果」,來簡單的解釋下什麼是深度學習:- 我們都能很輕易的概括一個蘋果的特徵,比如:紅色、圓的、反光、沒有毛
- 在實際中,研究人員並不會先定義蘋果的這些特性,而是將一堆包含蘋果和不包含蘋果的圖像都丟給多層神經網路。
- 多層神經網路的第一層先把圖片中比較像的分為X個類。在下一層里,將X類中的圖片按照新的特徵重新分一遍生成Y個類,不斷分類下去。
- 在訓練的最開始,演算法對圖片進行的分類是完全隨機的,得到的結果也是完全錯誤的。
- 研究人員只需要標定最後一層的正確結果。演算法會用自己錯誤的結果和正確結果進行比較,並根據比較的結果從最後一層開始反向地逐層調整自己的參數,每調整一次參數就會更接近正確答案一些。
除了正確結果的標定,所有的調整和反推的計算都是演算法自己完成的,不需要任何人工干預。
在經過多輪訓練之後,「蘋果」這種具有明顯共同特徵的植物出現在了某一個特定的類別里,研究人員指著這個分類說:這,就是蘋果——從此機器學會了如何識別蘋果。

正是千萬次的戰勝了自己,AlphaGo才能在棋盤上戰勝了柯潔一次。而不管AlphaGo之後還打算挑戰誰,柯潔也已經是人工智慧在棋盤上能遇到的終極敵人了。
今天結束,AlphaGo距離自己完勝人類還要經歷25日和27日兩場比賽。也許柯潔會從今天的比賽中摸出一些AlphaGo的套路,讓人類剩下的兩場「掙扎」絕處逢生。加油呀,代表人類的最終Boss!-----------------------------------------更多精彩請關注我們的微信公眾號:PingWest品玩(wepingwest)推薦閱讀:
※余凱:不做AI晶元,如何改變世界?
※AI研究院 | 機器也會有思想?看看AlphaGo之父怎麼說
※【專知薈萃22】機器閱讀理解RC知識資料全集(入門/進階/論文/綜述/代碼/專家,附查看)
※邏輯與神經之間的橋 (2.0版)
※歐陽辰:AI將如何改變廣告業?
