啟蒙:看人機大戰第二季有感
全程追完人機大戰第二季,感觸頗深。作為一名圍棋和機器學習愛好者,想寫這篇文章談一些感受。
第二次的人機大戰,人類一盤未贏,在意料之中。機器在大局觀上完全碾壓人類,每盤棋幾乎都有出乎意料的棋。在四盤棋里的三盤棋里(包括團體賽一盤),人類都早早的在布局落後,年初和Master下的60盤棋也大多如此,一旦落後了便再也沒有翻盤的機會。在柯潔與AlphaGo的三盤裡,柯潔竭盡全力依然無法看到明顯的機會。輸棋是難受的。從柯潔登上世界大賽的舞台以來,從未看見他如此的絕望。
圖一:絕望的柯潔
然而,這個輸棋的鍋其實不應該由他來背。人類下棋水平,有很大一部分是有固有經驗來決定的。特別是開局,由於可選擇的點多,相對自由,人類就會用一些套路和定式來簡化它。 不只是圍棋,幾乎所有領域都是如此,比如傳統醫學, 傳統武術,宗教,文化,生活習慣等等…… 簡而言之,我們傳統的邏輯是:根據過往的經驗,這樣這樣做是有效的。根據經驗行事某種程度上是動物的本能。我們可以通過以前的經驗規避風險,提高生存繁殖的幾率。相對來講,不吸取經驗教訓的物種更難以生存,必將被淘汰。
但是,憑經驗行事的人類有其局限性。因為無法驗證經驗到底是不是正確的,所以我們也可能因為缺乏驗證而盲從錯誤的經驗。比如認為13是不吉利的數字,某些草藥可以治某些病,相信占星術等等。錯誤的經驗有的時候也有可能是災難,特別是醫學和宗教方面,有些民族的宗教可能用人來獻祭,有些治療手段可能沒有效果或者是副作用。所以對經驗的驗證就變得尤其的重要。正因為有了對經驗驗證的方法,人類的壽命從200年前的40歲以下上升到了現在的將近70歲。因為有經驗驗證的方法,我們可以對人類心理,社會,經濟,物理,化學等等領域進行研究,剔除錯誤的經驗,推動人類社會的發展和進步。
圖二:曾經的人類以為放血是個不錯的治療方法
AlphaGo所使用的人工智慧,也可以說是一個驗證經驗的工具。依靠強大的數據處理運算能力,AlphaGo 通過對圍棋數據的加工,匯總和分析,來檢驗哪些招法可以增加取勝的幾率。人類在行棋過程中,通過經驗與直覺確定潛在的下一步,並向後演算比較多個變化圖,做出選擇。兩個有相似經驗人類可以在一些局面上達成共識,比如圍棋中的「定式」就是一種共識。我們學棋的過程中學習的就是前人所達成的共識,這些共識基於前人的實戰。這樣的經驗可以讓我們學習並達到相當的棋力,但是並不是所有的經驗都經得起檢驗。

所以,我認為柯潔這次的完敗其實應該歸咎於所有古今的棋手,我們人類對於圍棋的認知到目前就是這個程度,AlphaGo的檢驗告訴我們,這些經驗遠非完美。但這次的人機大戰相比第一次和網上的60盤棋卻是有明顯不同的。相比李世石初次面對機器的不知所措,柯潔在這次人機大戰就有更多經驗,有年初的60盤棋可以學習,柯潔在比賽中也下出了AlphaGo覺得效率更高的棋(比如點三三,脫先等),第二盤棋前100手勝率很接近其實也有那60盤棋的功勞。因為人類比較難驗證的是布局,和AlphaGo下出問題最多的階段也是布局,而布局是恰恰可以賽前準備的,假設人類和AlphaGo下了足夠多的棋,學習他的布局思想和理念,我相信用不了多久這些由AlphaGo帶給我們全新的經驗可以讓人類在布局上下得和AlphaGo差不多好,如果有這樣充分學習過AlphaGo布局的人類來下人機大戰,人類的勝率將大大增加(當然前提是目前這個版本不再進化)。

推薦閱讀:
※柯潔輸掉人機大戰不可怕,計算機悔棋、掀棋盤才可怕
※AlphaGo Zero 背後的強化學習演算法
※柯潔 VS AlphaGo,誰將旗開得勝?
