標籤:

神經網路之父:深度學習已進入瓶頸期,模擬人類神經結構將是突破口?| 獨家專訪Geoffrey Hinton

實際上,你聽說過的幾乎每一個關於人工智慧的進步,都是由 30 年前的一篇闡述多層神經網路的訓練方法的論文演變而來,它為人工智慧在最近十年的發展奠定了基礎,但要保持這種進步,就要面對人工智慧嚴重的局限性。

圖丨1986年辛頓與他人合作的神經網路論文

如今,我正站在多倫多市中心一棟高級大廈七層的一個大房間里,這裡即將成為世界中心。這裡就是新成立的人工智慧研究所Vector Institute的所在地。研究所的聯合創始人喬丹·雅各布(Jordan Jacobs)帶著我來到這裡。該研究所於今年秋天正式成立,致力於成為全球人工智慧中心。

圖丨傑弗里·辛頓(Geoffrey Hinton)

我們為了拜訪傑弗里·辛頓(Geoffrey Hinton)來到多倫多。他是「深度學習」之父,正是這個技術讓人工智慧發展到今天這般炙手可熱。雅各布說:「我們30年後再往回看,傑弗里就是人工智慧(我們認為深度學習就是人工智慧)的愛因斯坦。」

在人工智慧領域最頂尖的研究人員當中,辛頓的引用率最高,超過了排在他後面三位研究人員的總和。他的學生和博士後領導著蘋果、Facebook和OpenAI的人工智慧實驗室;辛頓本人是谷歌大腦(Google Brain)人工智慧團隊的首席科學家。

事實上,人工智慧在最近十年里取得的幾乎每一個成就,包括語音識別、圖像識別,以及博弈,在某種程度上都能追溯到辛頓的工作。

Vector Institute研究中心進一步升華了辛頓的研究。在這裡,谷歌、Uber、Nvidia等美國和加拿大的公司正努力將人工智慧的技術商業化。資金到位的速度比雅各布想像的更快;他的兩個聯合創始人調研了多倫多的公司,發現他們對人工智慧專家的需求是加拿大每年培養的人數的10倍。

某種意義上,Vector研究所是全球深度學習運動的原爆點:(無數公司)靠這項技術牟利,訓練它、改進它、應用它。到處都在建造數據中心,創業公司擠滿了摩天大樓,整整新一代學生也紛紛投身這一領域。

當你站在空曠得能聽得到回聲、但又即將被佔滿的Vector研究所時,會感覺自己置身於一個未知世界的起點。但是,深度學習最核心的理念早已出現。1986年,辛頓聯合同事大衛·魯姆哈特(David Rumelhart)和羅納德·威廉姆斯(Ronald Williams),發表了一篇突破性的論文,詳細介紹了一種叫作「反向傳播」(backpropagation,簡稱backprop)的技術。普林斯頓計算心理學家喬恩·科恩(Jon Cohen)將反向傳播定義為「所有深度學習技術的基礎。」

歸根結底,今天的人工智慧就是深度學習,而深度學習就是反向傳播。我們很難相信反向傳播已經出現了30多年。為什麼它會在沉寂多年後突然爆發?其實,當你理解了反向傳播的發展歷史,也就會開始明白人工智慧的現狀,並且意識到,我們也許並非處於一場變革的起點,而是終點。

深度學習,一份遲到26年的禮物

辛頓現在是多倫多大學的榮譽教授,大部分時間在谷歌工作。從 Vector Institute 走到辛頓辦公室的路程就是這座城市的一種活廣告。特別是在夏天的時候,你會明白為什麼來自英國的辛頓在 1980 年代離開匹茲堡的卡耐基梅隆大學並移居此地。

當你來到室外的時候,會感覺自己彷彿真的進入了大自然,甚至在金融區附近的市中心也是如此。我認為這是因為城市裡的空氣很濕潤。多倫多坐落在森林峽谷上,被譽為「花園城市」。在多倫多完成城市化後,,當地政府為樹冠密度設立了嚴格的規定。從飛機上俯瞰多倫多,整座城市被籠罩在一片蒼翠之中。

多倫多是北美第四大城市(僅次於墨西哥、紐約和洛杉磯),也是其中最多元化的城市:一半以上的居民出生於加拿大以外的地方。你在城市裡走一圈就能發現,這裡的科技圈更國際化,不像舊金山都是穿著連帽衫的白人青年。這裡有免費醫療和優質的公立學校,居民都很友好,政治秩序偏左而穩定——這些因素吸引了像辛頓這樣的人。辛頓表示,他是因為「伊朗門」事件而離開美國的,我在午餐前見到他時就談到此事。

「卡耐基梅隆大學的很多人認為,美國有充分的理由侵略尼加拉瓜,」他說,「他們或多或少認為尼加拉瓜屬於美國。」辛頓告訴我,他最近在一個項目上取得了重大突破:「我找到了一位非常優秀的初級工程師一起合作。」他指的是莎拉·薩伯爾(Sara Sabour)女士。薩伯爾是伊朗人,在美國申請工作簽證時遭到拒簽。後來,谷歌的多倫多辦公室幫她解決了簽證問題。

69 歲的辛頓長著一副像圓夢巨人(譯註:圓夢巨人是英國兒童文學作家羅爾德·達爾的同名小說的主人公,性格善良)那樣友善、瘦削的英式面孔、薄嘴唇、大耳朵、高鼻樑。他出生於英格蘭的溫布爾頓。他說話時就像在念一本少兒科普讀物一樣:好奇、投入、解說時充滿激情。他很有趣,也很健談。我們談話時,他全程站立,因為坐著太痛苦了。

辛頓告訴我:「我在 2005 年 6 月坐下了,我錯了。」這句話讓我感到費解,於是他解釋道,他的背部椎間盤有問題。這意味著,他不能坐飛機。當天早些時候,他不得不把一個類似衝浪板的奇怪裝置帶到牙醫辦公室。醫生在為他檢查一個隱裂牙根時,他就躺在那塊板子上。

在 1980 年代,辛頓就已經是一位神經網路專家了。神經網路是人腦神經元和突觸網路的一個簡化模型。然而,當時科學界認為,把人工智慧領域導向神經網路方向是自尋死路。

最早的神經網路Perceptron誕生於1960年代,被譽為邁向類人機器智能的第一步。1969年,麻省理工學院的馬文·明斯基(Marvin Minsky)和西摩·帕爾特(Seymour Papert)發表了著作《Perceptrons》,用數學的方法證明這種網路只能實現最基本的功能。這種網路只有兩層神經元,一個輸入層和一個輸出層。如果在輸入層和輸出層之間加上更多的網路,理論上可以解決大量不同的問題,但是沒人知道如何訓練它們,所以這些神經網路在應用領域毫無作用。除了少數像辛頓這樣不服輸的人,大多數人看過這本書後都完全放棄了神經網路的研究。

辛頓在 1986 年取得了突破,他發現反向傳播可以用來訓練深度神經網路,即多於兩層或三層的神經網路。但自那以後又過了 26 年,不斷增強的計算能力才使這一理論得以證實。辛頓和他在多倫多的學生於 2012 年發表的一篇論文表明,用反向傳播訓練的深度神經網路在圖像識別領域打敗了當時最先進的系統——「深度學習」終於面世。

在外界看來,人工智慧似乎一夜之間突然爆發了,但對辛頓而言,這只是一個遲到的禮物。

矢量無所不能,反向傳播已被榨乾潛力?

神經網路通常被比喻成一塊有很多層的三明治。每層都有人工神經元,也就是微小的計算單元。這些神經元在興奮時會把信號傳遞給相連的另一個神經元(和真正的神經元傳導興奮的方式一樣)。每個神經元的興奮程度用一個數字代表,例如0.13或32.39。兩個神經元的連接處也有一個重要的數字,代表多少興奮從一個神經元傳導至另一個神經元。這個數字是用來模擬人腦神經元之間的連接強度。數值越大,連接越強,從一個神經元傳導至另一個神經元的興奮度就越高。

實際上,圖像識別是深度神經網路最成功的應用之一。正如 HBO 的電視劇《矽谷》中就有這樣一個場景:創業團隊開發了一款程序,能夠辨認圖片中有沒有熱狗。現實生活中確實有類似的程序,但這在 10 年前是無法想像的。要讓它們發揮作用,首先需要一張圖片。舉一個簡單的例子,讓神經網路讀取一張寬 100 像素、高 100 像素的黑白照片,輸入層每一個模擬神經元的興奮值就是每一個像素的明亮度。那麼,在這塊三明治的底層,一萬個神經元(100x100)代表圖片中每個像素的明亮度。

以上圖解來自辛頓、大衛·魯姆哈特(David Rumelhart)和羅納德·威廉姆斯(Ronald Williams)有關「誤差傳播」的開創性著作。

然後,將這一層神經元與另一層神經元相連,假如一層上有幾千個神經元,它們與另一層上的幾千個神經元相連,然後一層一層以此類推。最後,這塊三明治的最頂層,即輸出層,只有兩個神經元,一個代表「熱狗」,另一個代表「不是熱狗」。這個過程是為了訓練神經網路在圖片中有熱狗時將興奮僅傳導至第一個神經元,而在圖片中沒有熱狗時將興奮僅傳導至第二個神經元。這種訓練方法就是辛頓開發的反向傳播技術。

反向傳播的原理極其簡單,但它需要大量的數據才能達到最佳效果。正因如此,大數據對人工智慧至關重要。也正式出於這個原因,Facebook 和谷歌對大數據求之若渴,Vector Institute 決定在加拿大最大的四家醫院附近設立總部,並與他們開展數據合作。

在上面的例子里,所需的數據是幾百萬張圖片,部分圖片中有熱狗,其他圖片中沒有。重要的是,圖片要被標記出是否帶有熱狗。當你剛剛創建自己的神經網路時,神經元之間連接的強度是隨機的。換句話說,每個連接傳導的興奮值也是隨機的,就像人腦中的突觸還沒有完全成形。反向傳播的目標是通過改變這些數值讓神經網路發揮作用:當你將一張熱狗圖片傳導至底層時,頂層的「熱狗」就能產生興奮。

假設你用來訓練神經網路的第一張圖片是鋼琴照片。你將這張 100x100 的圖片的像素強度轉換為一萬個數字,每個數字代表神經網路底層的單個神經元。興奮根據相鄰層神經元之間的連接強度在網路中傳播,最終到達最後一層,上面僅有兩個神經元,分別代表圖片中是否有熱狗。

由於那張圖片上是一架鋼琴,理想條件下,「熱狗」神經元上的數字應該是 0,而「不是熱狗」神經元上應該是一個大於 0 的數字。但如果事實並非如此呢?如果神經網路的判斷是錯的呢?反向傳播是對神經網路中每一個連接強度的重置過程,從而修正網路在特定訓練數據中的錯誤。

反向傳播是如何修正神經網路的錯誤的?第一步是分析最後兩個神經元的錯誤程度:預設興奮值和應有興奮值之間相差多少?第二步是分析導向倒數第二層神經元中每個連接對該誤差的作用。重複這些步驟,直至網路最底層的神經元連接。此時,你會知道每個連接對誤差的作用大小。最後,通過改變每一個數字,將整體誤差降至最低。這一方法被稱為「反向傳播」,因為誤差是從網路的輸出層逆向(或向下)傳播的。

神奇的是,用數百萬或數十億張圖片來進行訓練時,神經網路會逐漸提升其識別熱狗的準確度。更厲害的是,這些圖像識別網路的每一層都逐漸學會用類似人類視覺系統的方式「看」圖片。例如,第一層會探測「邊」,這層中的神經元看到「邊」的時候會產生興奮作用,而在其他地方不會;它上面的第二層神經元能探測到邊的組合,比如角;第三層能識別形狀;第四層能找到分辨類似於「切開的麵包(可以用於熱狗)」或「沒切開的麵包(一般不用於熱狗)」這樣的東西,因為上面的神經元可以對任意一種情況發生反應。換言之,神經網路在未經編程的情況下能自行演變為上下多層結構。

人們對神經網路驚奇不已,不僅僅是因為它們善於對熱狗或其他事物的圖片進行歸類,而是因為它們似乎能建立思維模型。這一點在理解文字的時候能看得更清楚。例如,讓一個簡單的神經網路讀取維基百科上數十億字的文章,並訓練它針對每一個詞輸出一長串的數字,每一個數字代表某層中每個神經元的興奮度。如果將每個數字看作一個複雜空間中的坐標,神經網路就為每個單詞找到了空間坐標中的一個點(在這裡也就是一個向量)。

接下來,讓神經網路對維基百科頁面上位置相鄰的詞給出相似的坐標,不可思議的事情出現了:在這個複雜的空間中,含義相近的詞的位置開始集中。也就是說,「瘋狂」和「神經錯亂」的坐標相近,「三」和「七」的坐標相近,諸如此類。而且,所謂的矢量演算法能用「巴黎」的矢量減去「法國」的矢量,加上「義大利」的矢量,最後得出的坐標靠近「羅馬」。這些操作的前提是,沒有任何人明確告知神經網路,羅馬之於義大利等同巴黎之於法國。

辛頓說,「真是太神奇,太讓人震驚了。」神經網路似乎能抓取圖像、文字、某人說話的錄音、醫療數據等事物,將它們放到數學家所說的高維矢量空間里,使這些事物之間的距離遠近反映真實世界的一些重要特點。辛頓相信,這就是大腦的運作方式。

他在解釋什麼是想法的時候舉了一個例子。「我能用一串文字來解釋我在想什麼,比如「約翰在想,哎呀』」。但是,這個想法意味著什麼?我們腦袋裡並非存在一個前引號,一個『哎呀』和一個後引號,或者它們組成的一個整體。腦袋裡出現的其實是一種神經活動模式。」如果你是一位數學家,你的神經活動模式在矢量空間里表現為,每個神經元的活動對應為一個數字,每個數字對應為一個相當大的矢量坐標。辛頓認為,這就是人的想法:不同的向量在跳舞。

多倫多最頂級的人工智慧研究所的名字就取自這個理念。Vector Institute(向量研究所)這個名字就是辛頓取的。

辛頓創造了某種現實扭曲場,一種充滿篤定和熱忱的氣氛,讓你感覺向量無所不能。畢竟,他們發明了自動駕駛汽車、檢測癌症的計算機,還有同聲傳譯機器。現在,這位富有魅力的英國科學家又在談論高維空間的梯度下降。

不過,當你冷靜一下以後會想起來,這些「深度學習」系統還很蠢,雖然它們偶爾表現得很聰明。計算機看到桌子上的一堆甜甜圈時,自動給它加上標註:桌子上的一堆甜甜圈。看起來,計算機有一定的理解能力。但是,同一個程序看到一個正在刷牙的女孩的照片時,得出的結論可能是「這個男孩拿著一個棒球棒」。由此可看出,這種理解能力,即便存在,其實也非常淺薄。

神經網路只是不具備思維能力的模式識別機。鑒於它們的實用性,人們紛紛將其融入各種軟體。即便在最佳條件下,它們只表現出有限的智能,很容易被糊弄。一個會識別圖像的深度神經網路在你修改一個像素或加上一個人類察覺不到的視覺干擾後,就完全失靈了。自動駕駛汽車無法應對陌生情境。機器無法解析需要生活常識的語句。

深度學習能用某種方式模仿人腦行為,但只能停留在一個淺薄的層面。正因如此,它有時表現出較低的智能水平。確實,反向傳播不是在深度研究大腦、剖析思想構成的過程中發現的。機器像動物一樣,在反覆試驗的過程中學習。它在發展過程中的大多數躍進並未涉及神經科學的新理念;這些進展是數學和工程學多年的技術進步。我們所知道的智能,在無限的未知面前根本不值一提。

多倫多大學的助理教授戴維·杜文多(David Duvenaud)和辛頓在同一個部門。他認為,深度學習就像物理學出現之前的工程學。「有人寫了一篇論文,說『我建了座橋,它立起來了!』另一個人寫了篇論文:『我建了座橋,它倒下了,但我後來加了幾個柱子,它就能撐住了。』於是,柱子火了。有人提出建拱橋,於是人們都說『拱橋太棒了!』杜文多繼續說:「有了物理學以後,你才能明白什麼行得通,以及為什麼行得通。」他說,直到最近我們才開始真正了解人工智慧。

辛頓自己也說:「大多數會議只做一些微調,而不會努力思索討論『我們現在做的事情有什麼不足?難點是什麼?讓我們專註這個問題。』」

外界很難理解這個觀點,因為人們看到的是一個又一個偉大進步。但是人工智慧最新進展的科學含量少於工程含量,甚至只是修修補補。雖然我們已經知道如何更好地提升深度學習系統,我們仍不了解這些系統的運作方式,也不知道它們是否有可能變得像人腦一般強大。

值得探討的是,我們是否已經窮盡了反向傳播的用途?如果是這樣,說明人工智慧已發展已經進入瓶頸。

AI的下一個革命,還要等待另一個30年?

如果你想目睹下一個劃時代的發現,一個用更靈活的智能奠定機器基礎的技術,你應該看看那些類似反向傳播的研究(如果你在 80 年代了解到它):那些對尚未成功的理念堅持不懈的聰慧之人。

幾個月前,我去腦、心智與機器研究中心(Center for Minds, Brains, and Machines,一家由多個機構成立的研究中心,總部位於麻省理工學院),參加我的朋友埃亞勒·德克特(Eyal Dechter)的認知學論文答辯。答辯開始前,他的妻子艾米、他家的狗魯比(Ruby)和他們的女兒蘇珊娜(Susannah)正圍著他,給他打氣。屏幕上有一張魯比的照片,它旁邊是嬰兒時期的蘇珊娜。當埃亞勒讓蘇珊娜指出照片上的自己時,她興高采烈地朝自己嬰兒時期的照片揮舞一條很長的可伸縮教鞭。走出房間的路上,她在媽媽身後推著一個玩具車,回頭喊了一聲「爸爸,祝你好運!」最後,她還用西班牙語說了一句「走啦(Vámanos)!」她才兩歲。

「它現在還不算成功,但這只是暫時的。」

埃亞勒用一個有趣的問題開始了他的答辯:蘇珊娜是如何通過兩年的歷練學會說話、玩耍和聽故事的?人腦的什麼特質使它如此善於學習?未來計算機能否這麼迅速流暢地學習?」

我們基於已知的事物理解新現象,我們將一個事物分解成碎片,然後學習這些碎片。埃亞勒是一位數學家兼程序員。在他眼裡,製作蛋奶酥這種任務相當于于極為複雜的計算機程序。但在學做蛋奶酥的時候,不需要學習無數類似程序中的微小指令,例如 「手肘旋轉30度,低頭看桌子,然後伸出食指,然後……」如果在做每個新任務的時候都要研究這樣的細小指令,學習過程就會變得非常艱難,你也會在大量已經學到的知識中浪費時間。因此,我們只需要指出程序中高層次的步驟,比如「攪拌蛋清」,這樣的高層次步驟本身已經覆蓋了更小的子程序,比如「打破雞蛋」和「取出蛋黃」。

計算機就做不到這點,這是它們看起來很笨的重要原因。要讓一個深度學習系統學會識別熱狗,你可能必須讓它讀取四千萬張熱狗圖片。要讓蘇珊娜學會識別熱狗,你只用給她一個熱狗。過不了多久,她就能對語言產生更深的理解,不再只是知道某些詞經常一起出現。與計算機不同的是,她腦海中有一個針對世界運作方式的模型。「讓我感到不可思議的是,人們居然擔心計算機會搶走他們的工作,」埃亞勒說,「計算機無法替代律師,不是因為律師能處理極其複雜的事情,而是因為他們能閱讀和交談。計算機和人類並沒有靠近,兩者之間的距離還很遙遠。」

就算你微調一下問題,真正的智能也不會失靈。埃亞勒的論文重點闡述了計算機如何實現真正智能的理論,具體而言,就是計算機如何流暢地將已知信息應用到新任務上,並迅速從一個新領域的小白成長為專家。

他將這個程序稱為「探索-壓縮」演算法(exploration-compression algorithm)。它讓計算機像程序員一樣工作,在創建更複雜程序的過程中建立一個可重複使用的模塊化組件庫。在對新領域一無所知的情況下,計算機搬弄、鞏固所發現的內容,像人類小孩一樣,在玩耍的過程中構建關於新領域的知識體系。

他的顧問約書亞·特南鮑姆(Joshua Tenenbaum)是人工智慧領域論文被引次數最多的研究人員之一。我和其他科學家談話時多半會提及特南鮑姆。2016年,AlphaGo在一場複雜的圍棋比賽中打敗了世界冠軍,震驚了計算機科學家們。它背後的DeepMind團隊中的重要成員曾是特南鮑姆的博士後。特南鮑姆參與了一家創業公司的工作,這家公司致力於讓自動駕駛汽車直觀地了解一些基礎物理學,對其他駕駛員的意圖也能做出一定的直覺判斷,從而更好地應對從未遇到過的情況,比如一輛卡車衝到前面或他人強行超車。

埃亞勒的論文尚未轉化為這種實際應用,更沒有創造出任何勝過人類的程序。「埃亞勒研究的課題真的是特別,特別難,」特南鮑姆說,「這需要幾代人才能解決。」

特南鮑姆留著灰白的長捲髮。我們喝咖啡時,他穿著一件紐扣襯衫和黑色休閑褲。他告訴我,他想從反向傳播的應用過程中尋找靈感。幾十年來,反向傳播一直是酷炫的數學理論,但沒有真正解決任何問題。隨著計算機的運算速度越來越快,工程設計越來越複雜,它突然發揮作用了。他希望同樣的事情能發生在自己和學生的研究課題上,「但可能還要花幾十年的時間。」

至於辛頓,他相信克服人工智慧局限性的關鍵在於搭建「一個連接計算機科學和生物學的橋樑」。從這個角度看,反向傳播是受生物學啟發的計算機學突破;該理念最初並非來自工程學,而是來自心理學。因此,辛頓正嘗試效仿這個模式。

今天的神經網路由大平面層組成,但人類新皮層的真實神經元不僅是水平分布成層的,還有垂直排列的。辛頓認為,他知道這些垂直結構的作用,比如在人類視覺系統中,這些結構確保我們在視角變化時保持識別物體的能力。因此,他正在搭建一個叫做「膠囊」(capsules)的人工視覺體系來驗證這個理論。目前,他還沒有成功;這些膠囊並沒有顯著提升神經網路的表現。但是,他研究反向傳播時也遇到了同樣的情況,而且持續了近 30 年。

「膠囊理論一定是對的,」他笑著說,「不成功只是暫時的。」

推薦閱讀:

從「中國製造」到「中國創造」的過程中究竟缺少了什麼?中國走向「中國創造」的道路還需要哪些核心條件?
機器人音樂家 Shimon 能出創作音樂了,未來會不會出專輯?
為什麼智能電視越做越薄,超薄的電視到底有多大意義?
達蓋爾的旗幟,新時代的……iPhoneX
跟弟弟妹妹扯淡的時候想到了雷總老在說的產業升級這回事兒,於是不得不來吹一發了。

TAG:科技 |