互聯世界的記憶

發佈於2016年5月2日

我今天說的事情和我們現在做的事情,沒有直接的關係。我先自我介紹一下,我在美國待了15年時間,一直在做人工智慧各個領域的研究。我們整個創始團隊的核心人員都是從美國回來的,每個人都放棄了很多很多。之所以他們願意回來,就是因為我們會去做一些非常非常有趣的事情,未知的事,這才是我們最終想做的事情,我們的終極願景:互聯世界的記憶。

從基因到文因

我們公司的名字,叫文因互聯,文因+互聯。什麼是文因?這有兩本書,第一本書是《自私的基因》,英國的一個生物學家理查德·道金斯寫的,1976年出版的,非常有影響的一本書。他提出來一個概念叫文因,就是Meme(發音「mi mu」)。後來又有人寫了一本《自私的模因》。在中文世界裡,我請教了一些翻譯家,有人提出了「文因」的翻譯,我覺得比「模因」翻譯更好一點,所以我就用了這個翻譯。

什麼叫文因?它是針對基因的。因為在生物進化中,一個生物進化的片斷叫做基因,相對應地,在文化的進化當中,一個文化的變化的片斷就叫做文因。《論語》說「有朋自遠方來不亦樂乎?」兩千多年了,我們一代一代傳下去。《論語》裡面的一段話,其實就是一段文因。我們今天在網路上發微博,140個字,也是一個文因。

文因是一個可以被進化的,可以被遺傳的文化單元。萬事萬物,我們社會上各種各樣的小碎片都是文因。比如說,「圖樣圖森破」,下一句是什麼?「上台拿衣服」。這幅畫也是一個Meme(文因),而且跟剛才那個(《論語》)不一樣。上面這個圖,暴走漫畫里的,實際上它本身又是其他兩個Meme的合成,所以整個Meme,是由三個Meme組合在一起的,每一個Meme都有它的前身,一代一代來變化,然後混合。我們人類社會往前走,從輪子到電腦,所有的東西都是文因的進化。

《文化與進化》這本書是哈定寫的。那個時候更多從社會學以及哲學角度思考這個問題,為什麼文化的進化和生物的進化很像?後來道金斯在70年代提出了文因的概念。過去40年里又有很多理論,討論兩者的區別。其中有一個最重要的區別是:最近一萬年來,我們人類在生理上沒有什麼變化,基因上雖然有一些很小的變化,但是大局基本上沒有什麼改變。但是文化上面,從舊石器時代到新石器時代,到農業時代,到工業時代,到信息時代,發生了非常快速的變化。

現代穴居人

這意味著什麼?意味著我們的身體,現在還是舊石器時代的身體,包括大腦、認知能力都是舊石器時代的,但是現在面臨著全新的信息時代的挑戰。從身體上來講,每個人都是不合格的,都是應該被淘汰掉的。所以我們每個人都是現代穴居人。推薦《人類簡史》,非常好的一本書,從舊石器時代一直講到現在。

現代人有糖尿病的問題。因為我們在草原上的時候,非常喜歡吃糖。如果抓到了高糖、高熱量的東西,我們的身體就覺得它是好東西,不喜歡這種東西的人都死掉了,剩下來的全都是喜歡吃糖的。但是到了今天,我們有那麼多食物可以吃,我們還是有同樣的習慣,所以就會生病。

我們對於信息的處理能力也是一樣的。認知心理學裡有一個鄧巴數,每個人能夠有緊密關係的人只有150個,為什麼?因為在草原上的時候,一個部落最多只有150個人嘛。到了今天,我們在社交網路上面進行統計,我們發現不管在Facebook上也好,還是在別的平台上也好,發生緊密接觸的人還是不超過150個,這是大腦裡面很基礎的限制。包括我們閱讀的速度,我們理解的速度,我們記憶的容量都是依然在舊石器時代。

甚至有時候,我們可能要把我們的級別再往下降降。我們大多數的決策是非理性的,這一點上有很多很多行為經濟學和生理學,心理學,認知科學大量的研究。在底層,我們每一個人都是一個蜥蜴,我們是被激素控制住的。這是另外一本書《進化的大腦》,我們的大腦設計,雖然從宏觀上來說非常高效,只用20瓦的功率就能夠做複雜的運算。但是掰開來看,其實它裡面非常不合理,因為它是進化出來的,不是設計出來的。我們人類大腦掰開來看,裡面是一層一層進化起來的,在爬行動物腦上面一層哺乳動物的腦,然後是靈長類的腦,最後是人的。

這是另外一本書《思考,快與慢》,兩位諾貝爾獎獲得者寫的,他們研究行為經濟學。右邊這些是我自己總結的,我們在進行判斷的時候,實際上我們是非常想去偷懶的。人的思考認知系統是在進化過程中形成的,最低能耗的系統是蜥蜴的系統。我們從早上到晚上做判斷過程中,這套蜥蜴的系統是起到最主要作用的。比如《思考,快與慢》里說法官判犯人假釋批准的時候,最重要的因素是什麼?他發現這個因素是這個法官有沒有吃飯,吃飯之前和吃飯之後,這個特徵最明顯。比如說你跑步了沒有,喝了橘子汁沒有,都有影響。

從爬行動物系統到語言系統,到符號系統,到科學系統,每一個系統比前一個系統都需要更多的能量,都需要大量的訓練,都需要反人性的、反社會的去進行思考,大多數人做不到,也意味著大多數人的認知能力還是停留在很遙遠的過去。

記憶的外化

其中一部分就是我們的記憶能力,我們人腦中有一個很重要的器官是海馬,海馬出問題,人會容易忘東西。

柏拉圖說,書寫會使人健忘,因為他們將不再使用記憶。這是《信息簡史》第一章說的一句話,因為在這之前,希臘文明在中間有一個斷檔。在斷檔期,他們沒有文字了,在這個期間興起了《荷馬史詩》,游吟詩人要把這樣一本書以詩的形式,記在大腦裡面。後來隨著希臘文明復興,又重新發明了文字,這個背景下,柏拉圖說了這句話,這是他的擔心。他覺得以前沒有文字的時候,我們要把東西都記在腦子裡面,現在我們偷懶,我們把這東西放在文字裡面,大腦就不去記憶了。他很擔心這個事情,但是現在他的擔心是完全多餘的。

同樣的事情發生在現在,只是不一樣的形式而已。在我上大學的時候,上網是一個貶義詞,父母不願意讓我們上網,其實非常有道理。這是2011年發表在《Science》雜誌上的文章,被稱為「谷歌效應」,科學家做了一種試驗,如果告訴受試對象,這個信息在其他地方可以找到,受試對象就不願意記住這個東西,反正以後能找到,就不會記住它。如果我知道東西在谷歌上能找到,就記一點小小的記憶存根就夠了。這跟柏拉圖說的完全一樣。如果我們有了外存,我們會儘可能地降低使用內存。

這個xkcd漫畫是說維基百科宕機的時候,我的智商下降了30個點。我們現在和網路已經完全不可分了。剛才我看到,聽課的時候很多人在玩手機,這都是非常正常的。因為手機網路就是我們的一部分,我們現在每個人都在把蛋白質的部分和硅的部分聯繫在一起。所以看手機的時候,是跟另外一個我講話而已,沒有什麼不對的。

本該如此!

因為我們作為一個舊石器時代的人,我們這樣的身體,我們要適應新時代的挑戰,我們不再可能僅用蛋白質做到這一點,我們必須利用硅,必須利用信息和網路。

記憶的多級緩存

我們看硅,這是一個CPU的設計,裡面有很大一塊是緩存。所以CPU能夠運行好,不是把所有東西都放在寄存器,必須把一些東西放在緩存里,緩存越多,效果越好。而且是很多級的緩存,從寄存器、一級緩存、二級緩存,然後到內存、到外存,還有網路。我們人類將來的記憶也一定是這樣子的。我們不可能永遠只用神經元來記憶,我們必然要用多種記憶的緩存實現記憶的外化。

現在有搜索引擎,有百科,這是全球大腦,在這中間還有缺失的一環,這就是文因互聯要做的事情:個人輔助記憶,為每個人創造一個第二大腦,幫助你記你自己記不住的東西。我們有神經元的記憶,再有文因互聯的輔助記憶,然後是搜索引擎和百科,和整個數字世界。這是我們能記住的所有的東西。

數字記憶的作用

如果有了記憶的輔助,我們能做什麼現在不能做的事情?或者有什麼神奇的東西會產生出來?

第一,可以解放我們的工作記憶。米勒法則說我們同時能夠跟蹤或者記住的東西是7個。比如說電話號碼,7位,最多8位電話號碼能記住,但是12位電話號碼,大部分人就記不住了。我們現在只有一個大腦裡面非常微弱的工作記憶,如果有了外存之後,我們可以做很多事情。證券公司交易員,為什麼前面放5台顯示器?因為那是5個工作記憶。以後要讓每個人都能享受到這一點。

第二,把主動記憶變成被動記憶。什麼叫主動記憶?背詩,「鵝鵝鵝,白毛浮綠水」,這個是主動記憶,我記得這個事情。但是其他長一點的詩,就記不住了,但是我看到的時候,知道我以前見到過這首詩,這是被動記憶。被動記憶我模模糊糊地記得這個東西,我見過,但是寫不出來。背英語單詞,很多單詞我認得,但是寫不出來。如果有了外存之後,可以極大的擴充我們的記憶,因為產生主動記憶非常困難,但是要產生被動記憶要容易很多。

第三,變短期記憶為長期記憶。我們生活中見過的大多數的事情,轉眼就忘了,我們是穴居人,記不住那麼多東西。但是短期記憶中有大量的是非常寶貴的東西,如果把儘可能多的短期記憶變成長期的外在記憶,其中的商業價值、個人價值,會變得非常重要。

最後一點,從死記硬背到機器輔助的關聯和推理。這是在心理學和認知科學裡的一條原則,recognition優於recall。Recognition就是識別,比如說我們看東西,看它的上下文,看與它相關的其他的東西,我們就更容易發現它。如果就是死記硬背地去想字怎麼寫、詩怎麼背,那是很困難的。機器可以幫助我們進行關聯和推理,通過機器的關聯和推理,更好地產生一種記憶。京東上有好多記憶術的書,這就是一種方法論,這種方法論是應該用機器幫助我們實現的,而不僅僅是通過訓練。讓每一個人都能獲得。

這個往後,是我以前研究過的另外一個學科叫做網路擴展的心智,往後走有很多哲學和計算機科學的東西,這裡就不詳細說了,只介紹一下這本書的名字,《The Extended Mind》,可惜還沒有中文版。

總結一下到目前為止所說的。我們主動地遺忘了一些事情,就像《荷馬史詩》記不住了,但是我們得到一些廉價的替代,比如書寫,比如數字記憶。有了廉價記憶之後,才能降低整個認知的成本,然後發生什麼事情?當我們有了文字的時候,誰也想不到,發明文字的人也想不到,後來會有邏輯,會有數學,會有一系列的整個符號的思維方式。沒有文字就不會有數學,就不會有金字塔,就不會有其他任何東西,往後所有的東西。所以數字記憶會產生什麼?這是個問號,我們不知道,這是值得我們探索的東西。

科幻,還是工程?

這件事情到底是科幻還是工程?是我們現在要做的事情,還是20年或者100年之後才能做的事情?在我看來這是工程,這不是科幻。剛才說到的這些事情都是用現有的科技水準,現有的工程能力,有限的預算之下,我們就可以完成的。

這本書叫《全面回憶》,他們是微軟的一個項目,叫MyLifeBits,試圖記錄一個人整個的生活,他看到的東西,在這個基礎上,他們開發了一套檢索的方式。什麼樣的部門對這個東西感興趣? (聽眾:特工。)對,國防部門對這個東西特別感興趣。還有商業部門,還有個人知識管理,還有企業知識管理,都對這個東西非常感興趣。

另外一本書叫《Pull》,中文翻譯叫《WEB3.0》,它提出來一個概念,叫個人數據倉庫,Personal Data Locker。它的基本的思想也是和剛才那個項目一樣,從生到死,把一個人的個人記錄的數據放在雲上,在這個上面可以發現很多商業的機會,這本書就在講我們會發現什麼樣的機會。

這是個人助理Siri,這個項目的前身是做情報分析的CALO,大多數用到的技術和剛才講的非常像,現在已經走到千家萬戶了。

最後講的是一個大的框架,就是Siri這個項目本身,是由語義網技術的發展才興起的。右上角這個人Tim Berners-Lee,也就是Web的發明人,2001年的時候,他寫了這篇文章,叫做The Semantic Web,他表述了一個前景,你知道的一部分知識,可以被一個軟體代理代替,幫助你進行規劃,它可以幫你節約很多時間,做個人做不了的事情。

這裡面用了很多底層技術,知識提取、知識存儲、知識表現和知識檢索,每一塊都有非常豐富的技術內涵在裡面。我們大量使用這些方法解決金融方面的問題。我在Github有一個提綱叫Lean Semantic Web,列了大概有四五十項技術,有興趣的話,大家可以看一看。

leansemanticweb/Syllabus.md at master · baojie/leansemanticweb · GitHub

社會機器的興起

下面就是一些更開腦洞的聯想。剛才提到數字記憶會產生什麼?是一個問號。目前沒有人真正知道會產生什麼。就好象印刷術剛剛被發明出來的時候,誰也不知道它會摧毀教士階層。數字記憶會帶來什麼樣的變化?

有一點可以比現在做得更好,把我們的個人記憶變成集體的記憶。因為我們人和人之間講話的時候,我們這個通訊渠道是非常非常受限的,只有幾個比特,非常非常慢。但是機器可以幾兆、幾太的速度,比我們快成千上萬倍。當我們的記憶被外部化的時候,這些軟體之間通訊比我們直接通訊有效得多。我們可以把我們的個人記憶慢慢輸入到機器里去。這種機器的記憶可以是同時的,形成一個社區,也可以是異時的,在一代人和另一代人之間,在老師和學生之間,在不同的商業機構之間,發生記憶的轉移,知識的轉移。

這是另外一本書《想像的共同體》。當有一種新的通信方式的時候,我們就會產生一種新的社群組織。當我們有一種非常快速的通信方式的時候,這個社會的組織會發生變化。我們不知道是什麼樣的變化,但一定會發生變化,包括家庭,包括公司,包括學校,甚至國家都會不一樣。

這個前景,也是這兩個人,Jim Hendler和Tim Berners-Lee,我博士後期間的兩位導師,他們有一些前瞻性的研究,他們把這個理論叫做Social Machine(社會機器),目前已經是一個比較大的研究方向。他們認為,機器和人一起構造出一個新東西,機器能在這裡面做一些瑣事,人做一些有創造性的工作。20年前Tim Berners-Lee就在研究這個東西,過去十幾年,他一直在不斷地推進Social Machine。

在文因互聯做有趣的事

未來是什麼?也許是「美麗新世界」,也許是更美好的世界,我們不知道是什麼樣的,因為我們不知道才做這個事情。這是一個非常有趣的事情,這是推動我們創業最重要的好奇心。

文因互聯就是這樣一個充滿好奇的地方。今天我們在做金融的應用,我們把各種技術用到投資決策中去。未來也許我們做個人記憶的助手,也許是宇宙飛船,也許做其他不知道的事情。這就是我們做的事情,謝謝大家!


推薦閱讀:

圍棋人機大戰一周年急速短評
語義網路,語義網,鏈接數據和知識圖譜
推薦系統PM最主要的工作是哪幾件事?_討論輸出_AI產品經理大本營
腦芯編 | 窺腦究竟,結網造芯(三)
《人工智慧》第一周問題集agent & enviroment

TAG:人工智能 | 互联网 | 科技 |