一個玩得停不下來的Google神器:Ngram
這個語料庫是完全對公眾開放的。任何人都可以去Google Books Ngrams Viewer 查詢任何一個或幾個詞在過去500年內在書籍中的出現頻率變化趨勢,有點像Google Trends的圖書版。而專業人士或純粹閑得蛋疼的geek們也可以下載完整的語料庫自行分析:http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
作為外行,Google的這個神器真是讓我玩得根本停不下來~ 我來簡單演示一下,把大家帶入坑~
正式開始前先說明幾點:
- 我不知道Google是如何選擇和獲取這6%的圖書的,不確定是否會有系統性選擇偏差,也不確定圖書的倖存者偏差有多嚴重,所以看圖得出的結論並不能隨意外推。
- 語料庫的內容完全來自出版圖書,而不包括未出版圖書或其他形式的文字,也不包括正在指數級增長的網路和電子信息。與Google Trends的高度實時性不同,圖書的滯後性較長,只能在比較大的尺度上看趨勢變化。
- 同一個詞在不同時期的語義、用法和拼寫可能會非常不同,需要謹慎解讀結果。
- 我在這裡選擇以英語而非中文為例。一方面是因為英語的語料庫最大,且英語在最近幾百年來的圖書中的使用率總體看來看是最廣的,比較能夠反映現實世界的一些變化。另一方面,漢語的字、詞識別的難度很高,可能正確率不及英語,而且現代漢語和歷史上不同時期的漢語的語義差異比較大,古文和現代文很多時候很難比較。不過近幾十年的漢語數據應該還是不錯的,我在最後也會放幾個例子。
- 下面每張圖裡橫軸是時間,縱軸是出現率,先給幾個常用詞做個baseline給大家感覺一下:

比如這裡"the"佔了5%,也就是說英語里大約每20個詞里有一個是"the"
----------------------------------------------------------------------------------------------------
正式開始~超多圖預警!
先來看看幾個國家的出現率變化情況:

再看看資本主義和共產主義之爭:

君王和人民:

王國、國家和民族:

革命、獨立、殖民:

自由、民主、共和:

《獨立宣言》里的"Life, liberty and the pursuit of happiness"

戰爭與和平:


注意最近二十年的勢頭逆轉了,但這也有可能是因為科技更多更快地轉到網路等平台,而在書籍中出現得相對變少了。
計算機和互聯網相關:



一些平權運動的發展:

健康、環境、污染等問題的關注度越來越高:

天堂和地獄(地獄一直很堅挺啊):


發展、進步 vs. 問題、危機


不過貧窮和不平等的出現率在上升:


為什麼從1930年左右開始money和economy的出現率是此消彼長的呢?是巧合嗎?

泰坦尼克:

這個例子可以說明為什麼一個詞的出現率並不一定意味著現實世界的出現率:

動物們:


關於星期和月份的詞相對比較穩定:

月份:

歷史上的名人也很有意思。這裡就舉一下科學方面的例子:

不過更誇張的是伽利略:

語言本身也有許多很有意思的變化。
比如一些已經基本不用了的英語辭彙:



比如句首疑問詞:

當然了,還有一些詞的語義經歷了巨大的變化。
最典型的例子之一就是"gay"這個詞:

再舉個很典型的例子:

還有一個比較奇葩的案例:

----------跑題的分界線----------
自己動手豐衣足食,我去Oxford English Dictionary查了一下fuck的詞源,簡直特么打開了新世界的大門啊!!沒想到18世紀以前的人真的會用fuck這個詞,而且fuck還就是性交的意思,但是當時似乎fuck還是個比較中性的詞,可能像現在的"intercourse"之類的,沒有太多低俗粗鄙的感覺。下面是歷史文獻中真實的「fuck」例句,有些尺度真挺大的,viewer discretion is advised:
1680 School of Venus i, in B. K. Mudge When Flesh becomes Word (2004) 10 Generally both Sexes fuck, and that so promiscuously as Incest is accounted no sin.
a1749 A. Robertson Poems (?1751) 256 But she gave Proof that she could f—k.
a1796 R. Burns Merry Muses (1911) 71 You can f—k whereer you please.1809 Court Martial J. N. Taylor 11-12 Dec. (P.R.O.: ADM 1/5400) Mr Taylor was fucking him behind, his Yard or Penis was in the Arse of the boy.1879 Pearl Oct. 127 He fucked all her toes, Her mouth, eyes, and her nose.1865 『Philocomus』 Love Feast i. 9 My poor pussy , rent and sore, Dreaded yet longed for one fuck more.
1764 J. Wilkes Ess. on Woman 13 Just a few good Fucks, and then we die. (試著想像《權利的遊戲》里小惡魔說這句話,簡直完美)
----------回歸正文的分界線----------
語料庫里連數字也有,所以可以這麼玩:

再看一下單個出現的數字:

還發現一個關於圓周率的有趣的現象:

接下來看幾個中文的例子。既然是中文,就搞幾個有「中國特色」的吧。
非常有時代特徵的一些詞:

當年出版的書籍中,每50個詞就有一個是這種,可見當時語言的單一和匱乏。
比較一下不同時期的重心:

「多研究些問題,少談些主義」:




其他的一些常用詞:




常見姓氏:

誰能告訴我40年代的「李」和20年代前後的「周」是怎麼回事?...
當然了,數風流人物,還看:

甲乙丙:

為什麼在很長一段時間裡甲乙丙的出現概率排序是顛倒的?
吃、喝、睡:

其實「吃」在中文書里出現的頻率和"eat"在英文書里出現頻率差不多,但是中文裡「吃」相對於「喝」、「睡」明顯要重要得多...
英語 vs. 漢語:

東南西北:

---------------------------------------------------------------------------------------------------
再下去又要停不下來了,就先寫到這兒吧~總之這東西有太多的玩法,特別適合kill time~ 大家如果想到或發現什麼特別好玩的詞也可以寫在評論里。
對了,Ngram的搜索中還有各種高級玩法,最基本的比如+,-,*,/等邏輯運算,還能用*進行模糊搜索,還能specify某個詞的詞性(名詞、形容詞、動詞...)和在句子中的位置(句首、句尾),還能對詞形變化(booked,books,booking之類的)進行模糊搜索,還能用:進行跨語言比較,甚至能算兩個詞之間的dependency……簡直黑科技!我怎麼現在才知道?!具體請看:https://books.google.com/ngrams/info#
推薦閱讀:
※- 《殼之少女》填詞:殼
※俄羅斯漁民大叔的深海異形生物又火了,這次抓到的魚竟然有翅膀!
※你們有哪些奇奇怪怪 妙趣橫生 或者腦洞大開的小想法(或者幻想)?
※窺者無知
※古人是怎麼知道肚子里有蛔蟲的?
