【Python&NLP】關於WordNet,我的一些用法和思路(一)
01-24
WordNet是由Princeton 大學的心理學家,語言學家和計算機工程師聯合設計的一種基於認知語言學的英語詞典。 它不是光把單詞以字母順序排列,而且按照單詞的意義組成一個「單詞的網路」。WordNet是一個覆蓋範圍寬廣的英語辭彙語義網。名詞,動詞,形容詞和副詞各自被組織成一個同義詞的網路,每個同義詞集合都代表一個基本的語義概念,並且這些集合之間也由各種關係連接。 WordNet的描述對象包含compound(複合詞)、phrasal verb(短語動詞)、collocation(搭配詞)、idiomatic phrase(成語)、word(單詞),其中word是最基本的單位。 Wordnet的辭彙結構包括九大類:上下位關係(動詞、名詞)、蘊含關係(動詞)、相似關係(名詞)、成員部分關係(名詞)、物質部分關係(名詞)、部件部分關係(名詞)、致使關係(動詞)、相關動詞關係(動詞)、屬性關係(形容詞)。 WordNet的一些基本操作,大家可以參考這個介面文件——WordNet Interface,我就不在這裡贅述了,在這裡介紹一些其他的東西。
![]()
推薦閱讀:
【入門篇:WordNet都包含哪些文件?】
作為一個新手,入門之前我最想弄懂的就是WordNet中都有那些文件,以及要怎麼用。所以我們從這些文件開始介紹。壹、語料庫里的文件
要想使用WordNet,最重要的是WordNet的python文件和它的文檔內容,了解python文件,可以讓我們知道如何使用WordNet,而查看文檔中的內容,則可以讓我們能夠更加好的理解WordNet。
WordNet的語料庫,在nltk_data文件夾下的corpora文件夾中,corprora文件夾是下載的,下載方式是使用兩行代碼。import nltknltk.download()


文件夾中有三個文件,分別是citation.bib、LICENSE和wn-data-語言名.tab。詞條保存在wn-data-語言名.tab文件中。打開後發現,簡體中文下的詞條一共有79808條,繁體為8069條,日文比較多,足足有152299條。
但是這些詞條對應的詞義並沒有這麼多,很多行都是相同的詞義,文件中的結構是這樣的:

可以說,遠遠不夠。
二.wordnet 如果說omw文件夾中的各個對應語言算是wordnet的各種「漢化包」、「日語包」似得東西,那麼wordnet文件夾中的內容則是wordnet的本體。wordnet文件夾中一共有18個文件,比較重要的文件有15個。其中四個是data文件,存放四種詞性的詞的根本內容;四個是index文件,即索引文件;四個是exc文件,對辭彙的變形進行對應;還有一個是lexnames文件,存放所有詞的45個意向集(即這117659條詞義,可以被歸為這45個類)。


「005」表示指針個數,而指針的類型由符號表示。符號列表如下:






總結:本文主要簡單總結了一下python的nltk庫中有關WordNet的文件並基本解釋了其內容。當然還有很多內容沒有說到,希望有研究興趣和需要的人一起討論,如果有錯誤,也歡迎大家指正。
推薦閱讀:
