中文分詞工具--NLPIR/ICTCLAS的Python版本使用
12-12
發現jieba的分詞工具在新聞語料上面存在著一些問題,比如:
這種情況顯然是令人難以接受的,尤其是在數據幾乎全是新聞語料的情況下,因此,查閱了一些分詞工具的表現情況,得到的數據如下:
數據來自
thunlp/THULAC從以上兩個表格可以看出,jieba速度最快同時也是表現最差的。綜合兩個測試集的情況來看LTP以及ICTCLAS表現較好,但是在速度上和其他工具差距比較大,如果對於時間的要求不是很高可以考慮,不過需要注意的是pyltp的支持情況如下
數據來自
HIT-SCIR/pyltp綜合考慮,本人選擇了ICTCLAS分詞工具。
值得吐槽的是他的首頁長成這樣子的
讓人看了就想遛。。。如果你也同樣想遛,推薦遛到其Python版本GitHub主頁
https://github.com/tsroten/pynlpir直接採用pip方式即可安裝,在安裝完成之後需要到
https://github.com/NLPIR-team/NLPIR/tree/master/License/license%20for%20a%20month/NLPIR-ICTCLAS%E5%88%86%E8%AF%8D%E7%B3%BB%E7%BB%9F%E6%8E%88%E6%9D%83下載NLPIR.user文件放到安裝的pynlpir的DATA目錄下,比如我的目錄就是/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pynlPIR/Data
在完成了以上操作之後就可以使用該軟體了,比如對開頭提高的那句話的分詞
以上。
推薦閱讀: