中文分詞工具--NLPIR/ICTCLAS的Python版本使用

12-12

發現jieba的分詞工具在新聞語料上面存在著一些問題，比如：

這種情況顯然是令人難以接受的，尤其是在數據幾乎全是新聞語料的情況下，因此，查閱了一些分詞工具的表現情況，得到的數據如下：

數據來自

thunlp/THULAC?

github.com

從以上兩個表格可以看出，jieba速度最快同時也是表現最差的。綜合兩個測試集的情況來看LTP以及ICTCLAS表現較好，但是在速度上和其他工具差距比較大，如果對於時間的要求不是很高可以考慮，不過需要注意的是pyltp的支持情況如下

數據來自

HIT-SCIR/pyltp?

github.com

綜合考慮，本人選擇了ICTCLAS分詞工具。

值得吐槽的是他的首頁長成這樣子的

讓人看了就想遛。。。如果你也同樣想遛，推薦遛到其Python版本GitHub主頁

https://github.com/tsroten/pynlpir?

github.com

直接採用pip方式即可安裝，在安裝完成之後需要到

https://github.com/NLPIR-team/NLPIR/tree/master/License/license%20for%20a%20month/NLPIR-ICTCLAS%E5%88%86%E8%AF%8D%E7%B3%BB%E7%BB%9F%E6%8E%88%E6%9D%83?

github.com

下載NLPIR.user文件放到安裝的pynlpir的DATA目錄下，比如我的目錄就是/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pynlPIR/Data

在完成了以上操作之後就可以使用該軟體了，比如對開頭提高的那句話的分詞

以上。