【发布时间】:2011-03-12 01:39:35
【问题描述】:
如何使用 NLTK 检测文本是用什么语言编写的?
我看到的例子使用nltk.detect,但是当我在我的mac上安装它时,我找不到这个包。
【问题讨论】:
-
langid和langdetect库可以做到这一点,而且非常易于使用:github.com/hb20007/hands-on-nltk-tutorial/blob/master/… -
langdetect不是很可靠(例如,检查github.com/Mimino666/langdetect/issues/51)并且langid在我测试它时被一个测试日文字符串卡住了。 YMMV。在 2019 年,如果您没有绑定 NLTK,我建议您改为查看cld2、cld3或fastText。