【发布时间】:2014-02-17 12:28:01
【问题描述】:
我正在使用带有停用词的 NLTK 来使用 Alejandro Nolla 在http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/ 描述的方法检测文档的语言,并且效果相当好。
我还在使用一些未包含在 NLTK 停用词包中的其他语言,例如捷克语和罗马尼亚语,它们与其他语言一样得到错误匹配。这些是停用词中的语言:
[“丹麦语”、“荷兰语”、“英语”、“芬兰语”、“法语”、“德语”、“匈牙利语”、“意大利语”、“挪威语”、“葡萄牙语”、“俄语”、“西班牙语” ', '瑞典语', '土耳其语']
如何扩展 NLTK 支持的语言列表?我可以添加其他可用的停用词列表吗?有没有我可以用来创建添加我自己的停用词列表的文档化方法?
【问题讨论】:
-
如果有人会发现它有用,我在我现在已解散的项目中使用的额外停用词列表可以在 Github 上免费获得:github.com/Xangis/extra-stopwords
标签: python nlp nltk stop-words