【发布时间】:2020-05-08 19:58:40
【问题描述】:
我们目前使用 Python 中的 scikit learn 库构建基于文本的模型。 Scikit learn 默认支持英语 laungauge 的标记化。我们还想增加对非英语语言的支持(西班牙语、法语、德语、意大利语、日语、土耳其语)。我正在寻找一个支持上述语言的 python 库。我遇到了 SpaCy 和 NLTK,但我正在寻找是否有任何其他 python 库,以及是否有关于基准测试、内存使用、准确性、对多语言的支持、稳定性和社区支持的比较图表。 我找到了这个https://spacy.io/usage/facts-figures,但我想知道是否有人对其他 python 库也进行了一些研究,并有一个类似的比较图表,以便帮助我为我的工作选择合适的库。
【问题讨论】: