用于非英语语言的基于 Python 的标记器答案

【问题标题】：Python based tokenizers for non English languages用于非英语语言的基于 Python 的标记器
【发布时间】：2020-05-08 19:58:40
【问题描述】：

我们目前使用 Python 中的 scikit learn 库构建基于文本的模型。 Scikit learn 默认支持英语 laungauge 的标记化。我们还想增加对非英语语言的支持（西班牙语、法语、德语、意大利语、日语、土耳其语）。我正在寻找一个支持上述语言的 python 库。我遇到了 SpaCy 和 NLTK，但我正在寻找是否有任何其他 python 库，以及是否有关于基准测试、内存使用、准确性、对多语言的支持、稳定性和社区支持的比较图表。我找到了这个https://spacy.io/usage/facts-figures，但我想知道是否有人对其他 python 库也进行了一些研究，并有一个类似的比较图表，以便帮助我为我的工作选择合适的库。

【问题讨论】：