【问题标题】:Python based tokenizers for non English languages用于非英语语言的基于 Python 的标记器
【发布时间】:2020-05-08 19:58:40
【问题描述】:

我们目前使用 Python 中的 scikit learn 库构建基于文本的模型。 Scikit learn 默认支持英语 laungauge 的标记化。我们还想增加对非英语语言的支持(西班牙语、法语、德语、意大利语、日语、土耳其语)。我正在寻找一个支持上述语言的 python 库。我遇到了 SpaCy 和 NLTK,但我正在寻找是否有任何其他 python 库,以及是否有关于基准测试、内存使用、准确性、对多语言的支持、稳定性和社区支持的比较图表。 我找到了这个https://spacy.io/usage/facts-figures,但我想知道是否有人对其他 python 库也进行了一些研究,并有一个类似的比较图表,以便帮助我为我的工作选择合适的库。

【问题讨论】:

    标签: nltk tokenize spacy


    【解决方案1】:

    尝试以下方法。他们应该支持德语、法语等。

    https://pypi.org/project/sacremoses/

    https://pypi.org/project/mosestokenizer/

    【讨论】:

      猜你喜欢
      • 2021-04-03
      • 1970-01-01
      • 2010-11-16
      • 1970-01-01
      • 1970-01-01
      • 2014-09-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多