【问题标题】:How do i retain numbers while preprocessing data using gensim in python?如何在 python 中使用 gensim 预处理数据时保留数字?
【发布时间】:2021-07-31 03:14:03
【问题描述】:

我已经使用 gensim.utils.simple_preprocess(str(sentence) 创建了一个我想用于主题建模的单词字典。但是,这也过滤了我的重要数字(房屋决议、账单号等)真的需要。我是如何克服这个问题的?可能是用他们的单词形式替换数字。但是我该怎么做呢?

【问题讨论】:

    标签: nlp gensim preprocessor lda latent-semantic-analysis


    【解决方案1】:

    您不必使用 simple_preprocess() - 它并没有做太多事情,它不是可配置或复杂的,通常其他 Gensim 算法只需要令牌列表。

    因此,请选择您自己的标记化 - 在某些情况下,根据您的源数据,这可能就像在空格上的 .split() 一样简单。

    如果你想看看 simple_preprocess() 做了什么,作为一个模型,你可以在以下位置查看它的 Python 源代码:

    https://github.com/RaRe-Technologies/gensim/blob/351456b4f7d597e5a4522e71acedf785b2128ca1/gensim/utils.py#L288

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-08-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-04-22
      • 2015-06-17
      相关资源
      最近更新 更多