如何在 python 中使用 gensim 预处理数据时保留数字？

【问题标题】：How do i retain numbers while preprocessing data using gensim in python?如何在 python 中使用 gensim 预处理数据时保留数字？
【发布时间】：2021-07-31 03:14:03
【问题描述】：

我已经使用 gensim.utils.simple_preprocess(str(sentence) 创建了一个我想用于主题建模的单词字典。但是，这也过滤了我的重要数字（房屋决议、账单号等）真的需要。我是如何克服这个问题的？可能是用他们的单词形式替换数字。但是我该怎么做呢？

【问题讨论】：

标签： nlp gensim preprocessor lda latent-semantic-analysis

【解决方案1】：

您不必使用 simple_preprocess() - 它并没有做太多事情，它不是可配置或复杂的，通常其他 Gensim 算法只需要令牌列表。

因此，请选择您自己的标记化 - 在某些情况下，根据您的源数据，这可能就像在空格上的 .split() 一样简单。

如果你想看看 simple_preprocess() 做了什么，作为一个模型，你可以在以下位置查看它的 Python 源代码：

https://github.com/RaRe-Technologies/gensim/blob/351456b4f7d597e5a4522e71acedf785b2128ca1/gensim/utils.py#L288

【讨论】：