【发布时间】:2021-07-31 03:14:03
【问题描述】:
我已经使用 gensim.utils.simple_preprocess(str(sentence) 创建了一个我想用于主题建模的单词字典。但是,这也过滤了我的重要数字(房屋决议、账单号等)真的需要。我是如何克服这个问题的?可能是用他们的单词形式替换数字。但是我该怎么做呢?
【问题讨论】:
标签: nlp gensim preprocessor lda latent-semantic-analysis
我已经使用 gensim.utils.simple_preprocess(str(sentence) 创建了一个我想用于主题建模的单词字典。但是,这也过滤了我的重要数字(房屋决议、账单号等)真的需要。我是如何克服这个问题的?可能是用他们的单词形式替换数字。但是我该怎么做呢?
【问题讨论】:
标签: nlp gensim preprocessor lda latent-semantic-analysis
您不必使用 simple_preprocess() - 它并没有做太多事情,它不是可配置或复杂的,通常其他 Gensim 算法只需要令牌列表。
因此,请选择您自己的标记化 - 在某些情况下,根据您的源数据,这可能就像在空格上的 .split() 一样简单。
如果你想看看 simple_preprocess() 做了什么,作为一个模型,你可以在以下位置查看它的 Python 源代码:
【讨论】: