【发布时间】:2023-10-24 06:25:01
【问题描述】:
为什么我在 gensim lda 模型中得到相同的主题集#字?我使用了这些参数。我检查了我的语料库中没有重复的文档。
lda_model = gensim.models.ldamodel.LdaModel(corpus=MY_CORPUS,
id2word=WORD_AND_ID,
num_topics=4,
minimum_probability=minimum_probability,
random_state=100,
update_every=1,
chunksize=100,
passes=10,
alpha='auto', # symmetric, asymmetric
per_word_topics=True)
结果
[
(0, '0.004*lily + 0.01*rose + 0.00*jasmine'),
(1, '0.005*geometry + 0.07*algebra + 0.01*calculation'),
(2, '0.003*painting + 0.001*brush + 0.01*colors'),
(3, '0.005*geometry + 0.07*algebra + 0.01*calculation')
]
注意:主题 #1 和 #3 相同。
【问题讨论】:
标签: python nlp gensim lda topic-modeling