如何正确解释 gensim 主题？答案

【问题标题】：How to interpret gensim topics properly?如何正确解释 gensim 主题？
【发布时间】：2016-04-27 20:35:46
【问题描述】：

我认为这可能之前已经讨论过，但不知怎的我找不到答案，所以在这里。

以下是一些客户调查中使用 gensim lsi 生成的主题。我的问题是：

单词前面的减号和加号是什么意思？
在这里我生成了 5 个主题，我还可以生成更多。如何确定最佳主题数量？例如，也许在第三个主题之后，统计上的其他一切都将变得微不足道。

欢迎提出任何建议。

0.527*“利息”+ 0.475*“较低”+ 0.376*“利率”+ 0.338*“利率”+ 0.324*“好”+ 0.257*“服务” 0.671*"好" + 0.586*"服务" + -0.254*"利息" + -0.251*"较低" + -0.159*"利率" + -0.150*"利率" 0.600*“很棒”+ 0.351*“轻松”+ 0.337*“奖励”+ 0.242*“使用”+ -0.167*“服务”+ 0.160*“喜欢” -0.503*"rates" + 0.499*"rate" + -0.39*"great" + 0.364*"high" + -0.289*"lower" + 0.167*"easy" -0.608*"伟大" + 0.362*"容易" + -0.303*"率" + 0.275*"率" + 0.244*"使用" + -0.227*"高"

【问题讨论】：

标签： gensim

【解决方案1】：

LSI 背后的主要机制是术语文档矩阵 (TDM) 上的奇异值分解 (SVD)。我不会在这里详细介绍，但如果您愿意，可以阅读SVD on wikipedia。

生成的主题是术语的线性组合。选择这些线性组合（使用 SVD）来创建 TDM 的“低秩近似”。

单词权重的大小可以被认为是重要的：它们在近似原始 TDM 中的重要性。或者，更笼统地说，主题在描述 TDM 所基于的语料库中的重要性。

权重的符号仅相对于彼此重要（例如，您可以将所有内容乘以 -1，如果您正确地重新解释线性组合，您将得到相同的解释）。如果可以根据每个文档的主题程度对每个文档进行评级，那么该标志会告诉您相关单词推动文档的方式。例如，在您提供的输出中，出现很多单词“interest”和“rates”的文档在第二个主题中应该很低。另一方面，出现很多“好”和“服务”的文档应该在第二个主题中排名靠前。

至于确定最佳主题数量，取决于上下文，但主要取决于语料库的大小。以下是一些通用指南（取自this answer）：

作为一般规则，较少的维度允许对文本集合中包含的概念进行更广泛的比较，而更多的维度允许对概念进行更具体（或更相关）的比较。可以使用的实际维度数量受集合中文档数量的限制。研究表明，对于中等大小的文档集合（数十万个文档），大约 300 个维度通常会提供最佳结果，而对于较大的文档集合（数百万个文档），可能会提供 400 个维度。然而，最近的研究表明，根据文档集合的大小和性质，50-1000 个维度是合适的。

【讨论】：