【问题标题】:How to interpret gensim topics properly?如何正确解释 gensim 主题?
【发布时间】:2016-04-27 20:35:46
【问题描述】:

我认为这可能之前已经讨论过,但不知怎的我找不到答案,所以在这里。

以下是一些客户调查中使用 gensim lsi 生成的主题。我的问题是:

  1. 单词前面的减号和加号是什么意思?
  2. 在这里我生成了 5 个主题,我还可以生成更多。如何确定最佳主题数量?例如,也许在第三个主题之后,统计上的其他一切都将变得微不足道。

欢迎提出任何建议。

0.527*“利息”+ 0.475*“较低”+ 0.376*“利率”+ 0.338*“利率”+ 0.324*“好”+ 0.257*“服务” 0.671*"好" + 0.586*"服务" + -0.254*"利息" + -0.251*"较低" + -0.159*"利率" + -0.150*"利率" 0.600*“很棒”+ 0.351*“轻松”+ 0.337*“奖励”+ 0.242*“使用”+ -0.167*“服务”+ 0.160*“喜欢” -0.503*"rates" + 0.499*"rate" + -0.39*"great" + 0.364*"high" + -0.289*"lower" + 0.167*"easy" -0.608*"伟大" + 0.362*"容易" + -0.303*"率" + 0.275*"率" + 0.244*"使用" + -0.227*"高"

【问题讨论】:

    标签: gensim


    【解决方案1】:

    LSI 背后的主要机制是术语文档矩阵 (TDM) 上的奇异值分解 (SVD)。我不会在这里详细介绍,但如果您愿意,可以阅读SVD on wikipedia

    生成的主题是术语的线性组合。选择这些线性组合(使用 SVD)来创建 TDM 的“低秩近似”。

    单词权重的大小可以被认为是重要的:它们在近似原始 TDM 中的重要性。或者,更笼统地说,主题在描述 TDM 所基于的语料库中的重要性。

    权重的符号仅相对于彼此重要(例如,您可以将所有内容乘以 -1,如果您正确地重新解释线性组合,您将得到相同的解释)。如果可以根据每个文档的主题程度对每个文档进行评级,那么该标志会告诉您相关单词推动文档的方式。例如,在您提供的输出中,出现很多单词“interest”和“rates”的文档在第二个主题中应该很低。另一方面,出现很多“好”和“服务”的文档应该在第二个主题中排名靠前。

    至于确定最佳主题数量,取决于上下文,但主要取决于语料库的大小。以下是一些通用指南(取自this answer):

    作为一般规则,较少的维度允许对文本集合中包含的概念进行更广泛的比较,而更多的维度允许对概念进行更具体(或更相关)的比较。可以使用的实际维度数量受集合中文档数量的限制。研究表明,对于中等大小的文档集合(数十万个文档),大约 300 个维度通常会提供最佳结果,而对于较大的文档集合(数百万个文档),可能会提供 400 个维度。然而,最近的研究表明,根据文档集合的大小和性质,50-1000 个维度是合适的。

    【讨论】:

      猜你喜欢
      • 2020-12-26
      • 1970-01-01
      • 1970-01-01
      • 2011-03-27
      • 2017-02-19
      • 2018-03-14
      • 1970-01-01
      • 1970-01-01
      • 2017-03-10
      相关资源
      最近更新 更多