【发布时间】:2019-09-20 02:22:21
【问题描述】:
我对机器学习、NLP 和 LDA 都很陌生,所以我不确定我是否完全正确地解决了我的问题;但我正在尝试使用已知主题和多个主题选择进行无监督主题建模。 基于Topic modelling, but with known topics?
我可以用每个主题标记我的每个文档,并且我的无监督集有效地变成了有监督的(LLDA 是一种有监督的技术)。
阅读此paper 我遇到了一些其他潜在问题 - 首先,我的数据按类别和子类别进行组织。根据论文,LLDA 在文本之间具有显着的语义区别时更有效——对于我相对接近的子类别,我不会特别有这种区别。此外,该论文指出,LLDA 并非设计为多标签分类器。
我希望通过包含 GuidedLDA 的引导部分来弥补这些弱点(我还没有读过这方面的论文,但我确实读过 https://medium.freecodecamp.org/how-we-changed-unsupervised-lda-to-semi-supervised-guidedlda-e36a95f3a164 )。
那么是否有任何算法(我假设对 LLDA 进行了修改,但我在这方面的阅读也不是很好)允许人们使用某种形式的直觉来帮助具有已知主题类的无监督主题模型选择多个主题?
至于为什么我不只使用 Guided LDA - 我正计划对其进行测试,看看它的表现如何(与 LLDA 一起)。但它也不是为多个标签设计的。
如果重要的话,请稍加注意 - 我实际上是在使用文档和文字来存储我的数据,我已经阅读了有关 LDA 与其他数据类型一起使用的信息。
进一步说明 - 我在 Python 方面有相当多的经验,虽然我听说有一个很好的主题建模工具,叫做 Mallet,我可能会探索但还没有研究(也许它有这方面的东西?)
【问题讨论】:
标签: python machine-learning nlp lda topic-modeling