【发布时间】:2013-07-06 10:33:10
【问题描述】:
我正在尝试对 Twitter 流进行集群。我想将每条推文放到一个讨论相同主题的集群中。我尝试使用具有 tf/idf 和余弦相似度的在线聚类算法对流进行聚类,但我发现结果非常糟糕。
使用 tf/idf 的主要缺点是它会将关键字相似的文档聚集在一起,因此只能识别几乎相同的文档。例如考虑以下句子:
1- 网站 Stackoverflow 是一个不错的地方。 2- Stackoverflow 是一个网站。
前面的两个句子可能会通过一个合理的阈值聚集在一起,因为它们共享很多关键字。但现在考虑以下两句话:
1- 网站 Stackoverflow 是一个不错的地方。 2- 我定期访问 Stackoverflow。
现在使用 tf/idf 聚类算法将惨遭失败,因为它们只共享一个关键字,即使它们都谈论同一个主题。
我的问题:有没有更好的技术来聚类文档?
【问题讨论】:
-
@ThomasJungblut 好吧,TF-IDF 应该是一种加权方案,已经对相关关键字赋予了更多权重。如果认为问题在于推文只是如此微小的文本片段,那么除了“接近身份”之外,您就不能期望相似性在它们上能很好地发挥作用。大多数推文甚至都不是完整的句子,因此 NLP 也可能会失败。
-
LSI / LDA / NMF 等值得关注的一件事是主题漂移。如果您的管道未正确完成,则在已知数据集上训练模型将产生良好的结果。如果您随后将模型应用于完全看不见的数据集,您可能会看到由于拟合原始训练数据而导致性能显着下降。由于 Twitter 文本非常短,因此表示需要进行一些调整,因为可能没有足够的文本来正确训练模型。
-
@steve 有什么解决办法吗?
-
@guckogucko 它来自的用户有什么影响吗?
-
@steve 你是什么意思?
标签: machine-learning data-mining cluster-analysis text-mining