【发布时间】:2015-05-07 02:02:28
【问题描述】:
我正在对数千个(例如 10,000 个)文本文档进行分析。我已经计算了 TF-IDF 权重,并且有一个具有成对余弦相似度的矩阵。我想将文档视为一个图表来分析各种属性(例如,分隔文档组的路径长度)并将连接可视化为网络。
问题是有太多相似之处。大多数都太小而没有意义。我看到很多人通过将所有相似度降低到特定阈值以下来处理这个问题,例如,相似度低于 0.5。
但是,0.5(或 0.6,或 0.7 等)是一个任意阈值,我正在寻找更客观或更系统的技术来消除微小的相似之处。
我对许多不同的策略持开放态度。例如,是否有 tf-idf 的不同替代方案可以使大多数小的相似性为 0?仅保留重要相似性的其他方法?
【问题讨论】:
标签: text cluster-analysis document similarity