【发布时间】:2012-09-05 18:51:24
【问题描述】:
我正在尝试在非常大的距离上执行快速集群,但遇到了问题。
我有一个非常大的 csv 文件(大约 9100 万行,因此 R 中的 for 循环花费的时间太长)关键字(大约 50,000 个唯一关键字)之间的相似性,当我读入 data.frame 时看起来像:
> df
kwd1 kwd2 similarity
a b 1
b a 1
c a 2
a c 2
这是一个稀疏列表,我可以使用 sparseMatrix() 将其转换为稀疏矩阵:
> myMatrix
a b c
a . . .
b 1 . .
c 2 . .
但是,当我尝试使用 as.dist() 将其转换为 dist 对象时,我从 R 中收到“问题太大”的错误。我已阅读此处的其他 dist 问题,但代码其他人建议不适用于我上面的示例数据集。
感谢您的帮助!
【问题讨论】:
标签: r distance sparse-matrix bigdata hierarchical-clustering