【发布时间】:2017-03-16 12:49:25
【问题描述】:
我正在尝试实现用于文本聚类的 k-means,特别是英语句子。到目前为止,我对每个文档(句子)都有一个词频矩阵。我对文本数据上 k-means 的实际实现有点困惑。这是我对它应该如何工作的猜测。
算出所有句子中唯一词的数量(很大,称之为
n)。创建
kn维向量(簇)并用一些随机数填充k向量的值(我如何确定这些数字的界限是什么?)确定每个
q句子到随机k簇、重新定位簇等的欧几里得距离(如果n像英语一样非常大,则不会计算欧几里得这些向量的距离非常昂贵?)
感谢您的任何见解!
【问题讨论】: