【发布时间】:2016-01-20 13:38:34
【问题描述】:
Mahout:在每次运行以下提到的步骤时,行相似性过程的输出都是不同的(保持所有运行的所有输入相同)
Step1:seq2sparse(从文本创建向量) Step2:rowid(生成tfidf向量) Step3:rowsimilarity(计算向量之间的相似度) Step4:seqdumper(二进制向量转文本)
更新:
感谢 Pferrel 的回复,
请建议我们如何指定“种子值”
我使用的命令是: ${MAHOUT_HOME}/bin/mahout seq2sparse -i ${DATA}/seq-data -o ${DATA}/vectors -n 2 -wt tfidf -ng 3 -nv -ow -md 100 -s 10
${MAHOUT_HOME}/bin/mahout rowid -i ${DATA}/vectors/tfidf-vectors/part-r-00000 -o ${DATA}/matrix
${MAHOUT_HOME}/bin/mahout rowsimilarity -i ${DATA}/matrix/matrix -o ${DATA}/similarity --similarityClassname SIMILARITY_COSINE -m 100 -ess -ow
【问题讨论】:
标签: mahout