【发布时间】:2015-04-05 21:27:17
【问题描述】:
我正在寻找一种有效的方法,根据相似词序列的出现将大约 1000 万个字符串聚类成簇。
考虑一个字符串列表,例如:
the fruit hut number one
the ice cre am shop number one
jim's taco
ice cream shop in the corner
the ice cream shop
the fruit hut
jim's taco outlet number one
jim's t aco in the corner
the fruit hut in the corner
算法在它们上运行后,我希望它们按如下方式聚集:
the ice cre am shop number one
ice cream shop in the corner
the ice cream shop
jim's taco
jim's taco outlet number one
jim's t aco in the corner
the fruit hut
fruit hut number one
the fruit hut in the corner
很明显,区分簇的序列是:
ice cream shop, jim's taco and fruit hut
【问题讨论】:
-
什么编程语言?
-
其实这并不重要。我对聚类算法等更感兴趣。
-
你试过什么?例如,在 scikit-learn 中实现了 count 和 tf-idf 模型。
-
@IVlad 我对这个领域很陌生。我正在寻找方法(例如:stackoverflow.com/questions/7196053/…)。
标签: algorithm machine-learning nlp cluster-analysis