【发布时间】:2017-10-21 07:09:52
【问题描述】:
我有一大组(36k 句)句子(文本列表)及其 POS 标签(POS 列表),我想使用编辑距离/Levenshtein 对 POS 列表中的元素进行分组/聚类:
(例如 Sentx POS tags= [CC DT VBZ RB JJ], Senty POS tags= [CC DT VBZ RB JJ] )在集群编辑距离=0,
while ([CC DT VBZ RB JJ], [CC DT VB RB JJ]) 在簇编辑距离=1。
我了解聚类算法的工作原理,但我很困惑如何在 python 中解决这样的问题以及如何将聚类存储在数据结构中以便我可以轻松地检索它们。
我尝试创建一个矩阵(测量每个句子与语料库中所有句子的距离),但处理时间很长。
【问题讨论】:
-
可能值得在cs.stackexchange.com 提问,因为这是一个算法设计问题,而不是一个编程问题。似乎您需要研究聚类算法:无论是什么语言,蛮力总是会太慢。
标签: python machine-learning nlp cluster-analysis edit-distance