【发布时间】:2015-07-09 21:56:07
【问题描述】:
我有一些巨大的数据集(在 10-20 之间),我需要找出这些数据集之间的关系。数据集非常庞大,以至于计算可能不适合单台机器。这些数据集中的字段是文本而不是数字。更复杂的是,某些字段也可能包含不正确的词,例如我使用模糊算法的 'house' 的 'huose'。
为了解决这个问题,我正在考虑使用余弦相似度,但不确定如此庞大数据集的性能。我的问题是,这种算法是否足以解决这类问题(性能和准确性)。如果没有,我应该研究其他一些算法吗?
编辑:更多信息
我将使用的数据集可能是文本文件和数据库表的混合。列中的值通常为 10-50 字符长,它不是一个巨大的文档。我寻找的关系是数据集的一列与另一列的相似程度。我有点想根据列之间的相似性得出一个分数。比如
Col1 Col2 Col3 甲乙 C S B E C A 电视 X E所以在上面的例子中可以说Col1和Col3之间有很强的关系,而Col1和Col2之间的关系很弱。
【问题讨论】:
-
您的意思是您有 10-20 个大文本文件?这是什么类型的文本?您在这些数据集之间寻找什么样的关系?一个例子在这里可能会有所帮助......
标签: algorithm bigdata string-matching