在巨大的 csv 文件中搜索类似的列 [关闭]

【问题标题】：Searching for similar columns in a huge csv file [closed]在巨大的 csv 文件中搜索类似的列 [关闭]
【发布时间】：2017-01-12 06:51:24
【问题描述】：

我有一个巨大的 csv 文件，它有 5000 列和 5,000,000 行。我知道这个文件中有一些列是完全相同的。我想确定这样的列。请注意，我无法将这个巨大的文件提取到内存中，运行时也很重要。

【问题讨论】：

【解决方案1】：

一模一样？

我想你可以用哈希函数来验证它。

第 1 步 - 您可以加载第一行的 5'000 个值并计算 5'000 个哈希值；排除没有对应值的值（列）。

第 2 步 - 加载值（只有列幸存）并计算前一个哈希值与加载值连接的哈希值；排除没有对应值的值（列）。

以下步骤：与第 2 步完全相同：加载和连接/哈希，不包括不匹配的列。

【讨论】：

我按照您的建议使用 bash 并计算每列的哈希值。我在 for 循环中有以下命令。 hash=$(tail -n +2 train.csv | cut -d',' -f$i | sha256sum)