【问题标题】:Searching for similar columns in a huge csv file [closed]在巨大的 csv 文件中搜索类似的列 [关闭]
【发布时间】:2017-01-12 06:51:24
【问题描述】:

我有一个巨大的 csv 文件,它有 5000 列和 5,000,000 行。我知道这个文件中有一些列是完全相同的。我想确定这样的列。请注意,我无法将这个巨大的文件提取到内存中,运行时也很重要。

【问题讨论】:

  • 所有这些标签,没有代码?添加python和代码,你可能会得到一些答案。
  • 如果您对 CSV 进行了排序,那么您不需要同时在内存中保留太多

标签: bash perl csv c++11


【解决方案1】:

一模一样?

我想你可以用哈希函数来验证它。

第 1 步 - 您可以加载第一行的 5'000 个值并计算 5'000 个哈希值;排除没有对应值的值(列)。

第 2 步 - 加载值(只有列幸存)并计算前一个哈希值与加载值连接的哈希值;排除没有对应值的值(列)。

以下步骤:与第 2 步完全相同:加载和连接/哈希,不包括不匹配的列。

【讨论】:

  • 我按照您的建议使用 bash 并计算每列的哈希值。我在 for 循环中有以下命令。 hash=$(tail -n +2 train.csv | cut -d',' -f$i | sha256sum)
猜你喜欢
  • 2011-05-01
  • 2017-07-07
  • 1970-01-01
  • 1970-01-01
  • 2021-06-14
  • 1970-01-01
  • 2014-04-16
  • 2016-02-17
  • 2014-02-05
相关资源
最近更新 更多