【发布时间】:2017-01-12 06:51:24
【问题描述】:
我有一个巨大的 csv 文件,它有 5000 列和 5,000,000 行。我知道这个文件中有一些列是完全相同的。我想确定这样的列。请注意,我无法将这个巨大的文件提取到内存中,运行时也很重要。
【问题讨论】:
-
所有这些标签,没有代码?添加python和代码,你可能会得到一些答案。
-
如果您对 CSV 进行了排序,那么您不需要同时在内存中保留太多
我有一个巨大的 csv 文件,它有 5000 列和 5,000,000 行。我知道这个文件中有一些列是完全相同的。我想确定这样的列。请注意,我无法将这个巨大的文件提取到内存中,运行时也很重要。
【问题讨论】:
一模一样?
我想你可以用哈希函数来验证它。
第 1 步 - 您可以加载第一行的 5'000 个值并计算 5'000 个哈希值;排除没有对应值的值(列)。
第 2 步 - 加载值(只有列幸存)并计算前一个哈希值与加载值连接的哈希值;排除没有对应值的值(列)。
以下步骤:与第 2 步完全相同:加载和连接/哈希,不包括不匹配的列。
【讨论】: