【发布时间】:2017-08-18 20:51:24
【问题描述】:
我有一个包含大约 200,000 列和大约 5000 行的大文件。 这是该文件的一个简短示例,其中第 1 列和第 5 列重复。
Abf Bgj Csd Daa Abf Efg ...
0 1 2 1 0 1.1
2 0.1 1.2 0.3 2 1
...
这是我需要的结果示例。原文件第 5 列已被删除。
Abf Bgj Csd Daa Efg ...
0 1 2 1 1.1
2 0.1 1.2 0.3 1
...
有些列重复了好几次。 我需要使用 bash 工具从数据中删除重复项(保留第一个实例)。 我无法对数据进行排序,因为我需要保持顺序。
【问题讨论】:
-
格式化您的问题并显示所需的输出
-
您需要比较每个列的值还是仅列标题就足够了?例如,文件是否可以包含具有相同
Abf标头的不同列?也就是说,存在两种方式:1)遍历文件并删除所有具有相同标题的列;2)遍历文件并删除所有具有相同标题和值的相同列。 -
我只需要比较列标题。