【发布时间】:2016-09-22 01:34:46
【问题描述】:
我有两个数据集。第一个是这样的:
data file:
Column 1, Column 2, Column 3, Column 4, Column 5, Column 6
1111111, 2222222, 3333333, 44444444, 55555555, 666666666
0000000, 77777777, 8888888, 99999999, 10101010, 121212121
3333333, 55555555, 9999999, 88888888, 22222222, 111111111
第二个文件是这样的:
descriptors file:
Column 1, Column 2, Column 3
11111111,, this is a descriptor
,777777777, this is a descriptor again
99999999, , last descriptor
我想要的如下:
Column 1, Column 2, Column 3, Column 4, Column 5, Column 6, Column 7
1111111, 2222222, 3333333, 44444444, 55555555, 666666666, this is a descriptor
0000000, 77777777, 8888888, 99999999, 10101010, 121212121, this is a descriptor again
3333333, 55555555, 9999999, 88888888, 22222222, 111111111
我有以下代码,来自我为我使用而操纵的论坛:
import csv
with open('descriptors file.CSV', 'r') as first_file:
reader = csv.reader(first_file)
first_header = next(reader, None)
file_information = {row[0]: row for row in reader}
with open('data file.CSV', 'r') as second_file:
with open('final results.csv', 'w', newline='') as outfile:
reader = csv.reader(second_file)
second_header = next(reader, None)
writer = csv.writer(outfile)
writer.writerow(second_header[:6] + first_header[2:])
for row in reader:
if row[0] not in file_information:
continue
newrow = row[0:] + file_information[row[0]]
writer.writerow(newrow)
我的问题如下:
1)。我想在第 0 列和第 1 列(1 和 2)之间进行匹配;我在 2 列之间不匹配;只有一个
2)。结果不包括空行。例如,如果在描述符文件中找不到与数据文件匹配的任何内容,我宁愿将数据保留在数据文件中,而不是将其丢弃。数据文件应该由描述符文件增加,而不是减少。
3)。我不知道如何只写描述符列,而不是描述符文件中的整个 3 列
【问题讨论】:
-
data_file 和 descriptors_file 中有多少个字符串?
-
数据文件有几百行,描述文件有1500行左右
-
我说得对吗,这两个文件都少于 10000 行?和描述文件比 data_file 长吗?我认为 data_file 应该更长。
-
是的,两个文件都在10k行以下,并且数据文件比描述文件短。数据文件是查询的一个实例,而描述是所有描述的主文件。
-
好的,如果所有文件都很短,我的脏脚本应该可以正常工作。
标签: python python-3.x csv merge rows