【发布时间】:2018-02-05 01:48:34
【问题描述】:
我有一个 4.5GB 的 CSV 文件,我需要从中删除 "。当前的记录可能如下所示:
47477209,11,HIST,"
CANCELLED",,,,,,,,47140495
但是它需要看起来像这样:
47477209,11,HIST,CANCELLED,,,,,,,,47140495
否则当我在 spark 中将它用作 DF 时,它认为这是一个新记录。
这是我目前在阅读CSV 并写信给JSON 时所拥有的:
f = open('changeset.csv', 'rb' )
reader = csv.DictReader(f)
jsonoutput = 'masterlist2.0.json'
with open(jsonoutput, 'w') as f:
for x in reader:
json.dump(x,f)
f.write('\n')
我在想你可以做这样的事情..
json.dump(x.replace('"', ''),f)
【问题讨论】:
-
按照您的建议进行直接字符替换会导致各种问题。例如。它也将替换转义的双引号。不要这样做。
标签: python json python-2.7 csv