【发布时间】:2017-03-18 12:46:35
【问题描述】:
我有一个包含 1300 万行的 CSV。数据没有引用封装,它包含换行符,这导致一行数据有换行符。数据每行没有多个断点,只有一个。
我将如何获取这样的数据?
Line of data
Line of data
continuation of previous line of data
Line of data
Line of data
continuation of previous line
Line of data
然后把它变成这样:
Line of data
Line of data continuation of previous line of data
Line of data
Line of data continuation of previous line
Line of data
我已经通过将行存储在一个变量中并处理下一个来测试这一点,寻找第一个字符不是“L”,然后附加它。我也尝试过使用f.tell() 和f.seek() 在文件中移动,但我无法让它工作。
【问题讨论】:
-
重新表述:如果下一个字符串以空格开头,则为续行。顺便说一句,
csvmodule 不是已经处理了吗? -
我不能使用 CSV 模块,因为它们没有为每一列封装引号,并且列值有时包含一个或多个逗号。我必须做很多格式化才能正确拆分它。编辑:是的,我已经尝试过解决源数据问题......这是徒劳的努力
-
this answer 适用于您的简短示例数据,但不确定我们希望如何处理 1300 万行
标签: python