【发布时间】:2018-01-09 05:19:42
【问题描述】:
使用 pandas 读取大制表符分隔文件
df = pd.read_csv(file_path, sep='\t', encoding='latin 1', dtype = str, keep_default_na=False, na_values='')
问题是有 200 列,第 3 列是带有偶尔换行符的文本。文本没有用任何特殊字符分隔。这些行被分割成多行,数据进入错误的列。
每行都有固定数量的选项卡 - 这就是我必须继续进行的全部内容。
【问题讨论】:
-
我认为你不能单独在 Pandas 中做到这一点。但是您可以预处理文件并将所有换行符替换为其他可接受的字符,除非它们发生在每行中的 N 个制表符之后。
-
当行被截断时,剩余列中的值是否得到NaN??