【发布时间】:2018-07-21 07:01:06
【问题描述】:
我刚刚开始研究 Pandas 的世界,我发现的第一个奇怪的 CSV 文件是一个开头有两行 cmets(具有不同的列宽)的文件。
sometext, sometext2
moretext, moretext1, moretext2
*header*
actual data ---
---------------
我知道如何使用skiprows 或header= 跳过这些行,但是,我将如何在使用read_csv 时保留这些cmets?有时 cmets 作为文件元信息是必需的,我不想把它们扔掉。
【问题讨论】:
-
是否有说明 CSV 文件具有 cmets 或任何元数据的文件规范?只需将这两行读入一个单独的变量
-
嗯,您作为原始数据导入的内容始终可以保留。 IIUC 您可能会更好地使用
iloc[some_row:]并为其余的计算创建 DF 的副本。不是最节省内存的方式,但这取决于您的具体问题。 -
@roganjosh 您能否详细说明
iloc[some_row:]以提取原始数据? -
@Coolio2654,如果以下解决方案之一有助于您随意接受一个(勾选左侧)。这将帮助其他用户解决同样的问题。
标签: python pandas csv import comments