【发布时间】:2026-02-02 22:50:02
【问题描述】:
我有一个 .csv 文件,我想打开它并最终将其保存为 pandas 数据框。该文件本身在数据框上方有一些垃圾文本,其标题以字符串Sample_ID 开头。我编写了一个代码,它分多个步骤完成这项工作,我现在想知道是否有更优雅的方式来做到这一点。这是我的代码
import pandas as pd
import re
from io import StringIO
with open('SampleSheet.csv') as f:
## read in the .csv file as a string
step1 = f.read()
## subset the step1 file
# define where my df should start
start = 'Sample_ID'
step2 = step1[step1.index(start):]
## read in step2 as a pandas dataframe with stringio
step3 = pd.read_csv(StringIO(step2))
我想知道是否有一种方法可以直接使用f.read() 进行切片,这样我就可以少一步了。
我也尝试将pd.read_csv() 与skiprows 一起使用,但我很难分配以Sample_ID 开头的行号
【问题讨论】:
标签: python-3.x pandas stringio