【发布时间】:2019-09-30 12:34:09
【问题描述】:
我有一个要从中提取数据的 .csv 文件。该文件有四列,['time', 'apple', 'banana', 'orange']。
每列有 100 行。我希望从香蕉列中提取数据并将其插入数据框中,前提是时间列中的值非零。注意:在时间 t 之后,时间列中的值会回到零,我不希望提取这些行。
我想提取时间列,并将其用作我的数据框中的列名,然后将香蕉值作为我的数据框中的一行。
我希望将其放入数据框中的原因是我有几个希望从中提取数据的 .csv 文件。我有一个数据框已经由一个列组成,该列包含每个 .csvs 的路径
我用来提取香蕉列的代码是:
for i, p in enumerate(df['path']):
if re.match(r".*\.L.*", p):
df = pd.read_csv(p, index_col=False, sep='\s+|\t+|\s+\t+|\t+\s+', comment='#', names=['time', 'apple', 'banana', 'orange', 'pear'], usecols=[1])
df.iloc[i, 3:] = df['apple'].values
但是,这并没有按照我的意愿给出列名,而是会提取 csv 的所有行,而不仅仅是时间值非零的行。
【问题讨论】:
-
您能否澄清以下内容:输出是否应该是包含
time和banana列的DataFrame?还是应该输出一个 DataFrame,其中time值是列名,banana值在第一行? -
对不够清晰深表歉意。我希望列名是时间。我希望香蕉数据与 csv 在 df['path'] 中的路径位于同一行。
标签: python pandas csv dataframe