【发布时间】:2015-05-31 00:41:57
【问题描述】:
我尝试使用 pandas 处理多个巨大的 tsv 文件。我想按“col3”和“col5”分组。我试过这个:
import pandas as pd
df = pd.read_csv('filename.txt', sep = "\t")
g2 = df.drop_duplicates(['col3', 'col5'])
g3 = g2.groupby(['col3', 'col5']).size().sum(level=0)
print g3
到目前为止它工作正常,并打印如下输出:
yes 2
no 2
我希望能够聚合来自多个文件的输出,即能够一次按所有文件中的这两列进行分组,并打印一个常见的输出,其中出现“是”或'no' 或任何可能的属性。换句话说,我现在想一次对多个文件使用 groupby。如果一个文件没有这些列之一,它应该被跳过并转到下一个文件。
【问题讨论】:
标签: python csv pandas group-by