如何组合两个数据框？答案

【问题标题】：How do I combine two dataframes?如何组合两个数据框？
【发布时间】：2012-10-02 18:06:07
【问题描述】：

我正在使用 Pandas 数据框。我有一个初始数据框，比如D。我像这样从中提取两个数据框：

A = D[D.label == k]
B = D[D.label != k]

我想将A 和B 组合起来，这样我就可以将它们作为一个DataFrame，类似于联合操作。数据的顺序并不重要。但是，当我们从D 中采样A 和B 时，它们会保留来自D 的索引。

【问题讨论】：

【解决方案1】：

相信你可以使用append方法

bigdata = data1.append(data2, ignore_index=True)

要保持索引，不要使用ignore_index 关键字...

【讨论】：

这行得通。它虽然创建了一个新的 DataFrame。有没有办法内联？当我从数据库中批量加载大量数据时，这会很好，这样我就可以迭代更新 DataFrame 而无需每次都创建副本。
是的，这是可能的，请参阅：stackoverflow.com/a/46661368/5717580

【解决方案2】：

您也可以使用pd.concat，这在您加入两个以上的数据框时特别有用：

bigdata = pd.concat([data1, data2], ignore_index=True, sort=False)

【讨论】：

【解决方案3】：

想在这里添加它以防有人发现它有用。 @ostrokach 已经提到如何跨行合并数据帧，这是

df_row_merged = pd.concat([df_a, df_b], ignore_index=True)

要跨列合并，可以使用以下语法：

df_col_merged = pd.concat([df_a, df_b], axis=1)

【讨论】：

【解决方案4】：

如果您正在处理大数据并且需要连接多个数据集，多次调用concat 可能会占用大量性能。

如果您不想每次都创建新的 df，则可以改为汇总更改并仅调用一次 concat：

frames = [df_A, df_B]  # Or perform operations on the DFs
result = pd.concat(frames)

这在本节底部concatenating objects 下的熊猫文档中指出）：

注意：但值得注意的是，concat（因此append）制作数据的完整副本，并不断重用功能可以产生显着的性能影响。如果您需要使用对多个数据集的操作，使用列表推导。

【讨论】：

【解决方案5】：

如果您想用第二个数据帧df2 的值更新/替换第一个数据帧df1 的值。你可以按照以下步骤来做——

第一步：设置第一个数据帧的索引（df1）

df1.set_index('id')

第二步：设置第二个数据帧的索引（df2）

df2.set_index('id')

最后使用下面的 sn-p 更新数据框——

df1.update(df2)

【讨论】：