import pandas as pd

import numpy as np

定义两个DataFrame数据集

数据分析笔记--pandas的多表连接

使用merge进行多表连接

1.默认连接方式(会使用表之间相同的列名作为外键进行连接,如果有两边对不上的字段则会自动丢弃)

数据分析笔记--pandas的多表连接

2.通过on指定外键

on指定外键,如果有重名的列名就会自动更改名称,有不对应的数据也会丢弃

数据分析笔记--pandas的多表连接

pd.merge默认使用的是内连接

内连接:相当于取两个数据集的交集,即二者都有的部分

外连接:两个数据集的并集,即全部数据


3.通过how指定连接方式

inner表示内链接,outer表示外连接(缺失数据会补充为NaN)

数据分析笔记--pandas的多表连接

left表示左连接,right表示右连接(尽量保证左表的数据完整或者右表的数据完整)

数据分析笔记--pandas的多表连接

4.指定左边表的外键left_on和右边表的外键right_on(处理两张表的外键不统一的情况)

数据分析笔记--pandas的多表连接

5.left_index和right_index(使用索引作为外键连接)

如下,左边表使用列名作为外键,右边表使用索引作为外键

数据分析笔记--pandas的多表连接

如果合并之后两边表有重名的列,则自动会在列名后加上_x或者_y

要想自定义后缀,则需要加上suffixes参数,例如suffixes=["_left","_right"]

相关文章:

  • 2021-04-09
  • 2021-04-02
  • 2021-04-14
  • 2021-05-08
  • 2021-08-21
  • 2021-09-08
  • 2021-10-11
  • 2022-12-23
猜你喜欢
  • 2021-08-22
  • 2021-10-08
  • 2021-10-30
  • 2021-10-18
  • 2021-06-21
  • 2021-07-24
  • 2021-04-28
相关资源
相似解决方案