【发布时间】:2019-05-14 06:53:30
【问题描述】:
我有两个对象列表:listA<modelA>(), listB<modelB>() 基于以下模型。
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Column, Integer, String
Base = declarative_base()
class modelA(Base):
__tablename__ = "TableA"
rowID = Column(Integer, primary_key=True)
applicationNo = Column(String)
accountNum = Column(String)
sanitizedAccountNum = Column(String)
class modelB(Base):
__tablename__ = "TableB"
rowID = Column(Integer, primary_key=True)
applicationNo = Column(String)
accountNum = Column(String)
sanitizedAccountNum = Column(String)
# create SQLAlchemy engine/connection
engine = create_engine("mysql+mysqlconnector://root:usbw@localhost:3307/testDB", echo=False)
dbSession = sessionmaker(bind=engine)
session = dbSession()
# query to pull data from DB
listA = session.query(modelA).limit(100).all()
listB = session.query(modelB).limit(100).all()
这些列表是使用 SqlAlchemy 填充的。每个表都包含近百万条记录,因此我尝试一次对部分记录执行查询。
从数据库中获取数据后,我尝试在上述两个列表上执行 SQL 样式的左连接,如下面的 SQL 查询:
SELECT a.applicationNo, a.sanitizedAccountNum
FROM listA a
LEFT JOIN listB b on b.applicationNo=a.applicationNo and b.sanitizedAccountNum=a.sanitizedAccountNum
WHERE b.applicationNo IS NULL;
我尝试过使用 Pandas 的 DataFrame,但无法获得正确的结果。
熊猫:
dfA = pd.DataFrame(listA)
dfB = pd.DataFrame(listB)
resultPD = pd.merge(dfA, dfB, how="left"), on=["applicationNo","sanitizedAccountNum"])
这里的“on”子句不起作用给我“KeyError:'applicationNo'”。如何在上述查询中为我的模型设置“加入”列?
追溯:
Traceback (most recent call last):
File "dbna.py", line 58, in <module>
resultPD = pd.merge(dfA, dfB, indicator="i", how="left", on=["applicationNo","sanitizedAccountNum"])
File "C:\Users\1833\AppData\Local\Programs\Python\Python37-32\lib\site-packages\pandas\core\reshape\merge.py", line 61, in merge validate=validate)
File "C:\Users\1833\AppData\Local\Programs\Python\Python37-32\lib\site-packages\pandas\core\reshape\merge.py", line 551, in __init__ self.join_names) = self._get_merge_keys()
File "C:\Users\1833\AppData\Local\Programs\Python\Python37-32\lib\site-packages\pandas\core\reshape\merge.py", line 857, in _get_merge_keys rk, stacklevel=stacklevel))
File "C:\Users\1833\AppData\Local\Programs\Python\Python37-32\lib\site-packages\pandas\core\generic.py", line 1382, in _get_label_or_level_values raise KeyError(key)
KeyError: 'applicationNo'
此外,这是否是“左连接”listA 和 listB 的最佳方式,并且仅根据提到的两个特定列从 listA 中获取不在 listB 中的记录?
编辑(示例数据): TableA Sample
更新:
正如@Philip 在下面的 cmets 中所建议的那样,诀窍是将 DB 结果直接绑定到 Pandas DataFrame,而不是绑定到类(模型)列表,然后从该列表创建 DataFrame。他在 cmets 中提供的 link 成功了。
【问题讨论】:
-
是否有不能在 SQL 中执行(左)连接的原因?每个表中有一百万条记录应该不是问题,尽管查询可能需要一些时间。如果
listA是 SQLAlchemy 实体对象的列表,则dfA将有一个对象列。请生成minimal reproducible example 并包含完整的回溯。 -
尝试在 MySQL 中执行它需要 40 多个小时并且仍在继续,因此在 DB 端执行它不是一个选项。我的最终目标是运行几个线程,每个线程有 10 万条记录。有没有办法从 dfA 单对象列访问列?我还编辑了我的帖子并为 KeyError 添加了 Traceback
-
你能从两张表中发布几行示例数据吗?
-
有趣的事实:Postgresql 在大约一秒钟内完成这样的查询,两个表中都有大约百万行(使用版本 10)。我正在等待 MySQL 8 完成。
-
可能有助于 MySQL 真正到达那里的事情:使连接中使用的列
NOT NULL并在两个表上创建一个索引,以覆盖ON子句中使用的列。通过这样的修改,查询在这台机器上的 MySQL 上大约 5 秒内完成(两个表中都有百万行)。
标签: python mysql pandas sqlalchemy