【发布时间】:2012-10-18 23:31:51
【问题描述】:
看起来 Psycopg 有一个用于执行 COPY 的自定义命令:
psycopg2 COPY using cursor.copy_from() freezes with large inputs
有没有办法通过 SQLAlchemy 访问此功能?
【问题讨论】:
标签: postgresql sqlalchemy psycopg2
看起来 Psycopg 有一个用于执行 COPY 的自定义命令:
psycopg2 COPY using cursor.copy_from() freezes with large inputs
有没有办法通过 SQLAlchemy 访问此功能?
【问题讨论】:
标签: postgresql sqlalchemy psycopg2
接受的答案是正确的,但如果您想要的不仅仅是 EoghanM 的评论,那么在将表格复制到 CSV 时,以下内容对我有用...
from sqlalchemy import sessionmaker, create_engine
eng = create_engine("postgresql://user:pwd@host:5432/db")
ses = sessionmaker(bind=engine)
dbcopy_f = open('/tmp/some_table_copy.csv','wb')
copy_sql = 'COPY some_table TO STDOUT WITH CSV HEADER'
fake_conn = eng.raw_connection()
fake_cur = fake_conn.cursor()
fake_cur.copy_expert(copy_sql, dbcopy_f)
sessionmaker 不是必需的,但如果您习惯同时创建引擎和会话以使用 raw_connection,则需要将它们分开(除非有某种方法可以访问引擎通过我不知道的会话对象)。提供给copy_expert 的sql 字符串也不是唯一的方法,有一个基本的copy_to 函数,您可以将其与可以传递给普通COPY TO 查询的参数子集一起使用。该命令的整体性能对我来说似乎很快,复制出约 20000 行的表。
http://initd.org/psycopg/docs/cursor.html#cursor.copy_to http://docs.sqlalchemy.org/en/latest/core/connections.html#sqlalchemy.engine.Engine.raw_connection
【讨论】:
fake_conn.commit()
如果您的引擎配置有 psycopg2 连接字符串(这是默认值,因此 "postgresql://..." 或 "postgresql+psycopg2://..."),您可以使用 SQL Alchemy 会话创建 psycopg2 游标
cursor = session.connection().connection.cursor()
你可以用来执行
cursor.copy_from(...)
光标将在与您当前会话相同的事务中处于活动状态。如果发生commit 或rollback,任何进一步使用光标并抛出psycopg2.InterfaceError,您都必须创建一个新的。
【讨论】:
connection.copy_from_table 方法,但在光标上不可用。如果我在其他答案中获得原始连接,它将不在同一个事务中。
你可以使用:
def to_sql(engine, df, table, if_exists='fail', sep='\t', encoding='utf8'):
# Create Table
df[:0].to_sql(table, engine, if_exists=if_exists)
# Prepare data
output = cStringIO.StringIO()
df.to_csv(output, sep=sep, header=False, encoding=encoding)
output.seek(0)
# Insert data
connection = engine.raw_connection()
cursor = connection.cursor()
cursor.copy_from(output, table, sep=sep, null='')
connection.commit()
cursor.close()
我在 5 秒而不是 4 分钟内插入 200000 行
【讨论】:
df 对象是什么?
pandas.DataFrame 有一个to_sql 方法,但这里没有使用该方法。相反,to_csv 方法用于将df 存储在in-memory text stream、output 中,然后使用raw_connection 将其传递给psycopg2。
您可能只需要使用 psycopg2 来公开此功能并放弃 ORM 功能。我想我并没有真正看到 ORM 在这样的操作中的好处,因为它是直接的批量插入,并且处理单个对象(例如 ORM)并没有真正的意义。
【讨论】:
如果您从 SQLAlchemy 开始,您需要首先访问连接引擎(在某些 SQLAlchemy 对象上也称为属性名称 bind):
engine = create_engine('postgresql+psycopg2://myuser:password@localhost/mydb')
# or
engine = session.engine
# or any other way you know to get to the engine
您可以从引擎中隔离 psycopg2 连接:
# get a psycopg2 connection
connection = engine.connect().connection
# get a cursor on that connection
cursor = connection.cursor()
这里有一些模板供 COPY 语句与 cursor.copy_expert() 一起使用,这是一个比 copy_from() 或 copy_to() 更完整和灵活的选项,如下所示:https://www.psycopg.org/docs/cursor.html#cursor.copy_expert。
# to dump to a file
dump_to = """
COPY mytable
TO STDOUT
WITH (
FORMAT CSV,
DELIMITER ',',
HEADER
);
"""
# to copy from a file:
copy_from = """
COPY mytable
FROM STDIN
WITH (
FORMAT CSV,
DELIMITER ',',
HEADER
);
"""
查看上述选项的含义以及您的具体情况可能感兴趣的其他选项https://www.postgresql.org/docs/current/static/sql-copy.html。
重要提示:cursor.copy_expert() 文档的链接表示使用 STDOUT 写入文件并使用 STDIN 从文件复制。但是,如果您查看 PostgreSQL 手册中的语法,您会注意到您还可以直接在 COPY 语句中指定要写入或写入的文件。不要那样做,如果您不是以 root 身份运行(谁在开发过程中以 root 身份运行 Python?),您可能只是在浪费时间987654331@,应该没问题。
# running the copy statement
with open('/path/to/your/data/file.csv') as f:
cursor.copy_expert(copy_from, file=f)
# don't forget to commit the changes.
connection.commit()
【讨论】:
【讨论】: