【问题标题】:Bulk update MySql with python使用 python 批量更新 MySql
【发布时间】:2016-05-03 13:53:42
【问题描述】:

我必须将数百万行更新到 MySQL。我目前正在使用 for 循环来执行查询。为了让更新更快,我想使用 Python MySQL 连接器的executemany(),这样我就可以使用每个批次的单个查询来批量更新。

【问题讨论】:

  • 不错..但我看不出有什么问题?
  • 基本上我想在 python 中使用 executemany 进行更新。有可能吗?
  • 您使用的是什么版本的 MySQL 连接器?

标签: mysql python-2.7 mysql-connector-python


【解决方案1】:

也许这会有所帮助 How to update multiple rows with single MySQL query in python?

cur.executemany("UPDATE Writers SET Name = %s WHERE Id = %s ",
    [("new_value" , "3"),("new_value" , "6")])
conn.commit()

【讨论】:

  • 不,它不工作。它仅适用于插入而不适用于更新
  • mysql-connector-python-rf==2.1.3 对我有用。但是,executemany for UPDATEs 的工作方式类似于在循环中逐一更新。 (它仅针对 INSERT 进行了优化)。
  • 是的,虽然这对我有用,但它似乎非常慢。
  • 上面@Westly 的回答显示了如何将更新作为插入,并帮助我一次完成许多更新(我做了 5000 个)。
【解决方案2】:

我不认为 mysqldb 可以同时处理多个 UPDATE 查询。

但是您可以在末尾使用带有 ON DUPLICATE KEY UPDATE 条件的 INSERT 查询。

为了易于使用和可读性,我编写了以下示例。

import MySQLdb

def update_many(data_list=None, mysql_table=None):
    """
    Updates a mysql table with the data provided. If the key is not unique, the
    data will be inserted into the table.

    The dictionaries must have all the same keys due to how the query is built.

    Param:
        data_list (List):
            A list of dictionaries where the keys are the mysql table
            column names, and the values are the update values
        mysql_table (String):
            The mysql table to be updated.
    """

    # Connection and Cursor
    conn = MySQLdb.connect('localhost', 'jeff', 'atwood', 'stackoverflow')
    cur = conn.cursor()

    query = ""
    values = []

    for data_dict in data_list:

        if not query:
            columns = ', '.join('`{0}`'.format(k) for k in data_dict)
            duplicates = ', '.join('{0}=VALUES({0})'.format(k) for k in data_dict)
            place_holders = ', '.join('%s'.format(k) for k in data_dict)
            query = "INSERT INTO {0} ({1}) VALUES ({2})".format(mysql_table, columns, place_holders)
            query = "{0} ON DUPLICATE KEY UPDATE {1}".format(query, duplicates)

        v = data_dict.values()
        values.append(v)

    try:
        cur.executemany(query, values)
    except MySQLdb.Error, e:
        try:
            print"MySQL Error [%d]: %s" % (e.args[0], e.args[1])
        except IndexError:
            print "MySQL Error: %s" % str(e)

        conn.rollback()
        return False

    conn.commit()
    cur.close()
    conn.close()

一个衬垫的解释

columns = ', '.join('`{}`'.format(k) for k in data_dict)

相同
column_list = []
for k in data_dict:
    column_list.append(k)
columns = ", ".join(columns)

这是一个使用示例

test_data_list = []
test_data_list.append( {'id' : 1, 'name' : 'Marco', 'articles' : 1 } )
test_data_list.append( {'id' : 2, 'name' : 'Keshaw', 'articles' : 8 } )
test_data_list.append( {'id' : 3, 'name' : 'Wes', 'articles' : 0 } )

update_many(data_list=test_data_list, mysql_table='writers')

查询输出

INSERT INTO writers (`articles`, `id`, `name`) VALUES (%s, %s, %s) ON DUPLICATE KEY UPDATE articles=VALUES(articles), id=VALUES(id), name=VALUES(name)

值输出

[[1, 1, 'Marco'], [8, 2, 'Keshaw'], [0, 3, 'Wes']]

【讨论】:

  • 这对我很有用。我发现使用 Python 3.8,我需要将 values.append(v) 更改为 list(values.append(v))。我还发现我需要更新记录中的所有字段(列)。我不知道这是否是因为数据库中的限制。但是,我收到了一条关于程序员错误的神秘消息。所以,我继续把记录中的所有元素都拉出来,然后在我做 INSERT 的时候把它们都拿出来。我使用 mysql.connector 而不是 MySQLdb。我能够在不到一分钟的时间内更新所有小表(50,000 条)记录。现在转到更大的桌子。
猜你喜欢
  • 1970-01-01
  • 2011-09-06
  • 1970-01-01
  • 2016-06-14
  • 1970-01-01
  • 1970-01-01
  • 2023-01-14
  • 1970-01-01
相关资源
最近更新 更多