【发布时间】:2021-03-11 16:17:38
【问题描述】:
我一直在尝试使用threading 库进行多线程处理,并为几个不同的函数创建不同的线程。这些函数将 pandas 数据框作为参数,并对 AWS Redshift 运行 SQL 查询,并将检索到的数据作为列添加到数据框。但是,我有一个问题,在线程完成后打印数据帧时,有时其中一列会是空的。这似乎是随机的,有时添加所有列都没有任何问题。我认为.join() 的目的是通过等待每个线程完成后再继续来防止这种情况发生,但似乎并非如此。
import pandas as pd
import threading
df = pd.DataFrame()
def redshift_query1(df):
run query
df[column_name1] = query_results
def redshift_query2(df):
run query
df[column_name2] = query_results
def redshift_query3(df):
run query
df[column_name3] = query_results
t1 = threading.Thread(target=redshift_query1, args = [df])
t2 = threading.Thread(target=redshift_query2, args = [df])
t3 = threading.Thread(target=redshift_query3, args = [df])
t1.start()
t2.start()
t3.start()
t1.join()
t2.join()
t3.join()
print(df)
【问题讨论】:
-
你确定你的请求总是返回一些东西吗?
标签: python pandas multithreading amazon-redshift