【发布时间】:2019-08-31 19:27:16
【问题描述】:
我有以下查询,它返回日期范围之间的数据。
dates = ['20100101','20100201',20100301','20100401']
query = 'select date, company_name, total_amount from info_stats where date between 'start_date' and 'end_date'
我从另一个进程获取日期范围并构造一个列表,以便我可以如下迭代:
pds = []
for idx in range(0, len(dates) - 1):
formated_query = self.get_formated_query(start_date=dates[idx].strftime('%Y%m%d'),
end_date=dates[idx + 1].strftime('%Y%m%d')
results_df = pds.append(pd.read_sql(sql=formated_query,con=db_connect))
查询我在index 和index + 1 传递日期(日期大于索引处的日期)
这些查询需要很长时间,我想以并行方式执行,以便更短的等待时间。我检查了joblib,但不确定这是multi-threading 还是multi-processing。看起来像前者。也是joblib 的新手,如何使用joblib 或其他包并行化上述代码?
【问题讨论】:
标签: python multithreading multiprocessing