【发布时间】:2020-07-08 09:25:43
【问题描述】:
我继承了一个项目,使用 Dask Dataframe 创建数据框。
from dask import dataframe as dd
# leaving out param values for brevity
df = dd.read_csv(
's3://some-bucket/*.csv.gz',
sep=delimiter,
header=header,
names=partition_column_names,
compression=table_compression,
encoding='utf-8',
error_bad_lines=False,
warn_bad_lines=True,
parse_dates=date_columns,
dtype=column_dtype,
blocksize=None,
)
df_len = len(df)
# more stuff
我获取该 Dataframe,对其进行处理,然后将其转换为 Parquet。
该过程运行良好,但偶尔(仍未确定模式),该过程只是挂在len(df)。没有错误,没有退出,什么都没有。
Dask Dataframes 有什么概念可以让 Dataframe 操作超时吗?也许可以选择打开调试以更好地了解正在发生的事情?
【问题讨论】:
标签: python python-3.x pandas amazon-s3 dask