【问题标题】:Debug why Dask Dataframe operation is doing nothing调试为什么 Dask Dataframe 操作什么都不做
【发布时间】:2020-07-08 09:25:43
【问题描述】:

我继承了一个项目,使用 Dask Dataframe 创建数据框。

from dask import dataframe as dd

# leaving out param values for brevity

df = dd.read_csv(
    's3://some-bucket/*.csv.gz',
    sep=delimiter,
    header=header,
    names=partition_column_names,
    compression=table_compression,
    encoding='utf-8',
    error_bad_lines=False,
    warn_bad_lines=True,
    parse_dates=date_columns,
    dtype=column_dtype,
    blocksize=None,
)

df_len = len(df)

# more stuff

我获取该 Dataframe,对其进行处理,然后将其转换为 Parquet。

该过程运行良好,但偶尔(仍未确定模式),该过程只是挂在len(df)。没有错误,没有退出,什么都没有。

Dask Dataframes 有什么概念可以让 Dataframe 操作超时吗?也许可以选择打开调试以更好地了解正在发生的事情?

【问题讨论】:

    标签: python python-3.x pandas amazon-s3 dask


    【解决方案1】:

    诊断仪表板在此处提供了最多的信息。 https://docs.dask.org/en/latest/diagnostics-distributed.html 信息最丰富,但本地调度程序也提供了一些信息(https://docs.dask.org/en/latest/diagnostics-local.html)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-07-06
      • 2018-07-13
      • 2019-04-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多