【发布时间】:2021-11-21 10:11:14
【问题描述】:
我想了解一些关于在 Dask 上分割镶木地板的事情。
当我在 .csv 文件中执行此操作时,块大小按预期工作,基于 50 mb 块执行 30 个分区。
当我尝试通过 read_parquet 执行相同的逻辑时,不会创建任何分区,而当我使用 repartition(partition_size='50mb') 强制执行此操作时,它会创建 109 个分区。
有人可以向我解释为什么 parquet 在处理块大小时似乎不像 .csv 那样工作吗?
【问题讨论】:
-
您能否提供更多详细信息,包括您为加载数据而运行的实际代码。
-
请提供足够的代码,以便其他人更好地理解或重现问题。