【发布时间】:2017-02-16 21:10:50
【问题描述】:
有没有办法将通过 gz 压缩的 .csv 文件读取到 dask 数据帧中?
我直接试过了
import dask.dataframe as dd
df = dd.read_csv("Data.gz" )
但得到一个 unicode 错误(可能是因为它正在解释压缩字节)有一个 "compression" 参数,但 compression = "gz" 不起作用,到目前为止我找不到任何文档。
使用 pandas,我可以直接读取文件而不会出现问题,只是结果会破坏我的记忆 ;-) 但如果我限制行数,它就可以正常工作。
import pandas.Dataframe as pd
df = pd.read_csv("Data.gz", ncols=100)
【问题讨论】:
-
好吧,没有任何编码集,常规的 pandas(非 dask)读取就可以了,所以我的猜测是 dask 尝试将压缩的 gz 文件直接作为 ascii 文件读取并变得毫无意义.