【发布时间】:2020-08-23 18:23:20
【问题描述】:
Pandas 的 read_csv 也适用于 csv.gz。
有没有办法用 PyTorch 实现类似的?https://torchtext.readthedocs.io/en/latest/data.html#torchtext.data.Dataset 好像没有这个选项。
【问题讨论】:
Pandas 的 read_csv 也适用于 csv.gz。
有没有办法用 PyTorch 实现类似的?https://torchtext.readthedocs.io/en/latest/data.html#torchtext.data.Dataset 好像没有这个选项。
【问题讨论】:
TLDR:不,TabularDataset 不支持此功能
torchtext.data.TabularDataset 使用csv.reader。
Using csvreader against a gzipped file in Python 建议如果你用gzip.open 打开文件,csv.reader 可以读取它。
但是,TabularDataset 要求提供文件路径,而不是文件指针,因此深入研究source code,它使用了
io.open(os.path.expanduser(path), encoding="utf8")
打开文件路径。由于 .gz 不是 utf8,因此无法正确读取文件。
【讨论】: