【问题标题】:Reading csv.gz file in torchtext在 torchtext 中读取 csv.gz 文件
【发布时间】:2020-08-23 18:23:20
【问题描述】:

Pandas 的 read_csv 也适用于 csv.gz。

有没有办法用 PyTorch 实现类似的?https://torchtext.readthedocs.io/en/latest/data.html#torchtext.data.Dataset 好像没有这个选项。

【问题讨论】:

    标签: pytorch torch torchtext


    【解决方案1】:

    TLDR:不,TabularDataset 不支持此功能

    torchtext.data.TabularDataset 使用csv.reader

    Using csvreader against a gzipped file in Python 建议如果你用gzip.open 打开文件,csv.reader 可以读取它。

    但是,TabularDataset 要求提供文件路径,而不是文件指针,因此深入研究source code,它使用了

    io.open(os.path.expanduser(path), encoding="utf8")
    

    打开文件路径。由于 .gz 不是 utf8,因此无法正确读取文件。

    【讨论】:

    • 感谢详细的解答和解释!似乎没有办法将文件对象传递给它。你可以在 Torch 中使用类似的功能吗?
    • 你可以复制TabularDataset的源代码并替换文件打开行。
    猜你喜欢
    • 2021-02-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-10-09
    • 2021-10-08
    • 2019-06-17
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多