【发布时间】:2017-09-14 20:29:41
【问题描述】:
我有一个包含几百万行的自制数据集。我正在尝试制作截断的副本。因此,我剪裁了用于制作原始数据集并创建新数据集的张量。但是,当我保存只有 20K 行的新数据集时,它在磁盘上的大小与原始数据集相同。否则,一切似乎都合乎情理,包括,当我检查时,新张量的大小。我做错了什么?
#original dataset - 2+million rows
dataset = D.TensorDataset(training_data, labels)
torch.save(dataset, filename)
#20k dataset for experiments
d = torch.Tensor(training_data[0:20000])
l = torch.Tensor(labels[0:20000])
ds_small = D.TensorDataset(d,l)
#this is the same size as the one above on disk... approx 1.45GB
torch.save(ds_small, filename_small)
谢谢
【问题讨论】:
-
如果我的回答对您有用,请考虑将其标记为正确答案,这样问题就不会再显示为未回答。