如何在 Dataloader 中使用 Batchsampler答案

【问题标题】：How to use a Batchsampler within a Dataloader如何在 Dataloader 中使用 Batchsampler
【发布时间】：2026-01-09 03:05:03
【问题描述】：

我需要在 pytorch DataLoader 中使用 BatchSampler，而不是多次调用数据集的 __getitem__（远程数据集，每个查询都很昂贵）。
我不明白如何将批处理采样器与任何给定的数据集一起使用。

例如

class MyDataset(Dataset):

    def __init__(self, remote_ddf, ):
        self.ddf = remote_ddf

    def __len__(self):
        return len(self.ddf)

    def __getitem__(self, idx):
        return self.ddf[idx] --------> This is as expensive as a batch call

    def get_batch(self, batch_idx):
        return self.ddf[batch_idx]

my_loader = DataLoader(MyDataset(remote_ddf), 
           batch_sampler=BatchSampler(Sampler(), batch_size=3))

我不明白的事情是，我如何使用我的 get_batch 函数而不是 __getitem__ 函数，在网上或 Torch 文档中都没有找到任何示例。
编辑：按照 Szymon Maszke 的回答，这是我尝试过的，但是 \_\_get_item__ 每次调用都会获得一个索引，而不是大小为 batch_size 的列表

class Dataset(Dataset):

    def __init__(self):
       ...

    def __len__(self):
        ...

    def __getitem__(self, batch_idx):  ------> here I get only one index
        return self.wiki_df.loc[batch_idx]


loader = DataLoader(
                dataset=dataset,
                batch_sampler=BatchSampler(
                    SequentialSampler(dataset), batch_size=self.hparams.batch_size, drop_last=False),
                num_workers=self.hparams.num_data_workers,
            )

【问题讨论】：

标签： pytorch dataloader

【解决方案1】：

您不能使用get_batch 代替__getitem__，而且我认为这样做没有意义。

torch.utils.data.BatchSampler 从您的 Sampler() 实例（在本例中为 3）获取索引并将其作为 list 返回，因此可以在您的 MyDataset __getitem__ 方法中使用这些索引（检查 source code ，大多数采样器和与数据相关的实用程序都很容易使用，以备不时之需）。

我假设您的 self.ddf 支持列表切片（例如 self.ddf[[25, 44, 115]] 正确返回值并且只使用一个昂贵的调用）。在这种情况下，只需将 get_batch 切换为 __getitem__ 即可。

class MyDataset(Dataset):

    def __init__(self, remote_ddf, ):
        self.ddf = remote_ddf

    def __len__(self):
        return len(self.ddf)

    def __getitem__(self, batch_idx):
        return self.ddf[batch_idx] -> batch_idx is a list

编辑：您必须将batch_sampler 指定为sampler，否则批次将被分成单个索引。这应该没问题：

loader = DataLoader(
    dataset=dataset,
    # This line below!
    sampler=BatchSampler(
        SequentialSampler(dataset), batch_size=self.hparams.batch_size, drop_last=False
    ),
    num_workers=self.hparams.num_data_workers,
)

【讨论】：

听起来很有趣，但我无法从文档中理解它。数据集的 getitem 听起来像是返回一个样本，在我的例子中是一行。
torch.utils.data.Dataset 是一个相当灵活的结构（至少来自 pytorch 版本 1.4 IIRC）所以 index 可以是任何真正的 AFAIK。如果你使用batch_sampler，它负责创建整批数据。
当然，但是从文档的角度来看，整理功能（聚合）是为您隐式完成的，这意味着 get 得到 k 乘以 1，然后进行聚合。这意味着在 getitem 之后进行 no 聚合
collate_fn 允许您在从批处理返回数据后对其进行“后处理”。您可以从数据集中返回list[Tensor]，或者在使用标准采样器时返回list[Tensor]，您可以从中创建张量。很好的用例是填充可变长度张量以与 RNN 或类似方法一起使用。虽然我同意DataLoader 可能有点令人困惑。
是的哈哈哈！我现在才明白，自己来回答。谢谢！