【发布时间】:2020-12-26 15:43:13
【问题描述】:
为什么在联邦学习任务中,我们不将数据集拆分为训练、测试和验证,我们只进行训练和测试。
【问题讨论】:
为什么在联邦学习任务中,我们不将数据集拆分为训练、测试和验证,我们只进行训练和测试。
【问题讨论】:
如何拆分数据集的选择实际上取决于评估者以及他们想要完成的任务。 TFF 中的预处理数据集(来自tff.simulation.datasets)通常只分成两部分,但可以以任何需要的方式重新加入和分割。
需要考虑的一件事:(至少)有两个维度可能对联邦学习感兴趣。
此外,这两者都可以是基于时间的(如果有时间的概念),例如将每个客户数据集分成“前一天”(火车)和“第二天”(测试)。或者,正如跨设备 FL 实践中经常出现的情况一样,按一天中的时间划分(晚上可用于训练的用户可能与中午不同),Eichner 2019 使用此设置进行了一些实验。
注意:tff.simulation.datasets.stackoverflow.load_data 确实有三个拆分,分别名为 train、held_out 和 test。请仔细阅读文档,因为它使用了上述两种拆分类型。
【讨论】: