【发布时间】:2020-05-05 14:49:51
【问题描述】:
鉴于我有一个深度学习模型(前同事交接)。由于某种原因,train/dev 集丢失了。
在我的情况下,我想将我的数据集分为 100 个类别。数据集极度不平衡。数据集大小约千万
首先,我运行模型并获得对整个数据集的预测。
然后,我对每个类别抽取 100 条记录(根据预测),得到一个 10,000 个测试集。
接下来,我为测试集标记每条记录的ground truth,并计算每个类别的precision、recall、f1,得到F1-micro和F1-macro。
如何估计整个数据集的准确性或其他指标?我用每个类别的精度的加权和(权重是预测在整体上的比例)来估计是否正确?
由于预测类别的分布与真实类别的分布不同,我猜加权方法不起作用。任何人都可以解释一下吗?
【问题讨论】:
标签: machine-learning metrics sampling evaluation multiclass-classification