【发布时间】:2021-08-21 22:45:38
【问题描述】:
我尝试训练一个模型来通过图像预测多个标签。输出是一个包含五个二进制值的列表,例如 [0,0,0,1,1]
我使用 sigmoid 密集层来获取输出,这是我的代码:
inp = tf.keras.layers.Input(shape = (*IMAGE_SIZE, 3), name = 'inp')
x = tfka.ResNet50(weights = 'imagenet', include_top = False)(inp)
x = tf.keras.layers.GlobalAveragePooling2D()(x)
output = tf.keras.layers.Dense(label_dim, activation='sigmoid')(x)
model = tf.keras.models.Model(inputs = [inp], outputs = [output])
现在,我的问题是我的数据集不平衡。并且很难使其平衡,因为每一行都有五个标签。所以,我尝试为每个标签设置不同的类权重,但我不知道该怎么做。
我试试
class_weight = {'label-1': 1:2, 'label-2': 1:5, 'label-3': 1:1, 'label-4': 2:1, 'label-5': 1:10}
但它不起作用。
我的目标是为所有类别和标签分配不同的权重。像这样
在第一个标签中,0类的权重为0.5,1的权重为1
在第二个标签中,0类的权重为0.1,1的权重为1
...
更新:
我认为我应该将我的模型分成五个小模型,因为我想要的是最小化每个标签而不是标签列表的损失。所以将其转换为几个单一的二元分类模型是更好的选择。
【问题讨论】:
-
在 Python 中,
m:n不是一个比率。尝试使用浮点数作为权重,例如 1:2 变为 0.5、1:5 变为 0.2、2:1 变为 2.0,等等。 -
如果你查看 tensorflow 文档 (tensorflow.org/api_docs/python/tf/keras/Model#fit),你可以看到 .fit() 可以带一个 class_weight 参数。
-
但是,.fit() 权重是针对类而不是针对标签的。如果我只有一个包含 3 个类的标签,它的工作方式类似于 {'A':0.5, 'B':1, 'C':2}。但现在我有 5 个标签,每个标签都有两个类。所以。太复杂了。
标签: python tensorflow deep-learning classification