多类 CNN 的宏观指标（召回/F1...）答案

【问题标题】：Macro metrics (recall/F1...) for multiclass CNN多类 CNN 的宏观指标（召回/F1...）
【发布时间】：2019-10-09 04:32:59
【问题描述】：

我使用 CNN 对不平衡数据集进行图像分类。我对 tensorflow 后端完全陌生。这是多类问题（不是多标签），我有 16 个类。类是一种热编码。

我想计算每个时期的 MACRO 指标：F1、精度和召回率。

我找到了打印这些宏指标的代码，但它仅适用于验证集来自：https://medium.com/@thongonary/how-to-compute-f1-score-for-each-epoch-in-keras-a1acd17715a2

class Metrics(Callback):

 def on_train_begin(self, logs={}):
  self.val_f1s = []
  self.val_recalls = []
  self.val_precisions = []

 def on_epoch_end(self, epoch, logs={}):
  val_predict = (np.asarray(self.model.predict(self.validation_data[0]))).round()
  val_targ = self.validation_data[1]
  _val_f1 = f1_score(val_targ, val_predict,average='macro')
  _val_recall = recall_score(val_targ, val_predict,average='macro')
  _val_precision = precision_score(val_targ, val_predict,average='macro')
  self.val_f1s.append(_val_f1)
  self.val_recalls.append(_val_recall)
  self.val_precisions.append(_val_precision)
  print (" — val_f1: %f — val_precision: %f — val_recall %f" % (_val_f1, _val_precision, _val_recall))
  return

metrics = Metrics()

我什至不确定这段代码是否真的有效，因为我们使用了

 val_predict = (np.asarray(self.model.predict(self.validation_data[0]))).round()

在多类分类的情况下，ROUND 会导致错误吗？

我使用此代码在训练集上打印指标（仅回忆起对我来说很重要的指标）（也计算验证集，因为它在 model.compute 中使用）代码改编自：Custom macro for recall in keras



def recall(y_true,y_pred):
     true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
     possible_positives = K.sum(K.round(K.clip(y_true, 0, 1)))
     return  true_positives / (possible_positives + K.epsilon())

def unweightedRecall(y_true, y_pred):
    return (recall(y_true[:,0],y_pred[:,0]) + recall(y_true[:,1],y_pred[:,1])+recall(y_true[:,2],y_pred[:,2]) + recall(y_true[:,3],y_pred[:,3])
            +recall(y_true[:,4],y_pred[:,4]) + recall(y_true[:,5],y_pred[:,5])
            +recall(y_true[:,6],y_pred[:,6]) + recall(y_true[:,7],y_pred[:,7])
            +recall(y_true[:,8],y_pred[:,8]) + recall(y_true[:,9],y_pred[:,9])
            +recall(y_true[:,10],y_pred[:,10]) + recall(y_true[:,11],y_pred[:,11])
            +recall(y_true[:,12],y_pred[:,12]) + recall(y_true[:,13],y_pred[:,13])
            +recall(y_true[:,14],y_pred[:,14]) + recall(y_true[:,15],y_pred[:,15]))/16.

我运行我的模型

model.compile(optimizer="adam", loss="categorical_crossentropy",metrics=[unweightedRecall,"accuracy"])   #model compilation with unweightedRecall metrics

train =model.fit_generator(image_gen.flow(train_X, train_label, batch_size=64),epochs=100,verbose=1,validation_data=(valid_X, valid_label),class_weight=class_weights,callbacks=[metrics],steps_per_epoch=len(train_X)/64)  #run the model

VALIDATION 宏调用不同于 2 个不同的代码。

即（查看 val_unweightedRecall 和 val_recall）

Epoch 10/100
19/18 [===============================] - 13s 703ms/step - loss: 1.5167 - unweightedRecall: 0.1269 - acc: 0.5295 - val_loss: 1.5339 - val_unweightedRecall: 0.1272 - val_acc: 0.5519
 — val_f1: 0.168833 — val_precision: 0.197502 — val_recall 0.15636

为什么使用两个不同的代码对我的宏验证召回有不同的价值？

额外问题：对于已经尝试过这个的人，是否真的值得使用基于我们感兴趣的指标（例如召回）的自定义损失或带有权重的分类交叉熵产生相同的结果？

【问题讨论】：

标签： python tensorflow machine-learning keras

【解决方案1】：

让我回答这两个问题，但顺序相反：

您不能使用 Recall 作为自定义损失的基础：它不是凸的！如果你不完全理解为什么 Recall 或 precision 或 f1 不能用作 loss，请花点时间看看 loss 的作用（毕竟它是你模型中的一个巨大参数）。

确实，这一轮是针对二元问题的。正如他们所说，如果不是你，那就是另一个。但在你的情况下这是错误的。我们去扔代码吧：

val_predict = (np.asarray(self.model.predict(self.validation_data[0]))).round()

从内到外，他获取数据（self.validation_data[0;]）并预测一个数字（1 个神经元作为输出）。因此，他计算成为 1 的概率。如果该概率超过 0.5，则该轮将其转换为 1，如果低于，则将其转换为 0。如您所见，这对您来说是错误的。在某些情况下，您不会预测任何课程。在这个错误之后，其余的也是错误的。

现在，解决方案。您想计算每一步的平均召回率。顺便说一句，“但它只适用于验证集”。是的，这是有意的，您使用验证来验证模型，而不是火车，否则就是作弊。

所以召回率等于所有正数的真正数。让我们这样做吧！

def recall(y_true, y_pred):
     recall = 0
     pred = K.argmax(y_pred)
     true = K.argmax(y_true)
     for i in range(16):
         p = K.cast(K.equal(pred,i),'int32')
         t = K.cast(K.equal(true,i),'int32')
         # Compute the true positive
         common = K.sum(K.dot(K.reshape(t,(1,-1)),K.reshape(p,(-1,1))))
         # divide by all positives in t
         recall += common/ (K.sum(t) + K.epsilon)
     return recall/16

这为您提供了所有课程的平均召回率。你可以打印每个类的值。

如果您有任何问题，请告诉我！

有关二进制 Recall 的实现，请参阅代码改编自 this question。

【讨论】：

谢谢！可能是我错了，但看起来您正在计算 precision （真阳性/预测阳性）而不是召回。我是对的还是我只是不明白你做了什么？你是对的，我真的不想获得训练集的那些指标，但我希望能够在我计算模型时计算这些指标以使用它节省最佳重量..第一个代码是不可能的；但这可以通过您的代码实现
我确实使用召回。回忆是衡量你在所有积极方面获得了多少真正的积极因素。精确度是您预测的正例数中有多少真正的正例。 i sum t 这是“真正的”正数（求和 p 将给出精度）
你知道如何制作一个跟随F1微分的函数吗？
计算召回和预测（将 K.sum(t) 替换为 K.sum(p)），然后使用 f beta 的公式将这两者结合起来。但我不确定您是否需要计算平均召回率和精度的 F1 或 F1 的平均值
好吧，召回变量可以是一个列表，您可以将 += 替换为 .append()。这样，您将检索所有召回。