为什么 model.fit() 使用 categorical_crossentropy 损失函数在 tf.train.AdamOptimizer 中引发 ValueError？答案

【问题标题】：Why does model.fit() raise ValueError with tf.train.AdamOptimizer using categorical_crossentropy loss function?为什么 model.fit() 使用 categorical_crossentropy 损失函数在 tf.train.AdamOptimizer 中引发 ValueError？
【发布时间】：2019-04-15 22:25:37
【问题描述】：

我正在使用“入门”文档中提供的 Keras API 关注 TensorFlow basic classification example。我按原样完成了教程，但如果我将损失函数从 sparse_categorical_crossentropy 更改为 categorical_crossentropy，代码如下：

model = keras.Sequential([
    keras.layers.Flatten(input_shape=(28, 28)),
    keras.layers.Dense(128, activation=tf.nn.relu),
    keras.layers.Dense(10, activation=tf.nn.softmax)
])

model.compile(optimizer=tf.train.AdamOptimizer(), 
          loss='categorical_crossentropy',
          metrics=['accuracy'])

model.fit(train_images, train_labels, epochs=5)

在训练/拟合步骤中失败并出现以下错误：

ValueError: Error when checking target: expected dense_1 to have shape (10,) but got array with shape (1,)

关于损失函数的文档并没有深入研究预期的输入和输出。显然这里存在维度问题，但是如果有专家可以给出详细的解释，这个损失函数或任何其他损失函数是什么引起了这个ValueError？

【问题讨论】：

标签： python tensorflow machine-learning keras neural-network

【解决方案1】：

sparse_categorical_crossentropy loss 期望提供的标签是整数，如 0、1、2 等，其中每个整数表示一个特定的类。例如，第 0 类可能是狗，第 1 类可能是猫，第 2 类可能是狮子。另一方面，categorical_crossentropy 损失采用 one-hot encoded 标签，例如 [1,0,0]、[0,1,0]、[0,0,1]，它们被解释为索引 1 表示样本。例如[0,0,1] 表示该样本属于第 2 类（即狮子）。此外，在分类模型的上下文中，由于输出通常是softmax层的输出产生的概率分布，这种形式的标签也对应一个概率分布，并与模型的输出相匹配。同样，[0,0,1] 表示我们知道该样本属于第二类的概率为 1。

sparse_categorical_crossentropy 几乎是一种使用categorical_crossentropy 作为损失函数的便捷方式，Keras（或其后端）将在内部处理整数标签，您无需手动将标签转换为一次性编码形式。但是，如果您提供的标签是 one-hot 编码的，那么您必须使用 categorical_crossentropy 作为损失函数。

您也可能有兴趣查看this answer，我在其中简要解释了激活和损失函数以及在不同类型分类任务的上下文中使用的标签格式。

【讨论】：