图像中的无关信息对 CNN 的学习过程有多大影响？答案

【问题标题】：How much does irrelevant information in an image affect the learning process of CNN?图像中的无关信息对 CNN 的学习过程有多大影响？
【发布时间】：2020-04-21 01:57:14
【问题描述】：

我有一个用于在 MRI 数据上检测阿尔茨海默病的 CNN。 MRI 是 3D 1.5T 扫描，头骨非常明显（来自 ADNI1 第 3 年的预制数据集）。我一直在尝试调整头骨剥离但没有成功，因此决定在不剥离头骨的情况下运行我的模型。

结果让我很困惑。从所附图像中可以看出，该模型没有正常的学习曲线。我尝试更改模型的参数，添加更多层和退出正则化，但我要么得到这个随机学习曲线，要么得到一个恒定的（精度和损失在整个时期都不会改变），而且精度非常低并且仍然非常低（它是二进制分类）。

我想知道输入数据对模型的学习过程有多大影响。我了解到神经网络并不总是需要预处理，因为网络会减去特征本身，但这些结果让我质疑。所以我的问题是：无关数据（在我的例子中是头骨）对神经网络的学习过程有多大影响？

编辑：添加了我的模型

#hot-one labeling
Y = np.load('y_array.npy')
X = np.load('images_array.npy')
encoder = LabelEncoder()
encoder.fit(Y)
encoded_Y = encoder.transform(Y)
dummy_y = np_utils.to_categorical(encoded_Y)

#train-test split
X_train, X_test, y_train, y_test = train_test_split(X, dummy_y, test_size=0.2, random_state=1)
test_size=0.2, random_state=1)

print(X_train.shape , X_test.shape, y_train.shape, y_test.shape)
[out:] (718, 192, 192, 160) (180, 192, 192, 160) (718, 2) (180, 2)

batch_size = 64
epochs = 40
num_classes =2

AD_model = Sequential()
AD_model.add(Conv2D(64, kernel_size=(3, 3),activation='linear',input_shape=(192,192,160),padding='same'))
AD_model.add(LeakyReLU(alpha=0.1))
AD_model.add(MaxPooling2D((2, 2),padding='same'))
AD_model.add(Conv2D(128, (3, 3), activation='linear',padding='same'))
AD_model.add(LeakyReLU(alpha=0.1))
AD_model.add(MaxPooling2D(pool_size=(2, 2),padding='same'))
AD_model.add(Conv2D(256, (3, 3), activation='linear',padding='same'))
AD_model.add(LeakyReLU(alpha=0.1))                  
AD_model.add(MaxPooling2D(pool_size=(2, 2),padding='same'))
AD_model.add(Flatten())
AD_model.add(Dense(256, activation='linear'))
AD_model.add(LeakyReLU(alpha=0.1))                  
AD_model.add(Dense(num_classes, activation='sigmoid'))

AD_model.compile(loss='binary_crossentropy', optimizer='adam',metrics=['accuracy'])
AD_model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
conv2d_1 (Conv2D)            (None, 192, 192, 64)      92224     
_________________________________________________________________
leaky_re_lu_1 (LeakyReLU)    (None, 192, 192, 64)      0         
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 96, 96, 64)        0         
_________________________________________________________________
conv2d_2 (Conv2D)            (None, 96, 96, 128)       73856     
_________________________________________________________________
leaky_re_lu_2 (LeakyReLU)    (None, 96, 96, 128)       0         
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 48, 48, 128)       0         
_________________________________________________________________
conv2d_3 (Conv2D)            (None, 48, 48, 256)       295168    
_________________________________________________________________
leaky_re_lu_3 (LeakyReLU)    (None, 48, 48, 256)       0         
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 24, 24, 256)       0         
_________________________________________________________________
flatten_1 (Flatten)          (None, 147456)            0         
_________________________________________________________________
dense_1 (Dense)              (None, 256)               37748992  
_________________________________________________________________
leaky_re_lu_4 (LeakyReLU)    (None, 256)               0         
_________________________________________________________________
dense_2 (Dense)              (None, 2)                 514       
=================================================================
Total params: 38,210,754
Trainable params: 38,210,754
Non-trainable params: 0

history = AD_model.fit(
    X_train, 
    y_train, 
    batch_size=batch_size,
    epochs=epochs,
    verbose=1,
    validation_data=(X_test, y_test))

【问题讨论】：

曲线非常混乱。你想分享你的模型吗？
总是没有不相关的数据......
不相关的数据可能会影响模型。但不可能说多少。每个数据和每个模型都是不同的。现在，你真的应该为你的问题带来足够的信息。无法回答任何问题。
剥颅部分可以使用fslhttps://fsl.fmrib.ox.ac.uk/fsl/fslwiki/FslInstallation
@DanielMöller 我添加了我使用的模型。由于隐私原因，我无法举例说明我正在使用的其中一台 MRI 的外观。但类似图像的示例是第二张图像here (Sagittal 3D T1w FFE)

标签： python tensorflow keras neural-network neuroscience

【解决方案1】：

您正在对 3D 图像使用 2D 卷积。这可能是性能不足的一个重要原因。您只是丢弃了一个空间维度，使其表现得就像特征一样。

这里最明显的建议是制作一个 3D 卷积模型。

您还在两个类上使用“sigmoid”来解决看似分类的问题。

制作 3D 模型

首先，制作X 3D：

X = X.reshape((-1, 192, 192, 160, 1))

然后将您的模型制作成 3D：

AD_model = Sequential()
AD_model.add(Conv3D(64, kernel_size=3,input_shape=(192,192,160,1),padding='same'))
AD_model.add(LeakyReLU(alpha=0.1))
AD_model.add(MaxPooling3D((2, 2, 2),padding='same'))
AD_model.add(Conv3D(128, 3, activation='linear',padding='same'))
AD_model.add(LeakyReLU(alpha=0.1))
AD_model.add(MaxPooling3D((2, 2, 2),padding='same'))
AD_model.add(Conv3D(256, 3, activation='linear',padding='same'))
AD_model.add(LeakyReLU(alpha=0.1))                  
AD_model.add(MaxPooling3D((2, 2, 2),padding='same'))

#warning, maybe this gets too big and you might need to do more pooling steps 
AD_model.add(Flatten()) 

AD_model.add(Dense(256, activation='linear'))
AD_model.add(LeakyReLU(alpha=0.1))                  
AD_model.add(Dense(num_classes, activation='sigmoid'))

正确处理分类问题：

如果您有y_train.shape == (batch, 2)，一个维度表示健康，另一个表示阿尔茨海默病，那么您需要activation='softmax' 和loss = 'categorical_crossentropy'。
如果你有y_train.shape == (batch, 1)，值0 是一个条件，1 是另一个条件，那么你需要activation='sigmoid' 和loss = 'binary_crossentropy'。

（测试这个）为 ReLU 使用更好的内核初始化器

在使用 ReLU 的层上测试 kernel_initializer='he_uniform' 可能会很有趣。这可能有助于加速和收敛。（不知道它是否适用于“泄漏”relu，但可能值得尝试）

【讨论】：

感谢您的回答！我调整了您的建议，模型仍在运行（已完成一半），但准确率似乎没有超过 50%，甚至在下降。所以看起来它的行为与以前相似。
那么可能还有其他我们无法在您的代码中检测到的东西。也许您的数据缩放不正确，也许您的数据对于这个模型来说太难了，也许其他地方存在错误。