【发布时间】:2018-02-26 16:35:57
【问题描述】:
我一直在构建一个编程语言检测器,即代码 sn-ps 的分类器,作为一个更大项目的一部分。 我的基线模型非常简单:将输入标记化并将 sn-ps 编码为 bag-of-words 或者, 在这种情况下,bag-of-tokens,并在这些特征之上创建一个简单的 NN。
NN 的输入是一个固定长度的最独特标记的计数器数组,例如"def",
"self"、"function"、"->"、"const"、"#include"等,从语料库中自动提取。
这个想法是这些标记对于编程语言来说是非常独特的,所以即使是这种天真的方法也应该得到
准确率高。
Input:
def 1
for 2
in 2
True 1
): 3
,: 1
...
Output: python
设置
我很快就达到了 99% 的准确率,并认为这是它按预期工作的标志。这是模型 (完整的可运行脚本是here):
# Placeholders
x = tf.placeholder(shape=[None, vocab_size], dtype=tf.float32, name='x')
y = tf.placeholder(shape=[None], dtype=tf.int32, name='y')
training = tf.placeholder_with_default(False, shape=[], name='training')
# One hidden layer with dropout
reg = tf.contrib.layers.l2_regularizer(0.01)
hidden1 = tf.layers.dense(x, units=96, kernel_regularizer=reg,
activation=tf.nn.elu, name='hidden1')
dropout1 = tf.layers.dropout(hidden1, rate=0.2, training=training, name='dropout1')
# Output layer
logits = tf.layers.dense(dropout1, units=classes, kernel_regularizer=reg,
activation=tf.nn.relu, name='logits')
# Cross-entropy loss
loss = tf.reduce_mean(
tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, abels=y))
# Misc reports: accuracy, correct/misclassified samples, etc.
correct_predicted = tf.nn.in_top_k(logits, y, 1, name='in-top-k')
prediction = tf.argmax(logits, axis=1)
wrong_predicted = tf.logical_not(correct_predicted, name='not-in-top-k')
x_misclassified = tf.boolean_mask(x, wrong_predicted, name='misclassified')
accuracy = tf.reduce_mean(tf.cast(correct_predicted, tf.float32), name='accuracy')
输出非常令人鼓舞:
iteration=5 loss=2.580 train-acc=0.34277
iteration=10 loss=2.029 train-acc=0.69434
iteration=15 loss=2.054 train-acc=0.92383
iteration=20 loss=1.934 train-acc=0.98926
iteration=25 loss=1.942 train-acc=0.99609
Files.VAL mean accuracy = 0.99121 <-- After just 1 epoch!
iteration=30 loss=1.943 train-acc=0.99414
iteration=35 loss=1.947 train-acc=0.99512
iteration=40 loss=1.946 train-acc=0.99707
iteration=45 loss=1.946 train-acc=0.99609
iteration=50 loss=1.944 train-acc=0.99902
iteration=55 loss=1.946 train-acc=0.99902
Files.VAL mean accuracy = 0.99414
测试准确度也在 1.0 左右。一切看起来都很完美。
神秘的ReLu
但后来我注意到我将activation=tf.nn.relu 放入最后的密集层(logits),这显然是一个错误:
softmax之前没有必要丢弃负分,因为它们表示概率低的类。
零阈值只会人为地使这些类更有可能,这将是一个错误。摆脱它只会使模型更健壮,对正确的类更有信心。
我就是这么想的。
于是我把它换成了activation=None,再次运行模型,然后令人惊讶的事情发生了:
性能没有改善。完全没有。事实上,它显着下降:
iteration=5 loss=5.236 train-acc=0.16602
iteration=10 loss=4.068 train-acc=0.18750
iteration=15 loss=3.110 train-acc=0.37402
iteration=20 loss=5.149 train-acc=0.14844
iteration=25 loss=2.880 train-acc=0.18262
Files.VAL mean accuracy = 0.28711
iteration=30 loss=3.136 train-acc=0.25781
iteration=35 loss=2.916 train-acc=0.22852
iteration=40 loss=2.156 train-acc=0.39062
iteration=45 loss=1.777 train-acc=0.45312
iteration=50 loss=2.726 train-acc=0.33105
Files.VAL mean accuracy = 0.29362
准确率随着训练而提高,但从未超过 91-92%。我来回更改激活数次, 改变不同的参数(层大小、dropout、正则化器、额外层、任何东西)并且总是有相同的结果: “错误”模型立即达到 99%,而“正确”模型在 50 个 epoch 后勉强达到 90%。根据 tensorboard,权重分布没有太大差异:梯度没有消失,两个模型都学会了 正常。
这怎么可能?最终的 ReLu 是如何让模型变得如此优越的?特别是如果这个 ReLu 是一个错误?
【问题讨论】:
标签: python tensorflow machine-learning neural-network deep-learning