深度学习中的多任务学习-multi-learning总结

深度学习中两种多任务学习模式：隐层参数的硬共享与软共享。

共享 Hard 参数是神经网络 MTL 最常用的方法，可以追溯到 [2]。在实际应用中，通常通过在所有任务之间共享隐藏层，同时保留几个特定任务的输出层来实现。

共享 Hard 参数大大降低了过拟合的风险。实际上，[3] 表明过拟合共享参数的风险为 O(N)——其中 N 是任务数——小于过拟合特定任务参数，即输出层。这很直观：我们同时学习的工作越多，我们的模型找到一个含有所有任务的表征就越困难，而过拟合我们原始任务的可能性就越小。

另一方面，在共享 Soft 参数时，每个任务都有自己的参数和模型。模型参数之间的距离是正则化的，以便鼓励参数相似化。例如使用 L2 距离进行正则化 [4]，而 [5] 使用迹范数（trace norm）。

约束深度神经网络 Soft 参数共享的思想受到了 MTL 正则化技术的极大启发，这种思想已经用于其它模型开发，我们将在下面讨论。

Ref：