序列推理的深度学习答案

【问题标题】：Deep learning for inferences in sequences序列推理的深度学习
【发布时间】：2017-05-09 21:25:33
【问题描述】：

我想使用深度学习技术来执行比隐马尔可夫模型（这是一个浅层模型）更好的推理任务？我想知道替代隐马尔可夫模型（HMM）的最先进的深度学习模型是什么？设置是半监督的。训练数据 X(t),Y(t) 是一个时间序列，具有显着的时间相关性。此外，还有大量未标记的数据，即只有 X(t) 而没有 Y(t)。在阅读了许多论文之后，我缩小了以下模型的范围 -> Conditionally Restricted Boltzmann Machines（Ilya Sustkever MS 论文）并使用 Deep Belief Networks 进行无监督预训练（或使用变分自动编码器进行预训练）。我对这个领域很陌生，想知道这些技术是否过时了。

【问题讨论】：

这个更高级别的问题属于Cross Validated； SO 更适用于特定的编程问题。
我还认为这是两个或三个问题合二为一。 @rahuls88，如果您想增加有人回答您的问题的机会，请将问题分成单独的帖子。希望对您有所帮助。

标签： machine-learning artificial-intelligence deep-learning hidden-markov-models unsupervised-learning

【解决方案1】：

“我想知道替代隐马尔可夫模型 (HMM) 的最先进的深度学习模型是什么”

目前，基于 RNN（循环神经网络）和 LSTM（长短期记忆）的 DNN 是最先进的。它们最适合从命名实体识别 (https://www.quora.com/What-is-the-current-state-of-the-art-in-Named-Entity-Recognition-NER/answer/Rahul-Vadaga)、解析 (https://arxiv.org/pdf/1701.00874.pdf) 到机器翻译 (https://arxiv.org/pdf/1609.08144.pdf) 的许多排序问题。这些 DNN 也称为序列模型（例如 seq2seq，其中输入和输出都是类似机器翻译的序列）

“无监督预训练”

预训练不再那么流行（对于有监督的 ML 问题），因为您可以使用并行化的随机重启来获得与现在拥有更多（且更便宜）的 CPU 相同的结果。

[稍后添加以下内容]

最近的一篇论文（Optimal Hyperparameters for Deep LSTM-Networks for Sequence Labeling Tasks Nils Reimers 和 Iryna Gurevych）对常见 NLP 任务的各种 seq2seq 进行了很好的比较：https://arxiv.org/pdf/1707.06799.pdf

绝对值得一读。

【讨论】：

@Abhimanu..great...我打算尝试预训练，但现在我将尝试随机重启
@Abhimanu....对于序列到序列机器模型有什么好的参考？我读过 Alex Graves 的论文，这似乎是很好的介绍。但它写于 2007 年，似乎很老了。
从实现 seq2seq 的代码库开始。我想说 Tensorflow 是一个很好的开始代码库：tensorflow.org/tutorials/seq2seq。并阅读相关论文（谷歌机器翻译论文是一个好的开始）。
非常感谢您的参考。这应该是一个很好的起点。然而，另一个问题是没有监督数据，即“隐藏序列 X(t)”从未被揭示。序列到序列模型（或大多数深度学习算法）使用某种形式的梯度下降，以最小化“损失”。由于只有算法可以访问标签（在本例中为 X(t)）才能生成损失，我想我可能不得不求助于 HMM（鲍姆韦尔奇算法）来生成标签，然后训练 LSTM。这是个好主意吗？
使用 DNN 的无监督序列学习是一个活跃的研究领域，与有监督的案例不同，没有大的突破。从这里开始ftp.idsia.ch/pub/juergen/icann2001unsup.pdf（Schmidhuber 的小组首先提出了现在流行的 LSTM）。对于半监督，您可以从基于 LSTM/RNN/GRU 的 DNN 中的任何标记数据开始，预测下一组未标记的示例并将它们循环到下一批的训练集中。反复执行此操作。