标记问题：介绍

作者：chen_h
微信号 & QQ：862251340
微信公众号：coderpai

该系列将描述一些自然语言处理方面的技术，完整目录请点击这里。

在很多的 NLP 问题中，我们想对两个序列进行建模，词性标注（POS）问题可能是最早也是最有名的一个案例。在词性标注中，我们的目标是建立一个模型，它的输入是一个句子序列，比如：

标记问题：介绍

模型的输出也是一个标签系列，比如：

标记问题：介绍

（其中，D 表示定语，N 表示名词，V 表示动词）。标签序列的长度和输入序列的长度是一样的，也就是说每个词都会得到一个标签。（在本例子中，D 是 the 的标签，N 是 dog 的标签，V 是 saw 的标签，等等以此类推。）

我们使用 x1 … xn 序列来表示标记模型的输入：我们将这个称之为一个句子。比如上面的例子，我们的长度为 n = 5，其中 x1 = the，x2 = dog，x3 = saw，x4 = the，x5 = cat。我们将使用 y1，….，yn 表示标记模型的输出：我们将这个序列称为标签序列或者状态序列。在上面的例子中，我们有 y1 = D，y2 = N，y3 = V，等等。

这种类型的问题，其中的关键问题就是一个句子序列 x1，….，xn 映射到标签序列 y1，….，yn 。一般，我们将这个问题称为序列标注问题。

标记问题：介绍

我们假设，我们有一个训练集：

标记问题：介绍

其中，x^(i) 表示一个句子序列，y^(i) 表示一个标记序列，即：

标记问题：介绍

我们的任务就是在训练集上面学习出一个映射模型，从输入序列映射到标记序列。