斯坦福 POS-tagger 的数据格式

【问题标题】：Data format for Stanford POS-tagger斯坦福 POS-tagger 的数据格式
【发布时间】：2015-03-11 14:59:07
【问题描述】：

我正在根据自己的数据重新训练斯坦福 POS 标记器。我已经以以下每行一个标记的格式在相同的数据上训练了另外两个标记器：

word1_TAG
word2_TAG
word3_TAG
word4_TAG
.

这种格式对于斯坦福标注器是否合适，还是需要每行一个句子？

word1_TAG word2_TAG word3_TAG word4_TAG .

使用第一种格式进行训练和测试会影响斯坦福标记结果吗？

【问题讨论】：

【解决方案1】：

你应该每行一个句子（你的第二个例子）。

使用第一种格式肯定会影响标注结果：您将有效地构建一元标注器，其中所有标注都在完全没有任何句子上下文的情况下完成。

【讨论】：