方面提取的监督学习方法答案

【问题标题】：Supervised Learning Approach for Aspect Extraction方面提取的监督学习方法
【发布时间】：2016-06-06 17:40:27
【问题描述】：

我正在为旅游领域的在线旅游评论开发一个方面级别的情感分析项目。

我有一个人工注释的数据集，其中包含标记的方面术语和方面类别以及它们的情感极性。

例如；

Sentence:

This beach was a wonderful time for a day party  it had a fun crowd and has a big bar with a great atmosphere. The food was delicious too.

以上句子有以下方面术语标注；

{party#positive C} {crowd#positive C} {bar#positive C} {food#positive C}

以及以下方面类别；

{entertainment#positive C} {accommodation#positive C}

我想尝试使用supervised learning 方法来训练模型以从句子中分类方面术语。

我正在使用Stanford CORENLP 库。但是对训练数据格式应该如何感到困惑？以及最好的方法是什么。

我见过有人使用IOB notation 格式化训练数据来训练NER 系统。我可以使用类似的方法来完成这项工作吗？如，如何格式化我的训练数据文件以从输入句子中获取上述方面术语？

如果有人能指出我正确的方向，我将不胜感激。

【问题讨论】：

【解决方案1】：

可以通过将其分解为更小的子任务来解决此问题。一种可能的管道方法可能是：

第一阶段是方面术语提取，它将识别原始文本中的方面术语。这也可以分解为两个子任务。首先，您的系统需要在作为方面术语的文本中标记标记。让我们将这些标记的标记称为方面术语提及。这称为命名实体识别 (NER)。接下来，如果您有一组预定义的方面术语类，系统将需要将在上一个任务中找到的方面术语提及链接到这些类。这称为实体链接。值得注意的是，从您提供的带标签数据集的示例中，由于标签未锚定在文本中，因此尚不适合上述任务。您可以通过猜测给定标签对应于文本中的哪些标记来创建合适的数据集。这类似于远程监督的工作。
下一个任务是方面词情感分类。 卷积神经网络已用于句子和文档情感分类，但如果在输入时提供要分类标记的标记，它们可能会根据您的目的进行调整。这在本作品中称为位置嵌入：http://www.cs.nyu.edu/~thien/pubs/vector15.pdf

【讨论】：

感谢您的回复。您能否详细说明为什么数据集不适合当前格式？应该采用哪种格式？
为了训练 NER 模型，您需要一个数据集，其中包含以文本标记的实体。 IOB 表示法是一种方法。要创建这样的数据集，您可以尝试通过字符串匹配将标签中的单词与文本对齐。我不确定这将如何运作。这真的取决于你的标签是什么。它们是类还是从文本中提取的单词？如果是后者，那么您几乎总能找到它们是否在文本中。
感谢您澄清@Sava。实际上，方面术语是人类注释者从原始文本中提取的单词。通过利用您建议的字符串匹配机制，我想可以做到。除了IOB表示法，还有其他的表示法吗？
this 论文的第 13 页上有一些信息，如果您从 NLP 开始，这也是一篇不错的论文。