【发布时间】:2016-06-06 17:40:27
【问题描述】:
我正在为旅游领域的在线旅游评论开发一个方面级别的情感分析项目。
我有一个人工注释的数据集,其中包含标记的方面术语和方面类别以及它们的情感极性。
例如;
Sentence:
This beach was a wonderful time for a day party it had a fun crowd and has a big bar with a great atmosphere. The food was delicious too.
以上句子有以下方面术语标注;
{party#positive C} {crowd#positive C} {bar#positive C} {food#positive C}
以及以下方面类别;
{entertainment#positive C} {accommodation#positive C}
我想尝试使用supervised learning 方法来训练模型以从句子中分类方面术语。
我正在使用Stanford CORENLP 库。但是对训练数据格式应该如何感到困惑?以及最好的方法是什么。
我见过有人使用IOB notation 格式化训练数据来训练NER 系统。我可以使用类似的方法来完成这项工作吗?如,如何格式化我的训练数据文件以从输入句子中获取上述方面术语?
如果有人能指出我正确的方向,我将不胜感激。
【问题讨论】:
标签: machine-learning dataset nlp stanford-nlp sentiment-analysis