如何从博客评论的原始情绪数据集中为 stanford corenlp 情绪分析创建训练数据集（基于树）？

【问题标题】：How to I create tranining data set (tree based) for stanford core nlp sentiment analysis from raw sentiment dataset of blog comments?如何从博客评论的原始情绪数据集中为 stanford corenlp 情绪分析创建训练数据集（基于树）？
【发布时间】：2015-07-30 18:59:56
【问题描述】：

我有一个博客 cmets 的训练集，如何为递归深度模型创建训练数据？

喜欢样本数据

(4(4(2A)(4(3(3暖)(2,))(3搞笑)))(3(2,)(3(4(4合)(2电影))( 2 .))))

【问题讨论】：

标签： stanford-nlp sentiment-analysis

【解决方案1】：

如您所见，RNN 情感模型需要一组已解析语言的训练集，每个树节点上都标有情感数据。

您需要自己（即手动）制作这些注释，以保证解析器的质量。 the original paper 中有一些关于如何通过众包创建训练数据的详细信息。如果有足够的动力、时间和金钱，您也可以这样做。

一个较小的替代方案是首先使用标准解析器和情感模型来自动标记数据，然后手动修复解析和情感错误。如果您正在使用的文本域与用于训练模型的文本域相似，这可能是站得住脚的。由于您正在使用博客 cmets，因此很遗憾并非如此！

【讨论】：