【发布时间】:2015-09-23 07:42:41
【问题描述】:
我正在使用 Apache OpenNLP 对 Yammer 对话进行情绪分析。这里的想法是将每个对话分为积极、消极或中性情绪。对话可以是单个句子或一组句子。
我有 2 个模型 - 一个短句分类模型和一个长句分类模型。短句分类模型用较短的句子(少于 10 个词)训练,截断为 2,长句分类模型用较长的句子训练,截断为 5。
这是我的方法
- 阅读每个对话。
- 清除它以删除 HTTP URL、特殊字符、在点后添加空格等。
- 使用 SentenceDetector 将对话拆分成句子。
- 对于每个句子调用分类。如果句子很短,则调用短句分类模型,否则调用长句分类模型。句子分类的输出是肯定的、否定的或中性的
- 总结句子分类的结果。即,如果发现更多积极的句子,则相应地将对话分类为积极的,否则为消极的或中性的。
我有几个与此方法相关的问题
- 我需要两个模型,一个短句模型和一个长句模型。我决定这样做的原因是因为较短句子和较长句子的截断是不同的。
- 是否可以按照一个基于句子的分类模型,然后将每个句子的结果相加得到对话的结果。
- 是否有解决此问题的标准/更好的方法
【问题讨论】:
标签: text-mining sentiment-analysis opennlp