如何在情感分析中省略标记化和拆分注释器答案

【问题标题】：How to omit tokenize and ssplit annotators for Sentiment Analysis如何在情感分析中省略标记化和拆分注释器
【发布时间】：2016-05-12 21:14:19
【问题描述】：

对于文本的情感分析任务，我使用以下注释器来创建管道：

注释器 = 标记化、分割、解析、情感

阅读有关注释器的文档后，我意识到 tokenize 和 ssplit 将整个文本分解成单独的句子，以供进一步解析。我目前正在研究的问题是推文的情绪分析。由于大部分时间推文不超过一行，因此在解析之前使用标记化和分割注释器似乎有点过分了。

我试图排除前两个，但它不允许我在线程“main”java.lang.IllegalArgumentException 中发出消息异常：注释器“解析”需要注释器“标记化”

有什么方法可以避免使用 tokenize 和 ssplit 注释器来提高效率？

【问题讨论】：

【解决方案1】：

是的，如果你的文本已经被标记，并且你有一个每行一个句子的文件，你可以告诉标记器只在空格处分割标记，而句子分割器只在换行符处分割句子。

分词器的选项是-tokenize.whitespace true，句子分割器的选项是-ssplit.eolonly true。

您可以在CoreNLP documentation 中找到有关tokenizer 和sentence splitter 选项的更多信息。

【讨论】：