使用 CoreNLP 将文本拆分为句子时出错答案

【问题标题】：getting error while splitting text into sentences using CoreNLP使用 CoreNLP 将文本拆分为句子时出错
【发布时间】：2016-09-15 23:07:23
【问题描述】：

我正在对与金融市场相关的新闻文章进行文本分析。来自这些新闻提要的示例文本

“我们必须从 CBS 方面进行更多评估，以确保他们并没有投资于糟糕的交易，”总裁兼总裁迈克尔·库吉诺（Michael Cuggino）旧金山永久投资组合家族的投资组合经理拥有哥伦比亚广播公司和维亚康姆有表决权股份的基金告诉 Reuters.Salvatore Muoio，纽约 S. Muoio & Co 的负责人，维亚康姆有表决权股份的主要所有者表示，维亚康姆将实现最大的价值。维亚康姆可以为公司提供这样的作为 AMC 和 Discovery 的计划和规模，以更好地协商来自有线和卫星分销商的更高费用，Muoio Verizon、Apple 和 Discovery 的代表拒绝评论。”

我正在使用斯坦福 CoreNLP 库进行分析。

在上面的文字中

Reuters.Salvatore

应该是

Reuters. Salvatore

由于这个错误，coreNLP 解析器会抛出句子 maxlen 警告，有时还会抛出 NullPointerException，因为它无法正确地将文本拆分为句子。

此类错误在某些文本中随机出现。我怎样才能让 CoreNLP 处理这些文本？

【问题讨论】：

标点符号在您的数据中很重要吗？您可以拆分或以其他方式删除它们吗？

标签： java stanford-nlp

【解决方案1】：

如果您的用例可以接受跳过太长的句子（这样至少可以继续处理其余数据），也许这就是您需要的：Setting max Length for Sentence in StanfordCoreNLP

【讨论】：

不，我不能跳过句子。使用 corenlp 将文本拆分成句子后，我使用正则表达式再次拆分句子。虽然不是完美的解决方案，但已经充分降低了错误率。