【问题标题】:getting error while splitting text into sentences using CoreNLP使用 CoreNLP 将文本拆分为句子时出错
【发布时间】:2016-09-15 23:07:23
【问题描述】:

我正在对与金融市场相关的新闻文章进行文本分析。来自这些新闻提要的示例文本

“我们必须从 CBS 方面进行更多评估,以确保 他们并没有投资于糟糕的交易,”总裁兼总裁迈克尔·库吉诺(Michael Cuggino) 旧金山永久投资组合家族的投资组合经理 拥有哥伦比亚广播公司和维亚康姆有表决权股份的基金告诉 Reuters.Salvatore Muoio,纽约 S. Muoio & Co 的负责人, 维亚康姆有表决权股份的主要所有者表示, 维亚康姆将实现最大的价值。维亚康姆可以为公司提供这样的 作为 AMC 和 Discovery 的计划和规模,以更好地协商 来自有线和卫星分销商的更高费用,Muoio Verizon、Apple 和 Discovery 的代表拒绝 评论。”

我正在使用斯坦福 CoreNLP 库进行分析。

在上面的文字中

Reuters.Salvatore

应该是

Reuters. Salvatore

由于这个错误,coreNLP 解析器会抛出句子 maxlen 警告,有时还会抛出 NullPointerException,因为它无法正确地将文本拆分为句子。

此类错误在某些文本中随机出现。 我怎样才能让 CoreNLP 处理这些文本?

【问题讨论】:

  • 标点符号在您的数据中很重要吗?您可以拆分或以其他方式删除它们吗?

标签: java stanford-nlp


【解决方案1】:

如果您的用例可以接受跳过太长的句子(这样至少可以继续处理其余数据),也许这就是您需要的:Setting max Length for Sentence in StanfordCoreNLP

【讨论】:

  • 不,我不能跳过句子。使用 corenlp 将文本拆分成句子后,我使用正则表达式再次拆分句子。虽然不是完美的解决方案,但已经充分降低了错误率。
猜你喜欢
  • 2013-04-28
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-02-11
  • 1970-01-01
  • 1970-01-01
  • 2016-08-04
相关资源
最近更新 更多