【发布时间】:2016-09-15 23:07:23
【问题描述】:
我正在对与金融市场相关的新闻文章进行文本分析。来自这些新闻提要的示例文本
“我们必须从 CBS 方面进行更多评估,以确保 他们并没有投资于糟糕的交易,”总裁兼总裁迈克尔·库吉诺(Michael Cuggino) 旧金山永久投资组合家族的投资组合经理 拥有哥伦比亚广播公司和维亚康姆有表决权股份的基金告诉 Reuters.Salvatore Muoio,纽约 S. Muoio & Co 的负责人, 维亚康姆有表决权股份的主要所有者表示, 维亚康姆将实现最大的价值。维亚康姆可以为公司提供这样的 作为 AMC 和 Discovery 的计划和规模,以更好地协商 来自有线和卫星分销商的更高费用,Muoio Verizon、Apple 和 Discovery 的代表拒绝 评论。”
我正在使用斯坦福 CoreNLP 库进行分析。
在上面的文字中
Reuters.Salvatore
应该是
Reuters. Salvatore
由于这个错误,coreNLP 解析器会抛出句子 maxlen 警告,有时还会抛出 NullPointerException,因为它无法正确地将文本拆分为句子。
此类错误在某些文本中随机出现。 我怎样才能让 CoreNLP 处理这些文本?
【问题讨论】:
-
标点符号在您的数据中很重要吗?您可以拆分或以其他方式删除它们吗?
标签: java stanford-nlp