【发布时间】:2012-01-18 06:41:55
【问题描述】:
我正在尝试从大量文本中解析出句子。我使用 Java 开始使用 OpenNLP 和斯坦福的 Parser 等 NLP 工具。
但这是我卡住的地方。尽管这两个解析器都非常出色,但它们在处理非统一文本时却失败了。
例如,在我的文本中,大多数句子都由句点分隔,但在某些情况下(例如项目符号)却不是。在这里,两个解析都失败了。
我什至尝试在 stanford parses 中为多个句子终止符设置选项,但输出并没有好多少!
有什么想法吗??
编辑:为了更简单,我希望解析分隔符为换行符(“\n”)或句点(“.”)的文本...
【问题讨论】:
-
您的文本是用 HTML 编码的吗?然后,您可以使用 HTML 结构查找项目符号列表等内容,并使用标准工具解析文本。
-
@larsmans 不是 html,只是纯文本!!!
标签: java nlp opennlp text-segmentation