【发布时间】:2017-06-19 09:01:34
【问题描述】:
我正在寻找一个可以将复合句子拆分为简单句子的句子分割器。
例子:
Input: Andrea is beautiful but she is strict.
(expected) Output: Andrea is beautiful. she is strict.
Input: i am andrea and i work for google.
(expected) Output: i am andrea. i work for google.
Input: Italy is my favorite country; i plan to spend two weeks there next year.
(expected) Output: Italy is my favorite country. i plan to spend two weeks there next year.
有什么建议吗?我尝试了 NLTK、spacy、segtok、nlp-compromise,但它们不适用于这些复杂的示例(我知道这是一个难题,因此没有简单的解决方案)。
【问题讨论】:
-
我想,这不是一个简单的标记化任务,您应该尝试依赖语法语法解析器(如 SyntaxNet),它可以识别复合句中的简单句子在哪里以及连接它们的单词是什么。然后你可以用一个点替换这个词。
-
你能提供更多关于你已经尝试过的细节吗?
-
请在scholar.google.com中搜索“释义”一词。