【发布时间】:2013-02-08 15:49:56
【问题描述】:
我想提取文本的句子,但我需要结果的确切位置。 NLTK 中tokenize.sent_tokenize 的当前实现不返回提取句子的位置,所以我尝试了这样的事情:
offset, length = 0, 0
for sentence in tokenize.sent_tokenize(text):
length = len(sentence)
yield sentence, offset, length
offset += length
但它不会返回句子的确切位置,因为sent_tokenize 删除了结果句子边界之外的一些书写字符(例如换行符、额外空格和...)。我不想使用简单的正则表达式模式来拆分句子,我知道在这种情况下这个问题是微不足道的。
谢谢。
【问题讨论】: