【发布时间】:2021-02-06 00:50:13
【问题描述】:
可以使用 nltk 将文本块转换为句子。
例如:
sen = 'this is a test sentence1 this is a test sentence 2 this is a test'
tokens = nltk.sent_tokenize(sen)
len(tokens)
返回 1,但我希望三个句子的列表长度为 3:
Sentence 1 : this is a test sentence1
Sentence 2 : this is a test sentence 2
Sentence 3 : this is a test
【问题讨论】:
-
英文句子不是用
sentence分隔,而是用.、?、!...