【发布时间】:2019-08-28 00:25:12
【问题描述】:
为了将我的句子分成标记,我正在执行以下操作,这很慢
import spacy nlp = spacy.load("en_core_web_lg")
text = "This is a test. This is another test"
sentence_tokens = []
doc = nlp(text)
for sent in doc.sents:
words = nlp(sent.text)
all = []
for w in words:
all.append(w)
sentence_tokens.append(all)
我有点想按照 nltk 处理它的方式来执行此操作,您使用 sent_tokenize() 将文本分成句子,然后为每个句子运行 word_tokenize()
【问题讨论】:
标签: spacy