【发布时间】:2019-02-11 19:12:10
【问题描述】:
我是 Spacy 和 NLP 的新手。我在使用 Spacy 进行句子分割时遇到以下问题。
我试图将其标记为句子的文本包含编号列表(编号和实际文本之间有空格),如下所示。
import spacy
nlp = spacy.load('en_core_web_sm')
text = "This is first sentence.\nNext is numbered list.\n1. Hello World!\n2. Hello World2!\n3. Hello World!"
text_sentences = nlp(text)
for sentence in text_sentences.sents:
print(sentence.text)
输出(1.,2.,3. 被视为单独的行)是:
This is first sentence.
Next is numbered list.
1.
Hello World!
2.
Hello World2!
3.
Hello World!
但是如果编号和实际文本之间没有空格,那么句子标记化就可以了。如下:
import spacy
nlp = spacy.load('en_core_web_sm')
text = "This is first sentence.\nNext is numbered list.\n1.Hello World!\n2.Hello World2!\n3.Hello World!"
text_sentences = nlp(text)
for sentence in text_sentences.sents:
print(sentence.text)
输出(期望)是:
This is first sentence.
Next is numbered list.
1.Hello World!
2.Hello World2!
3.Hello World!
请建议我们是否可以自定义句子检测器来做到这一点。
【问题讨论】:
标签: nlp tokenize spacy sentence