【发布时间】:2019-05-07 22:06:51
【问题描述】:
是否有任何选项可以添加自定义标点符号,默认标点符号规则中不包含这些标点符号? (https://github.com/explosion/spaCy/blob/develop/spacy/lang/de/punctuation.py)
我正在使用 spaCy 的 Matcher 类 (https://spacy.io/usage/rule-based-matching) 和属性“IS_PUNCT”从我的文本中删除标点符号。
from spacy.matcher import Matcher
# instantiate Matcher
matcher = Matcher(nlp.vocab)
# define pattern
pattern = [{"IS_PUNCT": False}]
# add pattern to matcher
matcher.add("Cleaning", None, pattern)
我想自定义标点规则以删除“|”来自我与 Matcher 的文本。
【问题讨论】: