【发布时间】:2017-07-16 09:12:11
【问题描述】:
所以我想从语料库中删除一个模式,但是有些单词与我想保留的模式相匹配。我有一个此类单词的列表,并且可以删除与该模式匹配的所有单词。
但是,我如何保留列表中的单词,并删除任何其他匹配该模式的单词?
谢谢。
【问题讨论】:
-
你能发布你目前得到的代码吗?
-
是的,我将启动笔记本。但是,与此同时,我正在做的只是使用
re.sub来匹配其中包含@的单词 -
我想要删除所有这些单词,但保留一些与模式匹配的单词。我有一个列表
-
我正在这样做:
def replace_in_str(string):return ' '.join(re.sub("([^0-9A-Za-z \t])|(\w+:\/\/\S+)"," ",string).split())然后简单地说,tweets["Message"]=tweets["Message"].apply(replace_in_str)我也从 SO 那里得到了这个替换。