【发布时间】:2018-12-30 04:18:28
【问题描述】:
我使用 Tweepy 和 python 抓取 Twitter 数据。好吧,我有一个带有推文文本的熊猫数据框。但几乎每条推文之后都有一个缩短的网址,例如:.
我想从文本中删除这些。我有这段代码,但我不明白为什么它不这样做:
def preprocess2(raw_text):
stopword_set = set(stopwords.words("english"))
raw_text = re.sub(r'^https?:\/\/.*[\r\n]*', '', raw_text, flags=re.MULTILINE)
return " ".join([i for i in re.sub(r'[^a-zA-Z\s]', "", raw_text).lower().split() if i not in stopword_set])
输入: “我需要sugarbaby,我会满足你的需求,照顾好你,把你的想法告诉我,告诉我你的担忧,我……https://dfdf/dfsd”
预期输出:
“我需要sugarbaby,我会满足你的需求,照顾好你,把你的想法告诉我,告诉我你的担忧……”
【问题讨论】:
-
你能发布输入和预期输出吗?
-
@Rakesh 我已将其添加到问题中