api搜索tweepy后从twitter文本中删除url答案

【问题标题】：Remove urls from twitter text after api search tweepyapi搜索tweepy后从twitter文本中删除url
【发布时间】：2018-12-30 04:18:28
【问题描述】：

我使用 Tweepy 和 python 抓取 Twitter 数据。好吧，我有一个带有推文文本的熊猫数据框。但几乎每条推文之后都有一个缩短的网址，例如：.

我想从文本中删除这些。我有这段代码，但我不明白为什么它不这样做：

def preprocess2(raw_text):
    stopword_set = set(stopwords.words("english"))
    raw_text = re.sub(r'^https?:\/\/.*[\r\n]*', '', raw_text, flags=re.MULTILINE)
    return " ".join([i for i in re.sub(r'[^a-zA-Z\s]', "", raw_text).lower().split() if i not in stopword_set])

输入： “我需要sugarbaby，我会满足你的需求，照顾好你，把你的想法告诉我，告诉我你的担忧，我……https://dfdf/dfsd”

预期输出：

“我需要sugarbaby，我会满足你的需求，照顾好你，把你的想法告诉我，告诉我你的担忧……”

【问题讨论】：

你能发布输入和预期输出吗？
@Rakesh 我已将其添加到问题中

标签： python url

【解决方案1】：

在您的示例中，URL 不是从行首开始的。因此，您的正则表达式中的 ^ 不匹配。删除这个单个字符应该可以解决问题：

raw_text = re.sub(r'https?:\/\/.*[\r\n]*', '', raw_text, flags=re.MULTILINE)

【讨论】：