【问题标题】:Remove urls from twitter text after api search tweepyapi搜索tweepy后从twitter文本中删除url
【发布时间】:2018-12-30 04:18:28
【问题描述】:

我使用 Tweepy 和 python 抓取 Twitter 数据。好吧,我有一个带有推文文本的熊猫数据框。但几乎每条推文之后都有一个缩短的网址,例如:.

我想从文本中删除这些。我有这段代码,但我不明白为什么它不这样做:

def preprocess2(raw_text):
    stopword_set = set(stopwords.words("english"))
    raw_text = re.sub(r'^https?:\/\/.*[\r\n]*', '', raw_text, flags=re.MULTILINE)
    return " ".join([i for i in re.sub(r'[^a-zA-Z\s]', "", raw_text).lower().split() if i not in stopword_set])

输入: “我需要sugarbaby,我会满足你的需求,照顾好你,把你的想法告诉我,告诉我你的担忧,我……https://dfdf/dfsd

预期输出:

“我需要sugarbaby,我会满足你的需求,照顾好你,把你的想法告诉我,告诉我你的担忧……”

【问题讨论】:

  • 你能发布输入和预期输出吗?
  • @Rakesh 我已将其添加到问题中

标签: python url


【解决方案1】:

在您的示例中,URL 不是从行首开始的。因此,您的正则表达式中的 ^ 不匹配。删除这个单个字符应该可以解决问题:

raw_text = re.sub(r'https?:\/\/.*[\r\n]*', '', raw_text, flags=re.MULTILINE)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-01-12
    • 2013-06-26
    • 2014-09-03
    • 1970-01-01
    • 1970-01-01
    • 2013-01-07
    • 2012-12-15
    • 2012-11-25
    相关资源
    最近更新 更多