【问题标题】:Extracting urls, mentions and hashtags from a tweet从推文中提取 url、提及和主题标签
【发布时间】:2017-04-12 12:46:38
【问题描述】:

我正在尝试提取所有非字母数字字符,并使用 python 从推文中提取 url。我应该只剩下用空格分隔的单词。 例如: 如果我的推文是:“嗨!在https://www.tutorialspoint.com/python/python_strings.htm@python #python 上查看我的页面” 我应该得到:“嗨,看看我的页面” 感谢您的帮助!

【问题讨论】:

  • 您的示例中存在不一致之处,您想包含“hi”但删除两个“phyton”,即使字符串“嗨!”包括非字母数字字符。您是否包含字符串“Hi”,因为它不是像“phyton”这样的标签?
  • 是的,我包括 hi 因为它不是标签,它是一个词,但我要去掉所有的标点符号

标签: python url twitter slice hashtag


【解决方案1】:

假设您已经获得了推文文本,那么使用 python 对字符串的一些内置操作应该能够完成您想要的操作。这是使用列表理解和string.translate module 的单行代码:

import string

my_tweet = "Hi! Check out my page at https://www.tutorialspoint.com/python/python_strings.htm @phyton #phyton"
tweet_text = ' '.join([i.lower() for i in my_tweet.split() if not i.startswith(('http', '@', '#'))]).translate(None, string.punctuation)
print tweet_text # hi check out my page at

【讨论】:

    猜你喜欢
    • 2016-06-20
    • 2014-02-07
    • 1970-01-01
    • 2018-07-15
    • 2014-06-14
    • 2012-12-23
    • 2014-06-26
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多