【发布时间】:2019-08-28 23:37:12
【问题描述】:
我正在尝试通过 python 随机探索 Webscraping。我有 google 搜索结果页面的链接。我使用 url lib 来提取 GOOGLE 搜索结果页面中存在的所有链接。从谷歌的解析页面中,我在 Beautiful Soup 库的帮助下提取所有可能的锚标签。所以现在我有很多链接。在那些我想选择与我所需模式匹配的选定链接中。 示例我想选择所有这些行: 这是被解析的众多链接之一。但我想缩小这样的链接的结果
/url?q=http://avadl.uploadt.com/DL4/Film/&sa=U&ved=0ahUKEwiYwOKe1r7hAhWUf30KHcHUBkMQFggUMAA&usg=AOvVaw39cIJ0T8_CAQMY8EkSWZJl
在这些精选中,我只需要提取这部分
http://avadl.uploadt.com/DL4/Film/
我试过这个和这个
possible_websites.append(re.findall('/url?q=(\S+)',links))
possible_websites.append(re.findall('/url?q=(\S+^&)',links))
这是我的代码
soup = BeautifulSoup(webpage, 'html.parser')
tags = soup('a')
possible_websites=[]
for tag in tags:
links = tag.get('href', None)
possible_websites.append(re.findall('/url?q=(\S+)',links))
我想使用正则表达式来提取所需的文本部分。我正在使用 Beautiful soup 模块来提取 HTML 数据。简而言之,这是一个正则表达式问题。
【问题讨论】:
-
你有什么问题?
-
如何通过正则表达式从/url获取avadl.uploadt.com/DL4/Film?q=avadl.uploadt.com/DL4/Film/…
-
请仔细阅读问题以便理解
标签: python regex beautifulsoup