【发布时间】:2020-07-27 02:53:50
【问题描述】:
我需要一些帮助来编写一个可以从网页中找到附属链接的正则表达式模式。
示例代码:
import requests,re
from bs4 import BeautifulSoup
res = requests.get('https://www.example.com')
soup = BeautifulSoup(res.text,'lxml')
links = soup.find_all('a', href=True)
# example_of_affiliate_links = ['http://example.com/click/click?p=1&t=url&s=IDHERE&url=https://www.mywebsite.com/920&f=TXL&name=electronic/ps4/','https://example.net/click/camref:IDhere/destination:https://www.mywebsite.com/product/138/sony-ps4.html']
我想使用以下正则表达式模式收集“mywebsite.com”的所有附属链接,但它没有捕获任何链接。
pattern = re.compile(r'([http,https]://www.mywebsite.com\S[\.html,\.php,\&]$)')
有没有更好的方法来做到这一点?
【问题讨论】:
-
这是一个site I use regularly 用于构建/测试正则表达式模式。
-
This one 拥有正则表达式的可视化表示也很酷
标签: python regex web-scraping beautifulsoup