【发布时间】:2019-09-24 04:07:20
【问题描述】:
我分析了恶意电子邮件中的 URL。我使用 BeautifulSoup 解析电子邮件。我得到这个网址
此 URL 将强制 Google.com 重定向到 http://my.BAD.CO 鉴于上述 URL,我如何知道该 URL 将触发重定向?
我想知道这是一个重定向,我想获得两个单独的 URL http://my.BAD.CO 和 https://www.google.com/url?q=http://5sr0s.%61%6b%68%6f%72%61%62%2e%72%75&sa=D&usg=AFQjCNGTKogvWUF40RsyeAXrGi6uQrlhoQ
其中http://my.BAD.CO 是编码的目标 URL http://my.%42%41%44%2e%43%4F
如果唯一的解决方案是像这样的自定义 RegEx
(?i)(http|https)://(www.|)google.com/url\?q=(http|https)://(\S+)\&usg=\S+
接着调用 urllib.parse.unquote 会覆盖所有极端情况吗? 除了https://www.google.com/url...还有其他重定向方式吗?
我找到了另一种重定向方式这是另一种重定向方式:通过https://www.google.de/url?sa=t&url=
【问题讨论】:
标签: regex python-3.x url beautifulsoup phishing