【问题标题】:Parse redirection URL解析重定向 URL
【发布时间】:2019-09-24 04:07:20
【问题描述】:

我分析了恶意电子邮件中的 URL。我使用 BeautifulSoup 解析电子邮件。我得到这个网址

https://www.google.com/url?q=http://my.%42%41%44%2e%43%4F&sa=D&usg=AFQjCNGTKogvWUF40RsyeAXrGi6uQrlhoQ

此 URL 将强制 Google.com 重定向到 http://my.BAD.CO 鉴于上述 URL,我如何知道该 URL 将触发重定向?

我想知道这是一个重定向,我想获得两个单独的 URL http://my.BAD.COhttps://www.google.com/url?q=http://5sr0s.%61%6b%68%6f%72%61%62%2e%72%75&sa=D&usg=AFQjCNGTKogvWUF40RsyeAXrGi6uQrlhoQ

其中http://my.BAD.CO 是编码的目标 URL http://my.%42%41%44%2e%43%4F

如果唯一的解决方案是像这样的自定义 RegEx

(?i)(http|https)://(www.|)google.com/url\?q=(http|https)://(\S+)\&usg=\S+

接着调用 urllib.parse.unquote 会覆盖所有极端情况吗? 除了https://www.google.com/url...还有其他重定向方式吗?

我找到了另一种重定向方式这是另一种重定向方式:通过https://www.google.de/url?sa=t&url=

【问题讨论】:

    标签: regex python-3.x url beautifulsoup phishing


    【解决方案1】:

    我最终得到了一个正则表达式

    (?i)^(http|https)://(www.|)google.(ac|ad|aero|ae|af|ag|ai|al|am|an|ao|aq|arpa|ar|asia|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|biz|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|cat|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|coop|com|co|cr|cu|cv|cx|cy|cz|de|dj|dk|dm|do|dz|ec|edu|ee|eg|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gov|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|info|int|in|io|iq|ir|is|it|je|jm|jobs|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mil|mk|ml|mm|mn|mobi|mo|mp|mq|mr|ms|mt|museum|mu|mv|mw|mx|my|mz|name|na|nc|net|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|org|pa|pe|pf|pg|ph|pk|pl|pm|pn|pro|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|sk|sl|sm|sn|so|sr|st|su|sv|sy|sz|tc|td|tel|tf|tg|th|tj|tk|tl|tm|tn|to|tp|travel|tr|tt|tv|tw|tz|ua|ug|uk|um|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|xn--0zwm56d|xn--11b5bs3a9aj6g|xn--80akhbyknj4f|xn--9t4b11yi5a|xn--deba0ad|xn--g6w251d|xn--hgbk6aj7f53bba|xn--hlcj6aya9esc7a|xn--jxalpdlp|xn--kgbechtv|xn--zckzah|ye|yt|yu|za|zm|zw)/url\?.+$
    

    或可读的形式

    (?i)^(http|https)://(www.|)google.(com|de)/url\?.+$
    

    很多人认为这个问题不值得任何人努力。我的问题是-4。有些问题似乎是微不足道的。我仍然希望有更好的解决方案。我没有找到允许重定向 URL 的 WEB 站点列表,就像 google.com/url\?q 所做的那样

    这是重定向https://www.google.de/url?sa=t&url=的另一种方式

    【讨论】:

    • 密切的原因表明您的问题不清楚,因此可能值得询问您的问题不清楚的地方。重现问题的方法也会有所帮助。
    • 这个问题有什么不清楚的地方?没有太多可复制的内容。
    • 就我个人而言,由于无法复制,我无法了解正在发生的事情。您正在向初始 url 发出请求并获得两个(?)重定向,并希望能够使用正则表达式捕获它们(从哪里?)?我没有投反对票,但我确实在此基础上投票结束。也许我应该发表评论 - 我道歉。我在辩护中看到很多问题,有时没有留下 VTC 理由。
    • 我已经更新了这个问题。希望这现在更清楚了。由于编码问题,这个问题很棘手,而且不是很明显。
    • 哦......有点......所以......您想分析您收到的电子邮件以找出其中的 url(返回地址 url?),可能会重新直接到?不知何故,你希望谷歌能用这个来帮助你?您是否正在对找到的电子邮件网址进行谷歌搜索?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-07-09
    • 2018-03-24
    • 1970-01-01
    • 2016-01-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多