【发布时间】:2017-11-23 07:49:45
【问题描述】:
我正在将网页抓取作为学术项目的一部分,在该项目中,所有链接都必须指向实际内容,这一点很重要。令人讨厌的是,“社交媒体管理”网站存在一些重要的错误案例,用户会在其中发布链接以检测谁点击了它们。
例如,考虑this link on linkis.com,它链接到 http:// + bit.ly + /1P1xh9J(由于 SO 发布限制,分隔链接),它又链接到 http://conservatives4palin.com。由于linkis.com 的原始链接不会自动向前重定向,因此会出现此问题。相反,用户必须单击右上角的叉号才能转到原始 URL。
此外,似乎有不同的变化(参见例如linkis.com link 2,其中十字位于网站的左下角)。这是我发现的仅有的两种变体,但可能还有更多。请注意,我使用的网络爬虫与this one 非常相似。进入实际链接的功能不需要随着时间的推移保持稳定/正常运行,因为这是一个一次性的学术项目。
如何自动转到原始 URL?最好的方法是设计一个找到相关链接的正则表达式吗?
【问题讨论】:
-
没时间写答案,但寻找“unshorten URL python”可能会给你提示
标签: python regex hyperlink web-scraping