【问题标题】:How can I recognize a "parked free" website?如何识别“无停放”网站?
【发布时间】:2021-06-04 23:45:42
【问题描述】:
我有一个很长的网址列表,其中一些是 godaddy 的“无停放”
是否有任何技术方法可以识别此类页面而无需在浏览器上打开它们?
该页面在技术上是实时的,并且
requests.head('url').status_code
返回 200 所以它没有帮助
试图获取内容,我只收到“启用 Javascript...”消息
我也尝试使用一些元标记,但它们在美丽的汤中不可见
Selenium 可能会有所帮助,但对于这个特定问题,我想避免使用它
有没有更简单的解决方案?
【问题讨论】:
标签:
python
beautifulsoup
python-requests
urllib2
【解决方案1】:
如果只是godaddy,您可以尝试解析域或尝试使用随机路径发出请求(例如,/dkfiwifhe)。我测试的少数域都解析为 34.102.136.180,并为任何路径返回 HTTP 200。
当然,这可以随时更改,并且可能不适用于其他停车站点,sedo 解析为 91.195.241.137,包括所有子域(godaddy 返回 nxdomain 用于随机子域和规范裸域用于 www),但返回 403对于任何路径。
根据您的列表中有多少个独特的停车位,您不妨查看停车位提供商列表并为所有这些提供特殊脚本。
另一种选择是,一些 DNS 提供商允许过滤停放的域,因此您可以尝试针对它们进行解析。服务推荐是题外话,所以你可以自己谷歌他们。