首先 去除百度

直接使用浏览器搜索生成的url访问不通会返回以下内容,。因为百度会对refer和cookie进行验证,他们的生成机制不了解,

<html>
<head>
    <script>
        location.replace(location.href.replace("https://","http://"));
    </script>
</head>
<body>
    <noscript>
        <meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>

 

然后再去除360,可以通过浏览器搜索生成的url进行访问,但是同一个关键词访问二三十次就触发验证

设计爬虫如何选择合适的搜索引擎

 

 bing

相关文章:

  • 2021-09-12
  • 2021-10-27
  • 2022-12-23
  • 2022-01-07
  • 2022-01-07
  • 2022-12-23
  • 2021-11-01
猜你喜欢
  • 2022-01-22
  • 2022-12-23
  • 2021-11-13
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案