【问题标题】:How to scrape google?如何抓取谷歌?
【发布时间】:2016-04-22 03:02:24
【问题描述】:

所以我想抓取 google,我已经使用这种方法成功抓取了 craigslist,但由于某种原因我无法缝合抓取 google(是的,当然我改变了类和东西..)这就是我想要抓取的内容:

我想抓取网站描述:

from selenium import webdriver

path = r"C:\Users\Skid\Desktop\chromedriver.exe"

driver = webdriver.Chrome(path)

driver.get("https://www.google.com/#q=python+webscape+google")

posts = driver.find_elements_by_class_name("r")
for post in posts:
    print(post.text)

【问题讨论】:

  • 可能 google 将您检测为机器人。尝试转储抓取的网页,可能会知道它为什么不起作用。
  • 看意思是尝试转储抓取的网页?我已经抓取了 craigslist 并且它有效,给我一个例子?
  • @KevinGuan 的回答是正确的。只需更正您的网址。而不是"#q=",它应该是"?q="
  • @Ghost 我的意思是你能转储你需要解析的 html 吗?
  • @bwaaaaaa:在代码中。

标签: python google-chrome python-3.x scrape


【解决方案1】:

已解决,在抓取前添加一个定时器(导入时间,time.sleep(2))。

【讨论】:

  • 如果您需要抓取大量结果,则不能再使用 selenium。对于较低的数量,它应该可以正常工作。您可以在这里查看以更深入地了解该主题:google-scraper.squabbel.com P.S.您可以通过接受自己的答案将您的问题标记为已解决
  • @john 我看了一下那个 PHP 爬虫。也许十年前它可以工作,但现在不行了。现在,它是一种吸引眼球到该页面的方式,也是一种付费服务,原始代码由此演变而来。在堆栈上的任何地方,人们都提到了谷歌和爬虫对所说的 PHP 脚本的回复。您确定您不是此代码的所有者吗?
  • @EugenevanderMerwe 我正在使用它。绝对不是从 10 年开始,而是从 10 年开始。我不时自己更新它,通常是每年需要更改一次的几个字符。我通过电子邮件发送大部分修复程序,它们有时会反映在网站代码中。你也可以这样做
猜你喜欢
  • 2016-03-06
  • 1970-01-01
  • 2022-11-02
  • 2016-08-01
  • 1970-01-01
  • 2018-06-20
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多