如何抓取谷歌？答案

【问题标题】：How to scrape google?如何抓取谷歌？
【发布时间】：2016-04-22 03:02:24
【问题描述】：

所以我想抓取 google，我已经使用这种方法成功抓取了 craigslist，但由于某种原因我无法缝合抓取 google（是的，当然我改变了类和东西..）这就是我想要抓取的内容：

我想抓取网站描述：

from selenium import webdriver

path = r"C:\Users\Skid\Desktop\chromedriver.exe"

driver = webdriver.Chrome(path)

driver.get("https://www.google.com/#q=python+webscape+google")

posts = driver.find_elements_by_class_name("r")
for post in posts:
    print(post.text)

【问题讨论】：

可能 google 将您检测为机器人。尝试转储抓取的网页，可能会知道它为什么不起作用。
看意思是尝试转储抓取的网页？我已经抓取了 craigslist 并且它有效，给我一个例子？
@KevinGuan 的回答是正确的。只需更正您的网址。而不是"#q="，它应该是"?q="
@Ghost 我的意思是你能转储你需要解析的 html 吗？
@bwaaaaaa：在代码中。

标签： python google-chrome python-3.x scrape

【解决方案1】：

已解决，在抓取前添加一个定时器（导入时间，time.sleep(2)）。

【讨论】：

如果您需要抓取大量结果，则不能再使用 selenium。对于较低的数量，它应该可以正常工作。您可以在这里查看以更深入地了解该主题：google-scraper.squabbel.com P.S.您可以通过接受自己的答案将您的问题标记为已解决
@john 我看了一下那个 PHP 爬虫。也许十年前它可以工作，但现在不行了。现在，它是一种吸引眼球到该页面的方式，也是一种付费服务，原始代码由此演变而来。在堆栈上的任何地方，人们都提到了谷歌和爬虫对所说的 PHP 脚本的回复。您确定您不是此代码的所有者吗？
@EugenevanderMerwe 我正在使用它。绝对不是从 10 年开始，而是从 10 年开始。我不时自己更新它，通常是每年需要更改一次的几个字符。我通过电子邮件发送大部分修复程序，它们有时会反映在网站代码中。你也可以这样做