【问题标题】:web scraping search results网页抓取搜索结果
【发布时间】:2023-09-25 11:39:01
【问题描述】:

我需要帮助解决以下问题:

我需要通过 Google 搜索引擎验证特定网站的缓存 URL。如果 url 将 404 或页面不会呈现一些必要的 html 元素(被认为已损坏),我需要记录这些 URL,然后 301 重定向到正确的 URL。我知道 PHP 和一点 Python,但我不确定使用什么方法从给定站点的搜索引擎结果中删除所有 URL。

【问题讨论】:

    标签: web-scraping search-engine google-search


    【解决方案1】:

    http://simplehtmldom.sourceforge.net/ - 一个简单的 html 解析器。此页面上有一个示例;不确定这是否仍然适用于谷歌即时搜索等。

    【讨论】: