【问题标题】:Web scraping when url doesnt change当 url 没有改变时,网页抓取
【发布时间】:2019-12-31 04:40:15
【问题描述】:

我正在为这样一个亚马逊的个人资料卖家进行网络抓取:https://www.amazon.es/sp?_encoding=UTF8&asin=B07KS22WVT&isAmazonFulfilled=1&isCBA=&marketplaceID=A1RKKUPIHCS9HS&orderID=&seller=A1KD8FXP0BE5W2&tab=&vasStoreID=

我正在使用 PHP 和 Goutte。问题是,在评论部分,当我点击“Siguiente”(下一步)时,url 没有改变,我无法 scrape 下一个 cmets。

我看到 Goutte 支持“点击链接”问题。我试过了:

$link = $crawler->selectLink('Siguiente')->link();
$crawler = $client->click($link);

但它不起作用。有没有其他解决办法?

【问题讨论】:

    标签: php laravel screen-scraping goutte


    【解决方案1】:

    Goutte 只能加载在服务器端呈现的页面(例如使用 php)。在没有新页面加载的情况下更改的任何内容都可能使用不支持的 javascript 完成。你可以看看this question。使用 phantomjs 之类的东西来爬取页面可能会更好,因为很多页面都依赖于 javascript。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-02-22
      • 2021-02-22
      • 2017-08-16
      • 2018-12-01
      • 1970-01-01
      • 1970-01-01
      • 2021-10-10
      • 2014-02-19
      相关资源
      最近更新 更多