【问题标题】:how to crawl web page with ajax elements如何使用ajax元素抓取网页
【发布时间】:2013-01-09 18:08:33
【问题描述】:

我想抓取一些网页,如下所示

http://www.youtube.com/user/koglin66/feed?filter=2

但是有一个“加载更多”按钮,它与一个ajax请求有关

http://www.youtube.com/channel_ajax?action_load_more_feed_items=1&activity_view=1&paging=1352148528&channel_id=UCCw8aVnsIeu9S6OPQyaQ14g

我想抓取整个页面。 手动,我反复点击按钮,直到没有更多的加载, 通过自动化,我如何爬取整个页面?谢谢!

【问题讨论】:

    标签: ajax web scrape


    【解决方案1】:

    是的,您可以使用 Selenium IDE,或使用其他带有浏览器核心的程序/库来执行点击操作。像webkit,IE的activex。

    你可以试试FMinerhttp://www.fminer.com/,它可以在浏览器上记录和播放人类动作来抓取数据,但它不是免费的。

    【讨论】:

      【解决方案2】:

      我最近在想废弃的其他网站上遇到了同样的问题。我使用 Java,在网络上进行了一些研究后,我使用 Selenium IDE for firefox,您可以在其中编写 Java Junit 测试用例,它会自动打开网页并单击按钮、填写表格等。 它还支持C#、Python、Ruby等

      我用它来点击加载更多按钮,当页面在所有点击后完全加载时,我手动保存它。

      您可以从他们的网站下载 Selenium,我发现这个 youtube 视频也很有用 http://www.youtube.com/watch?v=twdDfDOrHC4

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2018-12-27
        • 2022-01-19
        • 2016-03-30
        • 2021-09-25
        相关资源
        最近更新 更多