【问题标题】:How to select "Load more results" button when scraping using Python & lxml使用 Python 和 lxml 抓取时如何选择“加载更多结果”按钮
【发布时间】:2014-08-09 21:01:12
【问题描述】:

我正在抓取网页。该网页由 50 个条目组成。在 50 个条目后,它会给出一个 加载更多结果按钮。我需要自动选择它。我该怎么做。对于抓取,我使用的是 Python,Lxml。

【问题讨论】:

    标签: python web-scraping lxml


    【解决方案1】:

    即使是 JavaScript 也使用 http 请求来获取数据,因此一种方法是调查,当用户要求“加载更多结果”并模拟这些请求时,哪些请求提供了数据。

    这不是传统的抓取,它基于纯文本或呈现的 html 内容并检测更多链接,但可能是可行的解决方案。

    下一步行动:

    • 在 Google Chrome 或 Firefox 中访问页面
    • 按 F12 启动开发者工具或 Firebug
    • 切换到“网络”标签
    • 点击“加载更多结果”
    • 检查,哪些 http 请求为加载更多结果提供了数据,以及它们返回了哪些数据。
    • 尝试从 Python 模拟这些请求

    请注意,数据不一定采用 HTML 或 XML 格式,但可以采用 JSON。但是 Python 也提供了足够的工具来处理这种格式。

    【讨论】:

      【解决方案2】:

      你不能那样做。该功能由 javascript 提供,lxml 不会执行。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2018-07-06
        • 2021-09-26
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2021-04-06
        • 1970-01-01
        相关资源
        最近更新 更多