【发布时间】:2014-08-09 21:01:12
【问题描述】:
我正在抓取网页。该网页由 50 个条目组成。在 50 个条目后,它会给出一个 加载更多结果按钮。我需要自动选择它。我该怎么做。对于抓取,我使用的是 Python,Lxml。
【问题讨论】:
标签: python web-scraping lxml
我正在抓取网页。该网页由 50 个条目组成。在 50 个条目后,它会给出一个 加载更多结果按钮。我需要自动选择它。我该怎么做。对于抓取,我使用的是 Python,Lxml。
【问题讨论】:
标签: python web-scraping lxml
即使是 JavaScript 也使用 http 请求来获取数据,因此一种方法是调查,当用户要求“加载更多结果”并模拟这些请求时,哪些请求提供了数据。
这不是传统的抓取,它基于纯文本或呈现的 html 内容并检测更多链接,但可能是可行的解决方案。
下一步行动:
请注意,数据不一定采用 HTML 或 XML 格式,但可以采用 JSON。但是 Python 也提供了足够的工具来处理这种格式。
【讨论】:
你不能那样做。该功能由 javascript 提供,lxml 不会执行。
【讨论】: