如何从 tumblr 博客加载更多图片？答案

【问题标题】：How do i load more images from a tumblr blog?如何从 tumblr 博客加载更多图片？
【发布时间】：2018-06-22 11:31:55
【问题描述】：

我正在尝试制作一个脚本，从指定的博客下载 x 数量的图像（例如最近）。我曾尝试使用http://EXAMPLE-BLOG.tumblr.com/archive，它在浏览器中具有“无限滚动”功能。我更喜欢在 python 中执行此操作，并且我之前已经进行了相当多的网络抓取，但我不明白我可以发送什么样的请求来获取更多图像。如果您可以将我发送到执行此操作的某种 API，它不需要使用 html 或存档页面。我用谷歌搜索了一段时间，也搜索了 StackOverflow，但我一直找不到我想要的东西。 ..../archive 提供 50（或 51）个帖子，而 RSS 提要仅提供大约 20 个帖子。更多图片的滚动加载是在网站服务器端还是客户端？例如，我可以通过调用 javascript 函数来做任何事情吗？感谢所有帮助！

【问题讨论】：

澄清一下，我知道如何找到实际的图像 URL，以及正常网络抓取所需的一切，我现在可以抓取大多数简单的网站，我只是找不到提供所有 tumblr 帖子的来源来自博客。我也可以在xml中解析和搜索。
@AniketSahrawat，您如何跟踪浏览器调用？铬日志？浏览器控制台？网络数据包？
您将根据窗口/正文的滚动位置通过 AJAX 加载新文件。当用户到达页面末尾时，您可以进行 AJAX 调用以获取更多信息。
@magreenberg 可以通过请求库发送 AJAX 请求，还是我需要在 chrome webdriver 或 firefox geckodriver 中使用 selenium 之类的东西？

标签： javascript python html web-scraping tumblr

【解决方案1】：

使用Link Post on Tumblr's API 或Python 模块PyTumblr。但是您不能使用常规方法绕过 API 速率限制。

其他资源

【讨论】：

好的，这并没有解决我的问题，但你说你不能，所以我将其标记为已接受。我想我找到了另一种方法，发现许多博客都有一种方法可以让他们的帖子被分页，而不是滚动。然后我可以做一些正常的刮擦。无论如何，谢谢！
欢迎您，但您有什么解决问题的方法？
我使用了 "BLOG.tumblr.com/page" + str(PageNumber) 这给出了一些数字（不记得，可能是 10 个）帖子，我只是增加页码，抓取具有某些属性的图像。找不到每个博客的标准属性，所以我有一个 xpath 列表可供选择。