【发布时间】:2018-06-22 11:31:55
【问题描述】:
我正在尝试制作一个脚本,从指定的博客下载 x 数量的图像(例如最近)。我曾尝试使用http://EXAMPLE-BLOG.tumblr.com/archive,它在浏览器中具有“无限滚动”功能。我更喜欢在 python 中执行此操作,并且我之前已经进行了相当多的网络抓取,但我不明白我可以发送什么样的请求来获取更多图像。如果您可以将我发送到执行此操作的某种 API,它不需要使用 html 或存档页面。我用谷歌搜索了一段时间,也搜索了 StackOverflow,但我一直找不到我想要的东西。 ..../archive 提供 50(或 51)个帖子,而 RSS 提要仅提供大约 20 个帖子。更多图片的滚动加载是在网站服务器端还是客户端?例如,我可以通过调用 javascript 函数来做任何事情吗?感谢所有帮助!
【问题讨论】:
-
澄清一下,我知道如何找到实际的图像 URL,以及正常网络抓取所需的一切,我现在可以抓取大多数简单的网站,我只是找不到提供所有 tumblr 帖子的来源来自博客。我也可以在xml中解析和搜索。
-
@AniketSahrawat,您如何跟踪浏览器调用?铬日志?浏览器控制台?网络数据包?
-
您将根据窗口/正文的滚动位置通过 AJAX 加载新文件。当用户到达页面末尾时,您可以进行 AJAX 调用以获取更多信息。
-
@magreenberg 可以通过请求库发送 AJAX 请求,还是我需要在 chrome webdriver 或 firefox geckodriver 中使用 selenium 之类的东西?
标签: javascript python html web-scraping tumblr