【问题标题】:How do i load more images from a tumblr blog?如何从 tumblr 博客加载更多图片?
【发布时间】:2018-06-22 11:31:55
【问题描述】:

我正在尝试制作一个脚本,从指定的博客下载 x 数量的图像(例如最近)。我曾尝试使用http://EXAMPLE-BLOG.tumblr.com/archive,它在浏览器中具有“无限滚动”功能。我更喜欢在 python 中执行此操作,并且我之前已经进行了相当多的网络抓取,但我不明白我可以发送什么样的请求来获取更多图像。如果您可以将我发送到执行此操作的某种 API,它不需要使用 html 或存档页面。我用谷歌搜索了一段时间,也搜索了 StackOverflow,但我一直找不到我想要的东西。 ..../archive 提供 50(或 51)个帖子,而 RSS 提要仅提供大约 20 个帖子。更多图片的滚动加载是在网站服务器端还是客户端?例如,我可以通过调用 javascript 函数来做任何事情吗?感谢所有帮助!

【问题讨论】:

  • 澄清一下,我知道如何找到实际的图像 URL,以及正常网络抓取所需的一切,我现在可以抓取大多数简单的网站,我只是找不到提供所有 tumblr 帖子的来源来自博客。我也可以在xml中解析和搜索。
  • @AniketSahrawat,您如何跟踪浏览器调用?铬日志?浏览器控制台?网络数据包?
  • 您将根据窗口/正文的滚动位置通过 AJAX 加载新文件。当用户到达页面末尾时,您可以进行 AJAX 调用以获取更多信息。
  • @magreenberg 可以通过请求库发送 AJAX 请求,还是我需要在 chrome webdriver 或 firefox geckodriver 中使用 selenium 之类的东西?

标签: javascript python html web-scraping tumblr


【解决方案1】:

【讨论】:

  • 好的,这并没有解决我的问题,但你说你不能,所以我将其标记为已接受。我想我找到了另一种方法,发现许多博客都有一种方法可以让他们的帖子被分页,而不是滚动。然后我可以做一些正常的刮擦。无论如何,谢谢!
  • 欢迎您,但您有什么解决问题的方法?
  • 我使用了 "BLOG.tumblr.com/page" + str(PageNumber) 这给出了一些数字(不记得,可能是 10 个)帖子,我只是增加页码,抓取具有某些属性的图像。找不到每个博客的标准属性,所以我有一个 xpath 列表可供选择。
猜你喜欢
  • 1970-01-01
  • 2020-08-11
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-05-06
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多