【问题标题】:python crawl with requests to get jsonpython爬取请求以获取json
【发布时间】:2017-11-08 11:31:09
【问题描述】:

当我进行爬取时,我通常在使用 python 解析之前使用脚本。因为这允许获取可以轻松结构化和解析的 JSON。

 >>> import requests
 >>> r = requests.get('~.json')
 >>> r.json()

但是,遇到这个页面,https://www.eiganetflix.jp/%E3%82%BF%E3%82%A4%E3%83%97/tv-%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA

似乎没有交互调用 JSON 在页面上显示材料。 而且很难找到分页javascript函数。 (其实是有的,不过好像很难执行。)

在这种情况下,如何利用现有的requestsjson 方法? 或者有什么简单的方法可以抓取这个?

【问题讨论】:

    标签: python json web-crawler python-requests


    【解决方案1】:

    如果我理解正确,您想抓取一个没有 JSON 响应的网页。检查以确保该网站没有允许您获取 JSON 数据的 API。甚至任何其他结构化数据(例如 XML)也会有所帮助。如果没有办法,您将不得不进行屏幕抓取,这不是最简单的方法。检查scrapy 这是一个框架,或者你可以使用像beautifulsoup 这样的库来定制解决方案。

    如果页面使用 Javascript,您可能需要在页面上运行它以获取内容和浏览页面。您可以通过spynner 或 Selenium 来执行此操作。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-04-24
      • 2014-09-25
      • 1970-01-01
      相关资源
      最近更新 更多