【发布时间】:2014-01-27 21:49:20
【问题描述】:
我有一个要从中提取数据的网站。数据检索非常简单。
它使用 HTTP POST 获取参数并返回一个 JSON 对象。所以,我有一个我想要执行的查询列表,然后每隔一段时间重复一次以更新数据库。 scrapy 适合这个还是我应该使用其他东西?
我实际上不需要关注链接,但我确实需要同时发送多个请求。
【问题讨论】:
标签: python json scrapy web-crawler
我有一个要从中提取数据的网站。数据检索非常简单。
它使用 HTTP POST 获取参数并返回一个 JSON 对象。所以,我有一个我想要执行的查询列表,然后每隔一段时间重复一次以更新数据库。 scrapy 适合这个还是我应该使用其他东西?
我实际上不需要关注链接,但我确实需要同时发送多个请求。
【问题讨论】:
标签: python json scrapy web-crawler
POST 请求看起来如何?有许多变体,例如简单的查询参数 (?a=1&b=2)、类似表单的有效负载(正文包含 a=1&b=2)或任何其他类型的有效负载(正文包含某种格式的字符串,例如 json 或 xml)。
在 scrapy 中发出 POST 请求相当简单,请参阅:http://doc.scrapy.org/en/latest/topics/request-response.html#request-usage-examples
例如,您可能需要这样的东西:
# Warning: take care of the undefined variables and modules!
def start_requests(self):
payload = {"a": 1, "b": 2}
yield Request(url, self.parse_data, method="POST", body=urllib.urlencode(payload))
def parse_data(self, response):
# do stuff with data...
data = json.loads(response.body)
【讨论】:
对于处理请求和检索响应,scrapy 绰绰有余。要解析 JSON,只需使用标准库中的 json 模块即可:
import json
data = ...
json_data = json.loads(data)
希望这会有所帮助!
【讨论】:
根据我对问题的理解,您只想以特定的时间间隔从网页中获取/抓取数据。 Scrapy 一般用于爬取。
如果您只想发出 http post 请求,您可以考虑使用python requests 库。