【发布时间】:2016-07-18 09:16:46
【问题描述】:
我想知道如何从我的 import.io 提取器中获取抓取数据(通过 GUI 手动输入的 URL 列表)。 API 文档非常稀缺,它没有指定我发出的 GET 请求是实际启动爬虫(并消耗我的爬虫可用运行之一)还是只是查询手动启动的爬虫的结果。
我也想知道如何获取连接器 ID,据我了解,提取器只不过是一个专门的连接器,但是当我使用 extractor_id 作为连接器 ID 来查询 API 时,我得到了连接器不存在。
我认为我可以在一个提取器中列出我拥有的 URL 的一种方式是:
https://api.import.io/store/connector/_search?
_sortDirection=DESC&_default_operator=OR&_mine=true&_apikey=123...
但我得到的唯一结果是:
{ "took": 2, "timed_out": false, "hits": { “总计”:0, “命中”:[], “最大分数”:0 } }
尽管如此,即使我会得到更完整的响应,我在文档中看到的示例结果也没有提到任何类型的列表或元素,其中包含我试图从 import.io 帐户获取的 URL。
我正在使用 python 来创建这个 API
【问题讨论】:
-
是的,如果能够一次调用一个提取器列表,那就太好了。到目前为止,我无法找到如何动态遍历所有提取器,这对我来说听起来很愚蠢。
标签: python web-crawler import.io