【问题标题】:Does Import.io api support status of the extractor?Import.io api 是否支持提取器的状态?
【发布时间】:2016-11-15 15:25:52
【问题描述】:

我刚刚使用 import.io 创建了一个提取器。此提取器使用链接。首先,我从一个页面中提取一些 url,并使用这些提取的 url,我正在提取详细信息页面。当详细页面的提取完成后,我想得到结果。但是我怎么能确定提取完成。是否有任何用于检查提取状态的api端点?

我从旧版中找到了“GET /store/connector/{id}”端点。但是当我尝试这个时,我得到了 404。你可以看一下截图。

另一个问题是,我想安排我的提取器一天两次。这可能吗?

谢谢

【问题讨论】:

    标签: import.io


    【解决方案1】:

    与每个提取器相关的是爬行运行。爬网运行表示具有特定配置(训练、URL 列表等)的提取器的运行。每次爬网运行的状态可以具有以下值之一:

    • 已启动 => 正在运行
    • CANCELLED => 已启动但被用户取消
    • FINISHED => 运行完成

    包含的其他元数据如下:

    • 开始时间 - 运行开始时间
    • 停止于 - 运行结束时
    • URL 总数 - 运行中的 URL 总数
    • 成功 URL 计数 - 查询的成功 URL 数
    • 失败的 URL 计数 - 查询的失败 URL 数
    • 行数 - 运行中返回的总行数

    获取与提取器关联的爬取运行列表的 REST API 如下:

    curl -s X GET "https://store.import.io/store/crawlrun/_search?_sort=_meta.creationTimestamp&_page=1&_perPage=30&extractorId=$EXTRACTOR_ID&_apikey=$IMPORT_IO_API_KEY"

    在哪里

    • $EXTRACTOR_ID - 列出爬网运行的提取器
    • $IMPORT_IO_API_KEY - 从您的帐户导入.io API

    【讨论】:

    • 感谢您的回答。它对我有用。我也想安排我的提取器一天两次。这可能吗?我问是因为我在文档中找不到此信息。有每日、每周和每月的日程安排,但一天没有多次。非常感谢。
    猜你喜欢
    • 2014-08-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-04-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-08-09
    相关资源
    最近更新 更多