【问题标题】:Azure Search json blob indexing speedAzure 搜索 json blob 索引速度
【发布时间】:2017-09-22 16:58:46
【问题描述】:

当使用 azure 搜索索引器将 json blob 从存储容器中提取到一个简单的索引中时,我的吞吐量约为 1000 个文档/分钟(在标准层上)。分区数没有影响。这是否符合我对每个 blob 存储索引器的预期?

我需要更快的吞吐量,所以我是否应该考虑滚动我自己的索引器并通过其余 api 批处理调用?

【问题讨论】:

    标签: azure azure-cognitive-search


    【解决方案1】:

    只是为了确认一下,您使用的是"parsingMode": "json" 配置吗? 如果是这样,您可能会通过增加索引器批量大小来显着提高性能。默认批量大小为10,如果您的文档很小,则太小;尝试将其增加到 1000(允许的最大值)。您可以在 Azure 门户中增加批处理大小(编辑索引器刀片)或以编程方式使用 .NET SDKREST API(搜索 batchSize)。

    如果性能仍然不能满足您的要求,您通常可以通过对输入数据进行分区并创建多个数据源/索引器对来提高索引器吞吐量,这些数据源/索引器对都写入同一个目标搜索索引(服务将多个分区在这个案例)。

    当然,您仍然可以使用推送 API 来完全控制索引请求的时间和批处理。

    【讨论】:

    • 是的,我使用的是 json 解析模式。我的文档很小,所以我将 batchSize 增加到 1000。不幸的是,性能仅略有提高。
    • 如果您将您的服务名称通过电子邮件发送给我,我们将查看遥测数据,看看我们是否可以提出其他建议。 eugenesh 在通常的 Microsoft 域中。滚动您自己的代码,并行下载一堆 blob 并批量索引它们可能会胜过我们所做的任何事情,因为您可以微调所有批量大小,并且在不必要时还可以避免 JSON 解析。
    猜你喜欢
    • 2020-03-03
    • 1970-01-01
    • 2018-02-09
    • 2018-04-30
    • 1970-01-01
    • 2016-11-22
    • 1970-01-01
    • 2018-09-07
    • 2018-01-22
    相关资源
    最近更新 更多