【发布时间】:2017-09-22 16:58:46
【问题描述】:
当使用 azure 搜索索引器将 json blob 从存储容器中提取到一个简单的索引中时,我的吞吐量约为 1000 个文档/分钟(在标准层上)。分区数没有影响。这是否符合我对每个 blob 存储索引器的预期?
我需要更快的吞吐量,所以我是否应该考虑滚动我自己的索引器并通过其余 api 批处理调用?
【问题讨论】:
标签: azure azure-cognitive-search
当使用 azure 搜索索引器将 json blob 从存储容器中提取到一个简单的索引中时,我的吞吐量约为 1000 个文档/分钟(在标准层上)。分区数没有影响。这是否符合我对每个 blob 存储索引器的预期?
我需要更快的吞吐量,所以我是否应该考虑滚动我自己的索引器并通过其余 api 批处理调用?
【问题讨论】:
标签: azure azure-cognitive-search
只是为了确认一下,您使用的是"parsingMode": "json" 配置吗?
如果是这样,您可能会通过增加索引器批量大小来显着提高性能。默认批量大小为10,如果您的文档很小,则太小;尝试将其增加到 1000(允许的最大值)。您可以在 Azure 门户中增加批处理大小(编辑索引器刀片)或以编程方式使用 .NET SDK 或 REST API(搜索 batchSize)。
如果性能仍然不能满足您的要求,您通常可以通过对输入数据进行分区并创建多个数据源/索引器对来提高索引器吞吐量,这些数据源/索引器对都写入同一个目标搜索索引(服务将多个分区在这个案例)。
当然,您仍然可以使用推送 API 来完全控制索引请求的时间和批处理。
【讨论】: