Azure 搜索 json blob 索引速度答案

【问题标题】：Azure Search json blob indexing speedAzure 搜索 json blob 索引速度
【发布时间】：2017-09-22 16:58:46
【问题描述】：

当使用 azure 搜索索引器将 json blob 从存储容器中提取到一个简单的索引中时，我的吞吐量约为 1000 个文档/分钟（在标准层上）。分区数没有影响。这是否符合我对每个 blob 存储索引器的预期？

我需要更快的吞吐量，所以我是否应该考虑滚动我自己的索引器并通过其余 api 批处理调用？

【问题讨论】：

【解决方案1】：

只是为了确认一下，您使用的是"parsingMode": "json" 配置吗？如果是这样，您可能会通过增加索引器批量大小来显着提高性能。默认批量大小为10，如果您的文档很小，则太小；尝试将其增加到 1000（允许的最大值）。您可以在 Azure 门户中增加批处理大小（编辑索引器刀片）或以编程方式使用 .NET SDK 或 REST API（搜索 batchSize）。

如果性能仍然不能满足您的要求，您通常可以通过对输入数据进行分区并创建多个数据源/索引器对来提高索引器吞吐量，这些数据源/索引器对都写入同一个目标搜索索引（服务将多个分区在这个案例）。

当然，您仍然可以使用推送 API 来完全控制索引请求的时间和批处理。

【讨论】：

是的，我使用的是 json 解析模式。我的文档很小，所以我将 batchSize 增加到 1000。不幸的是，性能仅略有提高。
如果您将您的服务名称通过电子邮件发送给我，我们将查看遥测数据，看看我们是否可以提出其他建议。 eugenesh 在通常的 Microsoft 域中。滚动您自己的代码，并行下载一堆 blob 并批量索引它们可能会胜过我们所做的任何事情，因为您可以微调所有批量大小，并且在不必要时还可以避免 JSON 解析。