【问题标题】:Azure Search, skip large blobs but still index metadataAzure 搜索,跳过大 blob,但仍索引元数据
【发布时间】:2018-01-04 07:59:55
【问题描述】:

我们有一组 blob,各种内容。

我们需要为元数据和内容建立索引,但我们很乐意跳过不受支持的文件类型和非常大的文件的内容。例如我们有

File One.docx - 支持的类型 - 索引元数据和内容(好)

File Two.dat - 不支持的类型 - 索引元数据跳过内容(好)

File Three.txt - 支持的类型,由于 blob 的大小而失败。 (坏)

我们的搜索是基于 docs 的配置,我们只是将 failOnUnsupportedContentType 添加到 Configuration 并将其设置为 false

我们想为File Three.txt 的元数据建立索引,但跳过大的内容,比如failOnOversizedContent,我们将设置为false

现在我们收到一个与 blob 大小过大有关的错误。

【问题讨论】:

    标签: azure azure-cognitive-search


    【解决方案1】:

    2018 年 1 月 3 日更新

    我意识到我最初使用 AzureSearch_SkipContent blob 元数据的建议并不能解决问题,因为仍然需要下载 blob 来处理内容类型元数据。

    为了让这个场景正常运行,我们添加了indexStorageMetadataOnlyForOversizedDocuments 索引器配置设置。它采用布尔值,默认为false,因此在索引器配置中将其设置为true 以启用它。这是新的印刷机,将于 1 月 19 日在全球范围内投入生产。

    原始回复

    您可以将AzureSearch_SkipContent: true 元数据添加到大blob,如Controlling which parts of the blob are indexed 中所述。我意识到这可能会带来不便,但这可以解除对您的阻碍。

    我们想索引文件 Three.txt 的元数据,但跳过 大型内容,例如failOnOversizedContent,我们会 设置为假。

    这看起来像是一个有用的功能请求 - 请在 our UserVoice site 添加建议,我们会考虑这一点,尤其是当我们看到其他客户提出此要求时。

    【讨论】:

    • 另外,如果您让我知道您的服务名称,我们可以探索其他一些选项。您可以在通常的 Microsoft 域中通过 eugenesh 与我联系。
    • 是否有两个索引,一个用于元数据,一个用于内容?两者都有相同的密钥。
    • 无论如何我都需要修补 blob,所以添加 AzureSearch_SkipContent 没什么大不了的。谢谢
    • 拥有单独的索引可能没有意义,除非您想要分别搜索内容和元数据。单独的索引意味着您需要发出多个搜索请求(并合并结果),索引可能不同步,并且在 Azure 搜索方面效率会降低。
    • 抱歉,我的意思是两个索引器 :) 但是,我添加了 SkipContent 标志.. 谢谢
    猜你喜欢
    • 2018-03-10
    • 2019-12-18
    • 2020-06-15
    • 2017-09-22
    • 2020-03-03
    • 1970-01-01
    • 2015-12-01
    • 2016-11-13
    • 1970-01-01
    相关资源
    最近更新 更多