【问题标题】:Azure Cognitive Search - Index binary data (MS Office files) from an external data source (no Azure Blob)Azure 认知搜索 - 来自外部数据源(无 Azure Blob)的索引二进制数据(MS Office 文件)
【发布时间】:2021-06-10 02:28:24
【问题描述】:

我试图了解是否有一种方法以及如何实现它来索引不驻留在 Azure Blob 存储中但在其他非 Azure 数据源中的二进制数据(主要是 MS Office 文档和 PDF)。

我找到的最接近的示例将文件复制到 Azure blob 容器,然后添加技能集以从那里索引这些文档。

我想绕过 Azure blob 容器,直接推送 doc 元数据以及二进制内容。

有什么建议或例子我可以看看?

谢谢

【问题讨论】:

    标签: azure azure-cognitive-search azure-search-.net-sdk


    【解决方案1】:

    我想绕过 Azure blob 容器,并推送文档 元数据以及二进制内容。

    根据可用的文档here,我认为您的数据不可能存在于 Azure 之外。您的数据必须驻留在可由索引器访问的 Azure 数据源中,该索引器从今天开始可以是 Azure blob 存储、Azure 表存储、Azure SQL 数据库和 Azure Cosmos DB 之一。

    【讨论】:

    【解决方案2】:

    当您将数据推送到索引时,您可以使用自定义和内置技能定义自定义技能集。有文档提取技能可以满足您的需求。见:

    https://docs.microsoft.com/en-us/azure/search/cognitive-search-skill-document-extraction

    【讨论】:

    • 所以不可以将文档元数据和文档二进制数据推送到同一个json对象中?
    猜你喜欢
    • 2021-09-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-12-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-03-10
    相关资源
    最近更新 更多