【问题标题】:Azure blob document - Full text searchAzure blob 文档 - 全文搜索
【发布时间】:2015-04-16 21:09:31
【问题描述】:

我使用 Azure 来托管我的项目并选择 blob 来存储所有文件(因为它们以兆字节为单位并且数量很大)。我需要在 blob 中的所有文件中进行搜索(有点像全文搜索)。我尝试将它与 Azure 搜索集成,但没有运气,因为索引仅在 sql 上创建。有没有办法在blob中集成全文搜索?

如果不是,那么将文档存储在 azure 中并仍然像 sharepoint 提供的那样使其可搜索(全文搜索)的有效方法是什么。

【问题讨论】:

    标签: search azure full-text-search azure-blob-storage azure-cognitive-search


    【解决方案1】:

    我从事 Azure 搜索。我们刚刚发布了对存储在 Azure blob 存储中的索引文档的预览支持,并支持 PDF、Office 文档、HTML 和一些其他格式。请参阅https://azure.microsoft.com/en-us/documentation/articles/search-howto-indexing-azure-blob-storage/ 了解更多详情。

    谢谢, 尤金

    【讨论】:

    • 嘿 Eugene,我可以在 blob 中拥有的文件是办公文档和所有文本文件。不知道如何使用 Axure Search 使 office 文档可搜索。我尝试过 POC,但从未在 Azure 搜索上得到结果
    • 嗨 Ankit,您需要使用 Apache Tika 或 IFilters 之类的工具从文档中提取文本内容(因为办公格式包含大量 XML 和标记,而不仅仅是文本),然后调用 Azure Search API将您的文档添加到索引中(请参阅msdn.microsoft.com/en-us/library/azure/dn798930.aspx
    • 我之前找到了这个链接,但我正在寻找 Azure 开箱即用的东西。是否可以在 Azure 网站上打开办公文件?因为这需要 Windows 组件(假设)
    • Ankit,看看下面这篇文章,可能会有帮助:wp.sjkp.dk/azure-search-pdf-indexing
    • 某种关于 doc、docx、xls、xlsx 文件作为 SQL Server 文件表工作的东西?
    【解决方案2】:

    您可以尝试 azure search,它现在支持认知搜索[Preview],它使用 OCR 进行图像识别。它在 pdf 和所有类型的文档方面做得很好。

    即使是扫描的文档,它也能很好地工作。

    微软有一个关于 azure search 的在线演示,它做得很好。 https://jfk-demo.azurewebsites.net/

    【讨论】:

      猜你喜欢
      • 2016-08-14
      • 2018-09-07
      • 2018-03-16
      • 1970-01-01
      • 2020-06-17
      • 2018-02-22
      • 1970-01-01
      • 2016-07-01
      • 1970-01-01
      相关资源
      最近更新 更多