【发布时间】:2019-02-13 12:31:52
【问题描述】:
场景:
Blob存储:包含pdf、word、图片文件(约70个文件)
我使用默认字段和预定义技能通过 Azure 门户创建 Azure 搜索实例。
但是查询这些文件中的任何文本的结果都不是很好。我将内容和关键短语设置为可搜索和可检索的。我尝试使用 Lucene 分析器,但帮助不大。
主要担心的是,如果我在搜索资源管理器中输入一个字母,例如“u”,它会返回文件。据我了解,我的文件中没有这个词。那么它在做什么呢?
如何优化搜索?以及如何操纵结果?
我不是文档处理方面的专家。所以使用 blob 中的非结构化文档而不是 JSON 格式的文档。
另一件事,如何在索引中定义一些字段,比如说章节名称或标题名称,可以与 PDF 章节/标题名称相关?
请给我一些想法或一些示例链接。我正在使用 .net core 来开发它。
【问题讨论】:
-
您可以参考此article 来自定义 Azure 搜索字段。
-
Vivek,关于你的第一组关于编写不同搜索查询和操作结果的问题,请参考以下 3 个文档页面,其中应该有详细信息:docs.microsoft.com/en-us/azure/search/search-query-overviewdocs.microsoft.com/en-us/azure/search/query-lucene-syntaxdocs.microsoft.com/en-us/azure/search/…
-
官方文档中关于如何创建和定义索引字段的文档:docs.microsoft.com/en-us/azure/search/search-what-is-an-index
-
已经向您指出了所有这些链接,我只是好奇 - 您的应用程序的场景是什么?通过索引器提取文档,无法从 PDF 文件中“提取特定”内容(如章节名称和标题)。索引器一次性提取 PDF 的全部内容。你想用你的文档集做什么?这将帮助我提出一条前进的道路(如果存在的话)
标签: azure-cognitive-search azure-search-.net-sdk