【问题标题】:Azure search Indexing data in Collection(Edm.String) attribute集合(Edm.String)属性中的 Azure 搜索索引数据
【发布时间】:2018-06-14 04:14:43
【问题描述】:

目前,我们正在使用 Bot 框架 SDK(问答场景)构建知识库机器人,我们在 Azure 搜索中对数据进行索引,索引的结构包含可搜索的 Edm.String (de.Microsoft) 属性,例如(纯文本、标题)和可搜索的 Collection(Edm.String) (de.Microsoft) 属性,例如(关键字、产品类别和共同问题)。

相互问题将由管理员通过自定义 UI 提供,所以我的问题是最好存储(索引)管理员提供的相互问题,或者最好在删除后索引相互问题停用词/干扰词?

正如您所知,将使用该机器人的最终用户不会使用与原样相同的索引问题,他们可能会以不同的差异来制定问题,我已经进行了一些手动测试,并且我发现场景越来越好当关键字被删除时,在其他情况下更糟,我只想了解当 Azure 搜索查询字符串数据类型列表的可搜索属性时发生了什么。

我在发送搜索请求时使用 searchMode: any 和 queryType: full词和删除它们之后。

示例 1

"MutualQuestions": [
    "Kann ich im Konto ein individuelles Entgelt anlegen, obwohl es im Produkt keines gibt?",
    "Ich möchte eine andere Zinsberechnungsmethode als im Produkt einstellen."
  ],
  "MutualQuestionsNoNoise": [
    "Konto individuelles Entgelt anlegen, Produkt",
    "Zinsberechnungsmethode Produkt einstellen."
  ]

示例 2

{
  "MutualQuestions": [
    "Wo binde ich Produkte auf der Internetseite ein?",
    "Wie binde ich Produkte in die Internetseite ein?"
  ],
  "MutualQuestionsNoNoise": [
    "binde Produkte Internetseite"
  ]
}

提前致谢

【问题讨论】:

    标签: azure azure-cognitive-search


    【解决方案1】:

    句子中只有关键短语可以提高搜索结果得分。如果用户搜索特定的关键字,那么只有这个关键字的字符串会有更好的分数。例如,如果您搜索 'weekend trip',那么句子 'awesome weekend trip' 的得分将高于 'very awesome weekend trip'。如果您使用的是language-specific analyzer,则该语言的停用词将在索引和搜索时自动删除。

    但是,正如您所指出的,这取决于用户如何制定他们的查询。

    How full text search works in Azure Search 很好地描述了不同的查询类型和搜索模式,以及两者对评分的影响。注意:字符串集合被视为与串联字符串相同。即:'awesome trip' 等价于 ['awesome', 'trip']。

    通常选择查询类型和搜索模式需要对代表性查询进行一些实验。对于您的情况,我会尝试消除“噪音”并使用 searchMode=any。在这种情况下,我认为 queryType 并不重要。但是,这取决于您的用户的先进程度。如果你想支持正则表达式等,那么 queryType=full 会更合适。

    【讨论】:

    • 感谢 @yahnoosh 和 Jacob,因此即使在使用 de.microsoft(不是英语分析器)时,也会删除停用词(在索引期间)和词形还原?如果是这种情况,那么我认为最好在索引时保持句子原样(不删除任何单词)以及在搜索时保持句子原样,对吧?
    • 是的,如果您使用分析器,您可以保持句子原样。
    • 这能回答你的问题吗?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-08-05
    • 2013-03-08
    • 2013-03-03
    • 1970-01-01
    • 2019-03-22
    • 1970-01-01
    • 2019-12-18
    相关资源
    最近更新 更多