【发布时间】:2017-04-07 18:07:50
【问题描述】:
我不确定我是否正确理解了Term Vectors API。
文档开头说:
返回有关特定文档字段中术语的信息和统计信息。该文档可以存储在索引中,也可以由用户人工提供。默认情况下,词向量是实时的,而不是接近实时的。这可以通过将
realtime参数设置为false来改变。
我猜,这里的 term 指的是其他人称之为 token 的东西吗?还是 term 是在我们到达文档时定义的,而我错过了它?
然后文档继续说返回值包含三个部分:词条信息、词条统计信息和字段统计信息。我猜这意味着 term 信息和统计信息不是这个 API 返回的唯一内容,对吗?
然后词条信息包含一个名为payloads的字段,没有定义,我也不知道是什么意思。
然后在字段统计中,有文档频率的总和和总词频的总和,解释相当混乱:
将 field_statistics 设置为 false(默认为 true)将省略:
文档数(包含该字段的文档数)
文档频率总和(该字段中所有术语的文档频率总和)
总词频的总和(该字段中每个词的总词频之和)
我猜它们只是术语统计中报告的相应值的总和?
然后在 行为 部分中它说:
术语和字段统计信息不准确。不考虑已删除的文档。仅针对请求的文档所在的分片检索信息。因此,术语和字段统计信息仅用作相对度量,而绝对数字在此上下文中没有任何意义。默认情况下,当请求人工文档的术语向量时,会随机选择一个从中获取统计信息的分片。仅使用
routing来命中特定分片。
那么它是哪一个?实时与否?还是说词条信息是实时的,词条统计和字段统计只是对现实的近似?
【问题讨论】:
标签: elasticsearch