【发布时间】:2017-06-02 08:27:43
【问题描述】:
我正在尝试计算特定术语在整个索引中出现的总次数(术语收集频率)。我试图通过使用术语向量来做到这一点,但这仅限于单个文档。即使在指定文档中存在术语的情况下,响应似乎也会在某个 doc_count(在 field_statistics 内)达到最大值,这让我怀疑它的准确性。
请求:
http://myip:9200/clinicaltrials/trial/AVmk-ky6XMskTDwIwpih/_termvectors?term_statistics=true
此处使用的文档 ID 是“AVmk-ky6XMskTDwIwpih”,尽管术语统计信息不应特定于文档。
回复:
这是我对其中一个领域的“癌症”一词的理解:
"cancer" : {
"doc_freq" : 5297,
"ttf" : 10587,
"term_freq" : 1,
"tokens" : [
{
"position" : 15,
"start_offset" : 115,
"end_offset" : 121
}
]
},
如果我合计所有字段的 ttf,我得到 18915。但是,“癌症”的实际总词频实际上是 542829。这让我相信它将 term_vector 统计信息限制在其中的文档子集索引。
这里的任何建议将不胜感激。
【问题讨论】:
-
你用的是什么elasticsearch版本?
标签: elasticsearch information-retrieval