【发布时间】:2020-12-21 10:37:05
【问题描述】:
在我的 solr 数据库中,我的结构如下所示: 代表人名的父文档(字典)。这些父文档还包含嵌套的子文档,其中出现与这些人的姓名匹配的文档(字典的嵌套列表)。
当我尝试以一种有意义的方式对信息进行聚类时,我只能直接对子文档进行聚类,这会产生一堆属于这些文本的聚类关键字。
理想情况下,我想根据嵌套子文档的相似性对人(父文档)进行聚类。因此,我不想将文本中的关键词聚集在一起,而是将具有相似内容的人的名字聚集在一起。
例如如果 Bob、John、Lewis 个人资料都有包含文本“我们精通 Python”的子文档;和 Dan、Maria、Chris 个人资料的子文档包含文本“我们精通 Java”。我想要一组 (Bob, John, Lewis) 和一组 (Dan, Maria, Chris)。所以,当我们点击第一个集群时,我们得到的结果是“我们精通 Python”,而对于第二个集群,我们得到的结果是“我们精通 Java”。
有没有办法在胡萝卜工作台上重现这样的结构?
【问题讨论】:
标签: search solr cluster-analysis parent-child carrot2