【发布时间】:2019-03-18 15:30:08
【问题描述】:
我正在研究一个基于 dbpedia 的 RDF 数据集回答各种问题的聊天机器人的大学项目。 目前,聊天机器人非常具体,能够回答与漫威电影子域相关的问题。我的目标是概括,特别是通过使用 elasticsearch 索引 dbpedia 内容,然后尝试使用这些索引进行查询。
但是,我不了解 elasticsearch,也从未从事过索引工作。特别是,我很难理解如何预处理 dbpedia 数据集以及如何考虑索引。我想要一些关于要遵循的策略的建议。
非常感谢
【问题讨论】:
-
“但是,我不了解 elasticsearch,而且我从未从事过索引工作。” - 那么,现在呢?你不应该先阅读 ElasticSearch 吗?也不清楚您想要索引 DBpedia 数据集的哪一部分,也不清楚您想要在索引上运行什么样的查询。我的意思是,它是一个文本索引,所以很明显,你应该索引文本数据。包括我的研究小组在内的很多人都通过 Lucene 索引了 DBpedia 数据。但只是实体而不是关系。那么你为什么要使用 ElasticSearch 呢? RDF 数据在三重存储中建立索引,SPARQL 是 RDF 的查询语言
-
顺便说一句,你的问题显然很广泛......
-
@AKSW 嗨,我现在尝试更具体一些。我想我应该使用elasticsearch来索引dbpedia中的实体,并使用这些索引来执行命名实体链接和/或命名实体识别,从而识别用户问题中的dbpedia实体。我想知道在这种情况下我应该如何设置索引结构,例如索引中每个 json 文档应该具有的各种字段和属性。
标签: elasticsearch rdf dbpedia