【发布时间】:2019-12-01 15:09:51
【问题描述】:
我有一个 4 个节点的集群,我安装了 Hadoop+ Spark (GraphX)...
现在我必须处理一个大的 RDF 数据集, 我的问题是:我可以在集群上安装 Virtuoso 以存储此 RDF 数据集并能够执行 SPARQL 分布式查询吗?
据您所知,我需要一个 Web 端点来允许用户放置他们的 SPARQL 查询。
换句话说:Virtuoso 是一个在 hadoop 集群中工作的好解决方案,并且可以使用 SPARK 执行分布式查询吗?
【问题讨论】:
-
我不知道 Virtuoso 是否有一些 Hadoop 适配器,但他们有自己的集群版本(我认为这主要是商业版)。问题也是“大 RDF 数据集”的含义? Virtuoso 开源单服务器版本也适用于大型数据集,就像 GraphDB 或 Stardog 等其他三重存储一样。
-
除此之外,Hadoop 或 Apache Spark 上的 SPARQL 有很多方法,只需使用您选择的搜索引擎即可找到它们。
-
好吧,Hadoop上RDF数据集的技术有很多。但我想用大师的力量
-
好吧,Hadoop上RDF数据集的技术有很多。但我想用大师的力量。你能给我推荐一个带有 SPARQL 端点的开源 RDF 存储吗?
-
有关您尝试做的事情的更多详细信息将有助于提供相关建议。既然你说你肯定想使用 Virtuoso,你可以考虑在OpenLink Community Forum 上提问——包括提供更多细节!
标签: apache-spark hadoop sparql rdf virtuoso