【问题标题】:How to link Virtuoso distributed version to Hadoop如何将 Virtuoso 分布式版本链接到 Hadoop
【发布时间】:2019-12-01 15:09:51
【问题描述】:

我有一个 4 个节点的集群,我安装了 Hadoop+ Spark (GraphX)...

现在我必须处理一个大的 RDF 数据集, 我的问题是:我可以在集群上安装 Virtuoso 以存储此 RDF 数据集并能够执行 SPARQL 分布式查询吗?

据您所知,我需要一个 Web 端点来允许用户放置他们的 SPARQL 查询。

换句话说:Virtuoso 是一个在 hadoop 集群中工作的好解决方案,并且可以使用 SPARK 执行分布式查询吗?

【问题讨论】:

  • 我不知道 Virtuoso 是否有一些 Hadoop 适配器,但他们有自己的集群版本(我认为这主要是商业版)。问题也是“大 RDF 数据集”的含义? Virtuoso 开源单服务器版本也适用于大型数据集,就像 GraphDB 或 Stardog 等其他三重存储一样。
  • 除此之外,Hadoop 或 Apache Spark 上的 SPARQL 有很多方法,只需使用您选择的搜索引擎即可找到它们。
  • 好吧,Hadoop上RDF数据集的技术有很多。但我想用大师的力量
  • 好吧,Hadoop上RDF数据集的技术有很多。但我想用大师的力量。你能给我推荐一个带有 SPARQL 端点的开源 RDF 存储吗?
  • 有关您尝试做的事情的更多详细信息将有助于提供相关建议。既然你说你肯定想使用 Virtuoso,你可以考虑在OpenLink Community Forum 上提问——包括提供更多细节!

标签: apache-spark hadoop sparql rdf virtuoso


【解决方案1】:

Apache Spark website表示Spark SQL可用于跨JDBC和JSON数据源的查询--

DataFrames 和 SQL 提供了一种访问各种数据源的通用方法,包括 Hive、Avro、Parquet、ORC、JSON 和 JDBC。您甚至可以跨这些来源连接数据。

Virtuoso(开源版和企业版)可以将 SPARQL 结果作为 JSON 序列化交付,因此这是一种选择。

我们 (OpenLink Software) 还为 Virtuoso 提供 JDBC 驱动程序(同样,开源版和企业版),所以这也是一种选择。

我们不是 Apache Spark 专家,因此除了协助 Virtuoso JDBC URL 和/或在 JSON 序列化中检索 SPARQL 查询结果之外,我们无法为这些工作提供太多指导。


另一方面,Virtuoso(企业版;非开源版)可用于查询外部 ODBC 数据源,并且有 ODBC 驱动程序可用于 Hadoop/SPARK 数据源,因此这也是一种选择。

我们不是 Apache Spark 专家,因此我们无法为他们的驱动程序正常工作提供太多指导,但是一旦您在 Virtuoso 主机上拥有一个功能正常的 ODBC DSN,我们就可以帮助您连接 Virtuoso 并对其进行查询。

【讨论】:

    【解决方案2】:

    您是否正在寻求使用 SPARK 作业从 Hadoop 集群上传 RDF 数据集?如果是这样,您可以使用 JDBC 和与 Virtuoso 的连接。

    我偶然发现了一个 Dzone doc that covers SPARK and JDBC,它曾经了解您可以通过处理 SPARQL queries via SQL connections 的能力申请 Virtuoso。

    希望对你有帮助,如果没有,我们可以进一步讨论。

    【讨论】:

      猜你喜欢
      • 2015-08-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-03-12
      • 2013-07-16
      • 2020-08-27
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多