如何将 Virtuoso 分布式版本链接到 Hadoop答案

【问题标题】：How to link Virtuoso distributed version to Hadoop如何将 Virtuoso 分布式版本链接到 Hadoop
【发布时间】：2019-12-01 15:09:51
【问题描述】：

我有一个 4 个节点的集群，我安装了 Hadoop+ Spark (GraphX)...

现在我必须处理一个大的 RDF 数据集，我的问题是：我可以在集群上安装 Virtuoso 以存储此 RDF 数据集并能够执行 SPARQL 分布式查询吗？

据您所知，我需要一个 Web 端点来允许用户放置他们的 SPARQL 查询。

换句话说：Virtuoso 是一个在 hadoop 集群中工作的好解决方案，并且可以使用 SPARK 执行分布式查询吗？

【问题讨论】：

我不知道 Virtuoso 是否有一些 Hadoop 适配器，但他们有自己的集群版本（我认为这主要是商业版）。问题也是“大 RDF 数据集”的含义？ Virtuoso 开源单服务器版本也适用于大型数据集，就像 GraphDB 或 Stardog 等其他三重存储一样。
除此之外，Hadoop 或 Apache Spark 上的 SPARQL 有很多方法，只需使用您选择的搜索引擎即可找到它们。
好吧，Hadoop上RDF数据集的技术有很多。但我想用大师的力量
好吧，Hadoop上RDF数据集的技术有很多。但我想用大师的力量。你能给我推荐一个带有 SPARQL 端点的开源 RDF 存储吗？
有关您尝试做的事情的更多详细信息将有助于提供相关建议。既然你说你肯定想使用 Virtuoso，你可以考虑在OpenLink Community Forum 上提问——包括提供更多细节！

【解决方案1】：

Apache Spark website表示Spark SQL可用于跨JDBC和JSON数据源的查询--

DataFrames 和 SQL 提供了一种访问各种数据源的通用方法，包括 Hive、Avro、Parquet、ORC、JSON 和 JDBC。您甚至可以跨这些来源连接数据。

Virtuoso（开源版和企业版）可以将 SPARQL 结果作为 JSON 序列化交付，因此这是一种选择。

我们 (OpenLink Software) 还为 Virtuoso 提供 JDBC 驱动程序（同样，开源版和企业版），所以这也是一种选择。

我们不是 Apache Spark 专家，因此除了协助 Virtuoso JDBC URL 和/或在 JSON 序列化中检索 SPARQL 查询结果之外，我们无法为这些工作提供太多指导。

另一方面，Virtuoso（企业版；非开源版）可用于查询外部 ODBC 数据源，并且有 ODBC 驱动程序可用于 Hadoop/SPARK 数据源，因此这也是一种选择。

我们不是 Apache Spark 专家，因此我们无法为他们的驱动程序正常工作提供太多指导，但是一旦您在 Virtuoso 主机上拥有一个功能正常的 ODBC DSN，我们就可以帮助您连接 Virtuoso 并对其进行查询。

【讨论】：

【解决方案2】：

您是否正在寻求使用 SPARK 作业从 Hadoop 集群上传 RDF 数据集？如果是这样，您可以使用 JDBC 和与 Virtuoso 的连接。

我偶然发现了一个 Dzone doc that covers SPARK and JDBC，它曾经了解您可以通过处理 SPARQL queries via SQL connections 的能力申请 Virtuoso。

希望对你有帮助，如果没有，我们可以进一步讨论。

【讨论】：