【问题标题】:Graph databases vs. triple stores图数据库与三重存储
【发布时间】:2011-02-11 21:26:57
【问题描述】:

目前持久化类图结构的最佳选择是什么?图数据库(例如Neo4j)或RDF 三元存储(例如Virtuoso)?

例如,我们有以下用例:

  • 具有近 1000 万个节点的弱连接图(类似于合集中的一篇学术论文);
  • 非常罕见的更新;
  • 关键操作:检索特定子图、更新给定子图中的节点、更新某些节点后重新计算链接分析度量(例如 HITS 或 PageRank)。

还需要提供标准 API 来查询第三方应用程序(如 Facebook 或 Twitter)的数据。

【问题讨论】:

  • 顺便说一句。我特别喜欢 M.Dimitrov 在 Quora 上对同一问题的回答背后的推理:quora.com/…

标签: triplestore graph-databases


【解决方案1】:

使用 Virtuoso,您可以享受以下工作:

-- SPARQL、SQL、SPASQL(SPARQL inside SQL)和 SQL inside SPARQL 支持(例如,通过魔术/函数谓词/属性处理 N 元关系。

-- 可用作紧凑型引擎(例如,通过 KDE 桌面利用)或大型 DBMS,如通过实时 170 亿 Triples+ LOD 云缓存或较小的 DBpedia 实时实例演示。

-- 包括 SPARQL 中的全文索引和文本模式(通过 bif:contains)它还包括 XPath/Xquery(通过 xcontains)

-- 在处理属性图存储时,Acid 或 Non Acid 模式同上 Schema-Last

-- 通过转换中间件,它可以从 80 多个数据源(包括 REST API、SOAP 服务、超媒体资源、ODBC 或 JDBC 可访问的关系数据源等)中提取数据并转换为瞬态或持久链接数据图

-- 关联数据发布是自动的,即,在创建 DBMS 记录后,您有内置的关联数据页面,作为 DBMS 的视图。没有搞乱重新。 URL 重写规则、303 重定向或类似的东西。 InterWeb 规模的超级密钥可以正常工作!

现在就是这样:-)

【讨论】:

    【解决方案2】:

    对于水平规模(因此是中小型数据库),neo4j 等图形数据库目前将为图形遍历提供更好的性能。 Triplestores正在迎头赶上。与图数据库相比,Triple Store 的一大优势在于数据转储和查询语言是标准化的,这意味着它更容易迁移到其他产品并防止供应商锁定。

    【讨论】:

    • 请您提供此类性能比较的链接吗?他们都报告了自己处理数十亿个对象的能力。
    • 不,我不能提供这样的链接。 Afaik 没有基准可以跨越适当的图形数据库和三重存储之间的界限。在最新的 BSBM 基准 (www4.wiwiss.fu-berlin.de/bizer/BerlinSPARQLBenchmark/results/V6/…) 之后,各个制造商的 cmets 表明,在三重商店之间进行基准测试已经够难的了。在下一条评论中继续...
    • 我们在两个 quadstore 和 Neo4j 之间对 OpenSahara 进行了一些内部基准测试,发现 Neo4j 在几乎所有图形行走算法中都更快,但还是决定使用 quadstore。不过,我不打算发布这些基准,因为它们实际上只对我们拥有的数据类型、我们认为我们当时将使用的图形算法、一个特定数据集的大小和性质以及所有设置有用以及我们没有对任何这些数据库进行的调整。
    猜你喜欢
    • 2015-07-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-04-07
    • 2015-12-31
    • 2013-02-20
    • 1970-01-01
    相关资源
    最近更新 更多