如何使用 neo4j 和 gremlin 处理大型数据集？答案

【问题标题】：how to handle large dataset using neo4j and gremlin?如何使用 neo4j 和 gremlin 处理大型数据集？
【发布时间】：2013-10-12 10:37:30
【问题描述】：

我有大约 8800 万个节点和 2 亿条边。我正在使用 Neo4j Db。我正在使用 Gremlin 使用批处理图。那么，是否建议使用 gremlin REPL 对该数据集使用 gremlin 查询。我的意思是避免超时或堆相关问题。

目前我们的范围是不将 faunus api 用于 hadoop map.reduce sructure。

我可以使用带有 gremlin 的简单 Neo4j Db 来处理这个问题吗？任何替代方案或解决方案？

【问题讨论】：

标签： neo4j gremlin

【解决方案1】：

我认为 Marko/Peter 在 gremlin-users 邮件列表中都给出了很好的答案：

https://groups.google.com/forum/#!topic/gremlin-users/w3xM4YJTA2I

我不确定我说的比他们说的多，但我会用我自己的话重复一下。答案很大程度上取决于您打算如何处理图表的性质以及图表本身的结构。如果您的工作负载是大量的本地遍历（即从某个顶点开始并从那里遍历）并且不期望有很多超级节点，那么 Gremlin 和 Neo4j 应该就可以了。给它很多内存，做一点neo4j specific tuning，你应该会很高兴。另一方面，如果您的遍历本质上更具全局性（即它们以 g.V 或 g.E 开头），您必须触摸整个图表才能进行计算，那么您将不太高兴。迭代数千万/亿个东西需要很长时间。

最终，您必须了解您面临的问题、您的用例、您的图形结构以及可用的图形数据库的优势/劣势，以决定您将如何处理该大小的图形。

【讨论】：

感谢斯蒂芬提供了很好的信息。目前正在研究这些概念（来自你们 3 个人）:)