将数据加载到 Titan 数据库答案

【问题标题】：Loading data into Titan database将数据加载到 Titan 数据库
【发布时间】：2014-07-11 03:44:09
【问题描述】：

我有一组平面文件形式的日志数据，我想从中形成一个图表（基于日志中的信息）并将其加载到 Titan 数据库中。此数据大小为几 GB。我正在探索批量加载选项 Faunus 和 BatchGraph（我在 https://github.com/thinkaurelius/titan/wiki/Bulk-Loading 中读到过）。制表符分隔的日志数据需要对文件的每一行进行一些处理，以形成我想到的图形节点和边。 Faunus/BatchGraph 会为这个用例服务吗？如果是，我的输入文件应该采用什么格式才能使这些工具正常工作？如果不是，那么使用 BluePrints API 是否可行？非常感谢您可以分享您的建议的任何资源，因为我是新手。谢谢！

【问题讨论】：

标签： graph-databases titan faunus

【解决方案1】：

为了以简单的方式回答您的问题，我想您会想要使用Faunus 来加载您的数据。如果可能，我建议先使用外部工具清理和转换数据。制表符分隔是一种很好的格式，但是您准备这些文件的方式可能会影响加载性能（例如，有时以正确的方式简单地对数据进行排序可以大大提高速度。）

更完整的答案在于这两个资源。他们应该可以帮助您决定方法：

http://thinkaurelius.com/2014/05/29/powers-of-ten-part-i/ http://thinkaurelius.com/2014/06/02/powers-of-ten-part-ii/

我会提供这个额外的建议 - 如果您是真正的新手，我建议您找到一些产生 100K 到 1M 边缘的数据片段。专注于简单地使用BatchGraph 或仅使用这些博客文章的第一部分中描述的 Blueprints API 加载它。通过查询这个小案例中的数据来稍微习惯 Gremlin。利用这段时间来开发验证已加载内容的方法。一旦您对所有这些感到满意，然后将其放大到完整尺寸。

【讨论】：

非常感谢！这很有帮助。我想知道是否有任何关于设置 Java 环境（例如 eclipse）以在 Titan 中进行开发的资源？如果这不是主题，我可以在单独的线程中问这个问题。