【问题标题】:Loading data into Titan database将数据加载到 Titan 数据库
【发布时间】:2014-07-11 03:44:09
【问题描述】:

我有一组平面文件形式的日志数据,我想从中形成一个图表(基于日志中的信息)并将其加载到 Titan 数据库中。此数据大小为几 GB。我正在探索批量加载选项 Faunus 和 BatchGraph(我在 https://github.com/thinkaurelius/titan/wiki/Bulk-Loading 中读到过)。制表符分隔的日志数据需要对文件的每一行进行一些处理,以形成我想到的图形节点和边。 Faunus/BatchGraph 会为这个用例服务吗?如果是,我的输入文件应该采用什么格式才能使这些工具正常工作?如果不是,那么使用 BluePrints API 是否可行?非常感谢您可以分享您的建议的任何资源,因为我是新手。谢谢!

【问题讨论】:

    标签: graph-databases titan faunus


    【解决方案1】:

    为了以简单的方式回答您的问题,我想您会想要使用Faunus 来加载您的数据。如果可能,我建议先使用外部工具清理和转换数据。制表符分隔是一种很好的格式,但是您准备这些文件的方式可能会影响加载性能(例如,有时以正确的方式简单地对数据进行排序可以大大提高速度。)

    更完整的答案在于这两个资源。他们应该可以帮助您决定方法:

    http://thinkaurelius.com/2014/05/29/powers-of-ten-part-i/ http://thinkaurelius.com/2014/06/02/powers-of-ten-part-ii/

    我会提供这个额外的建议 - 如果您是真正的新手,我建议您找到一些产生 100K 到 1M 边缘的数据片段。专注于简单地使用BatchGraph 或仅使用这些博客文章的第一部分中描述的 Blueprints API 加载它。通过查询这个小案例中的数据来稍微习惯 Gremlin。利用这段时间来开发验证已加载内容的方法。一旦您对所有这些感到满意,然后将其放大到完整尺寸。

    【讨论】:

    • 非常感谢!这很有帮助。我想知道是否有任何关于设置 Java 环境(例如 eclipse)以在 Titan 中进行开发的资源?如果这不是主题,我可以在单独的线程中问这个问题。
    猜你喜欢
    • 2013-11-23
    • 2015-12-30
    • 1970-01-01
    • 2016-08-29
    • 2016-05-15
    • 2017-08-14
    • 2018-05-16
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多