【问题标题】:How to extract Freebase Data Dump for a particular domains?如何为特定域提取 Freebase 数据转储?
【发布时间】:2015-12-08 09:54:23
【问题描述】:

我不想下载 250G 的 freebase 数据转储。我不需要这么大的数据。我想提取数据的一小部分(一个小域)。这个小子集将使我的迭代更快、更容易。

谁能解决我的问题?

【问题讨论】:

  • 你威胁你只想要一些行数
  • 域数据(如电影或音乐)
  • 我想用一个特殊领域的数据来开发一个可视化的工具,这个工具可以帮助人们找到特殊领域的信息。这是我的毕业论文。

标签: dns freebase


【解决方案1】:

夏季最新(也是最后一次)Freebase 转储低于 30GB,而不是 250GB。大多数计算机处理压缩数据比处理未压缩数据更快,因此您应该在处理之前将其保持压缩状态。

zgrep 是过滤特定模式的文本文件的好方法。如果你想变得花哨,你可以使用一个小程序来解压数据并搜索符合你条件的主题实体。

转储文件按主题顺序排序,因此给定主题的所有谓词都是相邻的,从而简化了处理过程(您只需要缓冲少量数据,同时决定是否在过滤的子集中包含特定主题)。

【讨论】:

    猜你喜欢
    • 2013-05-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-09-12
    • 2013-01-13
    • 1970-01-01
    相关资源
    最近更新 更多