【问题标题】:Freebase - how to use the freebase-rdf-latest?Freebase - 如何使用 freebase-rdf-latest?
【发布时间】:2015-04-01 19:55:27
【问题描述】:

我从 freebase.com 下载了 freebase-rdf-latest。我解压缩它,现在我有一个 380.7Gb 的文件。 我怎样才能读取这些数据?你推荐我哪个程序? 感谢您的帮助!

【问题讨论】:

  • 产品推荐不在此处。
  • @SabreTooth mariana 不是在寻求“产品推荐”,而是在寻求实现目标的最佳方式。为什么这对你来说是个问题?

标签: freebase


【解决方案1】:

我不同意@Nandana 的观点,并说您绝对应该将其加载到三重存储中以用于大多数用途。其中有大量冗余,即使没有冗余,通常您也只对其中的一小部分感兴趣。

此外,对于大多数应用程序,您可能希望将文件保持为压缩状态。您可能可以比从文件系统读取未压缩版本更快地解压缩它。如果您需要将其拆分以便在 MapReduce 环境中进行处理,则该文件是(或至少曾经是)一系列串联的压缩文件,无需解压缩即可拆分。

Nandana 对考虑衍生数据产品有一个很好的建议。要考虑的权衡是它们的更新频率以及它们的过滤/提取管道的透明度。

对于简单的任务,您可以使用 zgrep、cut 和相关的 Unix 命令行工具获得最新数据。

【讨论】:

  • 投反对票的人是否愿意添加评论,说明为什么答案被认为没有帮助或不切题?
  • 确实很有帮助。谢谢你们。我需要 15 声望才能投票给答案。
  • "你解压缩它的速度可能比从文件系统读取未压缩版本的速度要快。" - 关键点,谢谢!
【解决方案2】:

您必须将数据加载到三重存储,例如Virtuoso。您可以在以下引用中查看如何加载数据。

但是,您可能对提供预加载到三重存储中的清理版 freebase 的其他项目感兴趣。

SindiceTech Freebase distribution Freebase 数据可用于 完整下载,但就像今天一样,“作为一个整体”使用它几乎是简单的。 SindiceTech Freebase 发行版通过提供所有 预加载在 RDF 特定数据库中的 Freebase 知识(也称为 Triplestore)并配备了一套工具,使其更容易 组合查询并理解整个数据。

:BaseKB :BaseKB 是一个衍生自 Freebase 的 RDF 知识库, 谷歌知识图谱的主要来源; :BaseKB 包含大约 事实是 Freebase 转储的一半,因为它删除了琐碎的信息, 格式错误和重复的事实,使处理变得困难。这 最新版本的 :BaseKB Gold 可以通过 BitTorrent 下载, 或者,如果您希望对其运行 SPARQL 查询,您可以在 AWS 云,预加载到 OpenLink Virtuoso 7 中。

【讨论】:

  • 谢谢!你帮了大忙!
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多