【问题标题】:TTL file format - I have no idea what this isTTL 文件格式 - 我不知道这是什么
【发布时间】:2018-04-21 14:00:41
【问题描述】:

我有一个具有结构的文件,但我不知道它是什么格式,也不知道如何解析它。文件扩展名是ttl,但我以前从未遇到过。

文件中的某些行如下所示:

<http://data.europa.eu/esco/label/790ff9ed-c43b-435c-b6b3-6a4a6e8e8326>
    a                   skosxl:Label ;
    skosxl:literalForm  "gérer des opérations d’allègement"@fr .

<http://data.europa.eu/esco/label/98570af6-b237-4cdd-b555-98fe3de26ef8>
    a                   skosxl:Label ;
    esco:hasLabelRole   <http://data.europa.eu/esco/label-role/neutral> , <http://data.europa.eu/esco/label-role/male> , <http://data.europa.eu/esco/label-role/female> ;
    skosxl:literalForm  "particleboard machine technician"@en .

<http://data.europa.eu/esco/label/aaac5531-fc8d-40d5-bfb8-fc9ba741ac21>
    a                   skosxl:Label ;
    esco:hasLabelRole   "http://data.europa.eu/esco/label-role/female" , "http://data.europa.eu/esco/label-role/standard-female" ;
    skosxl:literalForm  "pracovnice denní péče o děti"@cs .

这样继续增加 400 MB。为某些(但不是所有)节点添加了附加属性。

这让我想起了某种形式的 XML,但我没有太多使用不同格式的经验。它看起来也可以作为图形建模。 您知道它是什么数据格式,以及如何在 python 中解析它吗?

【问题讨论】:

标签: json xml file graph turtle-rdf


【解决方案1】:

是的,@Phil 是正确的,它是用于存储 RDF 数据的海龟语法。

我建议您将其导入某种 RDF 存储,而不是尝试自己解析 400MB 以上。您可以使用GraphDBBlazegraphVirtuso 等等。搜索 RDF 商店应该提供许多其他选项。

然后您可以使用SPARQL 使用 Python RDFlib 查询 RDF 存储(类似于关系数据库的 SQL)。这是来自 RDFLib 的 example

【讨论】:

  • 考虑到它超过 400MB,我第二次将其加载到 RDF 存储中!
【解决方案2】:

这看起来像 turtle - 一种语义网络的数据描述语言。

:has 标签和 :label 是为定义为共享数据的两个不同语义库指定的(esco 和 skosxl 使用搜索引擎查找这些库应该没有太大问题,假设数据在语义网络中)。 :literal 形式可以被认为是 XML 标记中的值。

它们表示数据结构中的本体:

主题:10 谓词:名称 对象:约翰

对于python,将数据作为文件读取,将主题用作字典的键,将值放入数据库中,不清楚您要对数据做什么。

语义数据是开放的、不完整的,并且可能具有不寻常的复杂结构。上面的例子非常简单,上面链接的入门可能会有所帮助。

【讨论】:

  • 非常感谢您的回答,但我仍然不确定如何解析它。我尝试使用 ``` g = Graph() g.load(self.datapath) ``` 但由于数据格式不同,所以效果不佳。我也没有在文档中看到任何关于 .ttl 的内容。
  • nvm,刚刚找到如何打开它(我希望它还在加载中..)。如何解析各个值?我不太明白三元组的事情。
  • 我会尝试使用基于 url 的拆分 - data.europa.eu 将其用作唯一资源,然后拆分每个属性,将批次输入 python 数据结构。
猜你喜欢
  • 1970-01-01
  • 2015-05-31
  • 2019-08-09
  • 2011-03-22
  • 2021-12-08
  • 1970-01-01
  • 1970-01-01
  • 2016-07-11
  • 1970-01-01
相关资源
最近更新 更多