【问题标题】:Apache Jena Getting "ERROR riot" processing elementApache Jena 获取“ERROR riot”处理元素
【发布时间】:2014-01-04 02:42:09
【问题描述】:

我在这里有一个 RDF 文件:rdf.rdf,其中包含 35696 条记录。我正在尝试使用 Jena 处理它:

./bin/sparql --data=/tmp/rdf.rdf --query=./basic.query

但我得到了:

21:25:27 ERROR riot                 :: Element type "j.0:target" must be followed by either attribute specifications, ">" or "/>".
Failed to load data

我相信这个问题是一个特定的记录,但我不知道是哪一个,有没有人有办法检查这个或一个命令来产生一个问题的行号?

【问题讨论】:

    标签: rdf jena


    【解决方案1】:

    问题在于数据不是 RDF/XML(甚至是 XML)

    输入的最大问题是它不是合法的 RDF/XML,甚至是合法的 XML。有许多行包含格式错误的字符串,例如,

    $ grep '""' rdf.rdf
    <j.0:target rdf:resource="urn:evitakarina""/>
    <j.0:target rdf:resource="urn:MiaWaluyo""/>
    <j.0:target rdf:resource="urn:AnggaMOB""/>
    …
    

    实体也存在一些问题,或者更确切地说,与符号出现的地方不是实体。例如:

    $ grep "&" rdf-without-quotes.rdf 
    <j.0:target rdf:resource="urn:HERUWA--&gty"/>
    <j.0:target rdf:resource="urn:PiniiPin&andreasbimoo"/>
    

    如果用&amp;amp; 替换其中的每一个,你会走得更远一些(尽管&amp;gt 应该是&gt;?),但仍有 问题.之后,您可能会追查到:

    <j.0:target rdf:resource="urn:cordeliabuvaledesilvaa"jajajajajajajajaja"/>
    

    不幸的是,我不知道有什么方法可以更好地获取有关行号的调试信息。由于这个(不完全是)RDF/XML 文档的结构如此规则,因此将其切成两半以缩小问题范围并不难,并且根据经验,这些事情通常是由某些不良字符引起的它不应该在哪里,这就是我一直在寻找(并找到)的地方。

    生成更好的数据

    如果您对数据有任何控制权(例如,如果您正在生成数据),我强烈建议您考虑使用 RDF API(例如 Jena)生成数据,以便从任何原始输入数据是,而不是将其混入一些基于文本的模板中。这可能会给你最好的输出。否则,您只需要对必须是 URL 的 URL 编码更加小心。大多数语言都包含一些用于处理该问题的标准库功能。

    使用 Jena 并不太难做到这一点。我建议尝试重建一个包含有问题的数据的最小模型。这是从您的数据中提取的一个小样本(但它是一个完整的 RDF/XML 文档(或者如果不是因为上面讨论的问题的话)):

    <?xml version="1.0" encoding="iso-8859-1" ?>
    <rdf:RDF
      xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
      xmlns:j.0="urn:" >
    <rdf:Description rdf:about="urn:communication243">
        <j.0:hour rdf:datatype="http://www.w3.org/2001/XMLSchema#long">20120219</j.0:hour>
        <j.0:minute rdf:datatype="http://www.w3.org/2001/XMLSchema#long">2012021910</j.0:minute>
        <j.0:source rdf:resource="urn:wirojericko"/>
        <j.0:target rdf:resource="urn:evitakarina""/>
    </rdf:Description>
    <rdf:Description rdf:about="urn:communication4574">
        <j.0:hour rdf:datatype="http://www.w3.org/2001/XMLSchema#long">20120304</j.0:hour>
        <j.0:minute rdf:datatype="http://www.w3.org/2001/XMLSchema#long">2012030406</j.0:minute>
        <j.0:source rdf:resource="urn:renomaximuz"/>
        <j.0:target rdf:resource="urn:HERUWA--&gty"/>
    </rdf:Description>
    </rdf:RDF>
    

    我们可以使用 Jena 和以下代码重新创建它。我将这些值存储在 Object[][] 数组中,这样我们甚至可以模拟对原始输入数据的迭代。

    import com.hp.hpl.jena.rdf.model.Model;
    import com.hp.hpl.jena.rdf.model.ModelFactory;
    import com.hp.hpl.jena.rdf.model.Property;
    import com.hp.hpl.jena.rdf.model.Resource;
    
    public class RecreateRDFExample {
        public static void main(String[] args) {
            final String NS = "urn:";
            final Model model = ModelFactory.createDefaultModel();
            final Object[][] data = {
                    { 243, 20120219L, 2012021910L, "wirojericko", "evitakarina\"" }, 
                    { 4574, 20120304L, 2012030406L, "renomaximuz", "HERUWA--&gty" }
            };
    
            final Property hour = model.createProperty( NS+"hour" );
            final Property minute = model.createProperty( NS+"minute" );
            final Property source = model.createProperty( NS+"source" );
            final Property target = model.createProperty( NS+"target" );
    
            for ( Object[] communication : data ) { 
                final Resource com = model.createResource( NS + "communication" + communication[0] );
                com.addLiteral( hour, (long) communication[1] ); 
                com.addLiteral( minute, (long) communication[2] ); 
                com.addProperty( source, model.createResource( NS+communication[3] ));
                com.addProperty( target, model.createResource( NS+communication[4] ));
            }
    
            model.write( System.out );
        }
    }
    

    输出正是我们所希望的; IRI 已使用 &amp;quot;&amp;amp; 进行适当编码。

    <rdf:RDF
        xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
        xmlns:j.0="urn:" > 
      <rdf:Description rdf:about="urn:communication243">
        <j.0:target rdf:resource="urn:evitakarina&quot;"/>
        <j.0:source rdf:resource="urn:wirojericko"/>
        <j.0:minute rdf:datatype="http://www.w3.org/2001/XMLSchema#long">2012021910</j.0:minute>
        <j.0:hour rdf:datatype="http://www.w3.org/2001/XMLSchema#long">20120219</j.0:hour>
      </rdf:Description>
      <rdf:Description rdf:about="urn:communication4574">
        <j.0:target rdf:resource="urn:HERUWA--&amp;gty"/>
        <j.0:source rdf:resource="urn:renomaximuz"/>
        <j.0:minute rdf:datatype="http://www.w3.org/2001/XMLSchema#long">2012030406</j.0:minute>
        <j.0:hour rdf:datatype="http://www.w3.org/2001/XMLSchema#long">20120304</j.0:hour>
      </rdf:Description>
    </rdf:RDF>
    

    【讨论】:

    • 谢谢!不幸的是,我无法控制这些数据,但我以后会的。我相信数据是用 CSV2RDF 编码的,但我不确定。
    • 请注意,Model.addLiteral(Resource,Property,Object) 已弃用。解决方法(如果真的可以这么称呼的话)是与underlying implementation 做同样的事情,并在使用Model.createTypedLiteral(Object) 处理第三个参数后调用Model.addLiteral(Resource,Property,Literal)。无论哪种情况,Jena 都会处理正确的转义
    • @RobHall 好收获! ModelCon.addLiteral(Resource,Property,Object) 已弃用(ModelModelCon 继承它),但ModelCon.addLiteral(Resource,Property,long) 不是(对于采用原语的其他版本也是如此),所以我认为实际上可以使用com.addLiteral( hour, (long) communication[1] ); , 对?我会更新代码。
    • @JoshuaTaylor 你说得对。在这一点上,我要对 secumind 提出的唯一建议是,创建一个为您的域处理 URI 创建的实用程序而不是在您创建资源时执行它会很方便(约书亚知道这一点;他只是在确保示例具有高度可读性方面很棒,而且我所建议的对于示例代码来说并不是很好)。基本原理是维护使用这些类型约定的中心位置的代码要容易得多。 (我通常什至为这些东西创建一个Conventions.java 类)。
    • @RobHall 我制作了 python 实用程序来制作我自己的 URI。一如既往地感谢您的建议。
    猜你喜欢
    • 2021-05-17
    • 1970-01-01
    • 1970-01-01
    • 2020-09-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-05-30
    • 1970-01-01
    相关资源
    最近更新 更多