【问题标题】:BaseX: Slow XQueryBaseX:慢 XQuery
【发布时间】:2014-09-03 07:39:13
【问题描述】:

我有一个包含大约 20 个 XML 文件的 BaseX XML 数据库。这些文件的大小和结构不同。最大的文件有 524 MB。它由一个父 ARTICLE 标签和 267685 个 ART 子标签组成。

这是我的 XQuery:“/ARTICLE/ART[PRDNO=12345]”(非常简单;为清楚起见,省略了适当的名称空间)。 PRDNO 是 PRODUCT/PRD XML 结构的外键,每篇文章有多个(平均约 10 个)产品。

一切都按预期进行,但是这个查询很慢 - 执行大约需要 1 秒。对数据库中其他对象(数据量较小)的类似查询要快得多。

我可以做些什么来优化这个查询?

我运行了“优化”(花了几分钟时间),我确保 TEXT 索引就位。

这是“信息数据库”的输出:

> info database
Database Properties
 Name: hospindex
 Size: 1740 MB
 Nodes: 69360063
 Documents: 22
 Binaries: 0
 Timestamp: 2014-09-03-09-34-07

Resource Properties
 Timestamp: 2014-09-03-09-21-14
 Encoding: UTF-8
 CHOP: true

Indexes
 Up-to-date: true
 TEXTINDEX: true
 ATTRINDEX: true
 FTINDEX: false
 LANGUAGE: English
 STEMMING: false
 CASESENS: false
 DIACRITICS: false
 STOPWORDS:
 UPDINDEX: false
 MAXCATS: 100
 MAXLEN: 96

编辑:这是查询执行计划:

Compiling:
- adding text() step
Query:
/*:ARTICLE/*:ART[*:PRDNO=1005935]
Optimized Query:
(db:open-pre("hospindex",0), db:open-pre("hospindex",32884731), ...)/*:ARTICLE/*:ART[(*:PRDNO/text() = 1005935)]
Result:
- Hit(s): 1 Item
- Updated: 0 Items
- Printed: 2078 Bytes
- Read Locking: local [hospindex]
- Write Locking: none
Timing:
- Parsing: 1.12 ms
- Compiling: 0.46 ms
- Evaluating: 1684.35 ms
- Printing: 0.35 ms
- Total Time: 1686.3 ms
Query plan:
<QueryPlan>
  <IterPath>
    <DBNodeSeq size="22">
      <DBNode name="hospindex" pre="0"/>
      <DBNode name="hospindex" pre="32884731"/>
      <DBNode name="hospindex" pre="33685448"/>
      <DBNode name="hospindex" pre="38260847"/>
      <DBNode name="hospindex" pre="38358876"/>
    </DBNodeSeq>
    <IterStep axis="child" test="*:ARTICLE"/>
    <IterStep axis="child" test="*:ART">
      <CmpG op="=">
        <CachedPath>
          <IterStep axis="child" test="*:PRDNO"/>
          <IterStep axis="child" test="text()"/>
        </CachedPath>
        <Int value="1005935" type="xs:integer"/>
      </CmpG>
    </IterStep>
  </IterPath>
</QueryPlan>

【问题讨论】:

  • 好吧,我可以使用另一个 XML 数据库,甚至是关系数据库;但我喜欢 BaseX 因为它的简单性并愿意坚持下去。
  • 属性索引已激活,应该没问题。你也可以转储查询计划吗?它始终显示在 GUI 中,并且可以在命令行中使用 QUERYINFO option 激活。

标签: xquery basex


【解决方案1】:

在您的搜索值周围使用引号时,您的查询将被更快地评估:

/ARTICLE/ART[PRDNO = "12345"]

原因是当前版本的BaseX没有提供数值索引(可能包含在BaseX 8.0中)。

通过打开QUERYINFO 选项,您可以更深入地了解查询编译步骤。

【讨论】:

  • 我看到你刚刚添加了关于查询编译的信息。
  • 非常感谢!初学者的错误。
猜你喜欢
  • 2023-03-18
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-01-19
  • 1970-01-01
  • 2020-10-20
  • 1970-01-01
相关资源
最近更新 更多