【问题标题】:XSLT 1.0: grouping and removing duplicateXSLT 1.0:分组和删除重复项
【发布时间】:2011-03-31 21:50:43
【问题描述】:

我有一个 xml 分组挑战,我需要对其进行分组并删除重复项,如下所示:

<Person>
<name>John</name>
<date>June12</date>
<workTime taskID=1>34</workTime>
<workTime taskID=1>35</workTime>
<workTime taskID=2>12</workTime>
</Person>
<Person>
<name>John</name>
<date>June13</date>
<workTime taskID=1>21</workTime>
<workTime taskID=2>11</workTime>
<workTime taskID=2>14</workTime>
</Person>

请注意,对于 name/taskID/date 的特定出现,仅选取第一个。 在这个例子中,

<workTime taskID=1>35</workTime> 
<workTime taskID=2>14</workTime> 

会被放在一边。

以下是预期的输出:

<Person>
<name>John</name>
<taskID>1</taskID>
<workTime>
<date>June12</date>
<time>34</time>
</worTime>
<workTime>
<date>June13</date>
<time>21</time>
</worTime>
</Person>
<Person>
<name>John</name>
<taskID>2</taskID>
<workTime>
<date>June12</date>
<time>12</time>
</worTime>
<workTime>
<date>June13</date>
<time>11</time>
</worTime>
</Person>

我尝试使用以下键在 XSLT 1.0 中使用 muenchian 分组:

<xsl:key name="PersonTasks" match="workTime" use="concat(@taskID, ../name)"/>

但是那我怎么只选择第一次出现的

concat(@taskID, ../name, ../date)

? 看来我需要两级钥匙!?

【问题讨论】:

  • 这个问题既有趣又困难(+1)。请参阅我的答案以获得有效且简短的解决方案。

标签: xslt muenchian-grouping


【解决方案1】:

这种转变

<xsl:stylesheet version="1.0"
 xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 <xsl:output omit-xml-declaration="yes" indent="yes"/>

 <xsl:key name="kwrkTimeByNameTask" match="workTime"
  use="concat(../name, '+', @taskID)"/>

 <xsl:key name="kDateByName" match="date"
  use="../name"/>

 <xsl:key name="kwrkTimeByNameTaskDate" match="workTime"
  use="concat(../name, '+', @taskID, '+', ../date)"/>

 <xsl:template match="/">
   <xsl:for-each select=
    "*/*/workTime
           [generate-id()
           =
            generate-id(key('kwrkTimeByNameTask',
                             concat(../name, '+', @taskID)
                            )[1]
                        )
           ]
    ">
      <xsl:sort select="../name"/>
      <xsl:sort select="@taskID" data-type="number"/>

      <xsl:variable name="vcurTaskId" select="@taskID"/>
      <Person>
        <name><xsl:value-of select="../name"/></name>
        <taskID><xsl:value-of select="@taskID"/></taskID>

          <xsl:for-each select=
           "key('kDateByName', ../name)
                  [key('kwrkTimeByNameTaskDate',
                       concat(../name, '+', current()/@taskID, '+', .)
                      )
                  ]
           ">
             <workTime>
               <date><xsl:value-of select="."/></date>
               <time>
                <xsl:value-of select=
                 "key('kwrkTimeByNameTaskDate',
                  concat(../name, '+', $vcurTaskId, '+', .)
                 )"/>
               </time>
             </workTime>
          </xsl:for-each>
      </Person>
   </xsl:for-each>
 </xsl:template>
</xsl:stylesheet>

在提供的 XML 上应用时(从多个问题更正为格式正确):

<t>
    <Person>
        <name>John</name>
        <date>June12</date>
        <workTime taskID="1">34</workTime>
        <workTime taskID="1">35</workTime>
        <workTime taskID="2">12</workTime>
    </Person>
    <Person>
        <name>John</name>
        <date>June13</date>
        <workTime taskID="1">21</workTime>
        <workTime taskID="2">11</workTime>
        <workTime taskID="2">14</workTime>
    </Person>
</t>

产生想要的正确结果

<Person>
   <name>John</name>
   <taskID>1</taskID>
   <workTime>
      <date>June12</date>
      <time>34</time>
   </workTime>
   <workTime>
      <date>June13</date>
      <time>21</time>
   </workTime>
</Person>
<Person>
   <name>John</name>
   <taskID>2</taskID>
   <workTime>
      <date>June12</date>
      <time>12</time>
   </workTime>
   <workTime>
      <date>June13</date>
      <time>11</time>
   </workTime>
</Person>

解释

  1. 首先,我们通过使用 Muenchian 方法进行分组,获得具有唯一一对 ../name@taskID 的所有 workTime 元素。

  2. 我们按../name@taskID 对这些内容进行排序 -- 按此顺序。

  3. 对于每一个这样的workTime,我们得到所有date 元素,这些元素与workTime../name 一起列出,只留下这些date 元素中的那些,其中有一个workTime 具有相同的../date../name

  4. 在上一步中,我们使用了两个不同的辅助键'kDateByName' 索引所有date 元素的../name,而'kwrkTimeByNameTaskDate' 索引所有workTime 元素他们的../name、他们的../date和他们的@taskID

所以,下面的意思:

          <xsl:for-each select=
           "key('kDateByName', ../name)
                  [key('kwrkTimeByNameTaskDate',
                       concat(../name, '+', current()/@taskID, '+', .)
                      )
                  ]
           ">

是:

对于每个 date 对于那个 name这样一个 workTime 对于那个 name, date @taskID (当前的 workTime 外部 &lt;xsl:for-each&gt;) 存在,请执行此 &lt;xsl:for-each&gt; 指令正文中的任何内容。

【讨论】:

  • 你能解释一下你的解决方案的设计吗?它看起来又短又漂亮,但我想尽可能多地从中学习。谢谢
  • @Daniel:我添加了解释。
  • 我想知道是否最好使用简单的 Muenchian 分组,然后检查前面的兄弟姐妹是否重复。这会是一个好的解决方案吗?
  • @Daniel:如果我们有钥匙的力量,那为什么还要回到兄弟姐妹的比较呢?
【解决方案2】:

XSLT 中的分组通常使用一种称为 Muenchian 方法的方法来完成。在此处查找更多数据:http://www.jenitennison.com/xslt/grouping/muenchian.html

【讨论】:

    【解决方案3】:

    只是为了好玩,另一种带有两个键的解决方案。这个样式表:

    <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
        <xsl:key name="kWorkTimeByName-TaskID" match="workTime" 
                  use="concat(../name,'++',@taskID)"/>
        <xsl:key name="kWorkTimeByName-Date-TaskID" match="workTime" 
                  use="concat(../name,'++',../date,'++',@taskID)"/>
        <xsl:template match="/">
            <xsl:variable name="vAllWorkTime" select="*/*/workTime"/>
            <result>
                <xsl:for-each select="$vAllWorkTime
                            [count(.|key('kWorkTimeByName-TaskID',
                                             concat(../name,'++',@taskID))[1])=1]">
                    <xsl:sort select="../name"/>
                    <xsl:sort select="@taskID" data-type="number"/>
                    <Person>
                        <xsl:copy-of select="../name"/>
                        <taskID>
                            <xsl:value-of select="@taskID"/>
                        </taskID>
                        <xsl:for-each select="$vAllWorkTime
                              [count(.|key('kWorkTimeByName-Date-TaskID',
                                   concat(current()/../name,'++',
                                       ../date,'++',current()/@taskID))[1])=1]">
                            <xsl:sort select="../date"/>
                            <xsl:copy>
                                <xsl:copy-of select="../date"/>
                                <time>
                                    <xsl:value-of select="."/>
                                </time>
                            </xsl:copy>
                        </xsl:for-each>
                    </Person>
                </xsl:for-each>
            </result>
        </xsl:template>
    </xsl:stylesheet>
    

    输出:

    <result>
        <Person>
            <name>John</name>
            <taskID>1</taskID>
            <workTime>
                <date>June12</date>
                <time>34</time>
            </workTime>
            <workTime>
                <date>June13</date>
                <time>21</time>
            </workTime>
        </Person>
        <Person>
            <name>John</name>
            <taskID>2</taskID>
            <workTime>
                <date>June12</date>
                <time>12</time>
            </workTime>
            <workTime>
                <date>June13</date>
                <time>11</time>
            </workTime>
        </Person>
    </result>
    

    【讨论】:

    • 我想知道是否最好使用简单的 Muenchian 分组,然后检查前面的兄弟姐妹是否重复。这会是一个好的解决方案吗?
    • concat中的'++'、'+'或none有什么区别?
    • @Daniel:关于分隔符字符串:它必须是一个不能在任何一个键中的字符串,所以把 Dimitre 评论主要当作一个笑话;)关于分组:你是按名称分组和任务,然后您按日期分组(因此键变为名称,任务和日期);如果您将所有节点用于最后一个当前组或仅使用第一个组,这对算法逻辑没有影响。
    猜你喜欢
    • 2015-08-03
    • 1970-01-01
    • 1970-01-01
    • 2011-07-01
    • 2019-08-10
    • 1970-01-01
    • 1970-01-01
    • 2021-11-20
    • 1970-01-01
    相关资源
    最近更新 更多