【问题标题】:Finding duplicate cases, string-variable, SPSS查找重复案例,字符串变量,SPSS
【发布时间】:2017-06-16 08:54:58
【问题描述】:

作为 SPSS 上的小说,我正在努力寻找基于包含大约 33,000 个案例的数据集中的字符串变量的重复案例。

我有一个名为“nr”的变量,它应该是每个案例的唯一 ID。然而,事实证明,在某些情况下,输入的“nr”中可能有两个不同的值,唯一的区别是最后一个字符。导致一个案例显示为两个单独的行。

var "nr" 的结构如下: XX-XXXXXXX-X 或 X-XXXXXXX-X 即 2-7-1 个字符或 1-7-1 个字符。

我想整理除最后一个字符之外的所有“nr”等于另一种情况的情况。

为了说明,通过成功的语法,我希望能够从整个数据集中对这些情况进行分类:

20-4026988-2
20-4026988-3

5-4026992-5
5-4026992-8

20-4027281-2
20-4027281-3

有人知道如何为此制定语法吗?非常感谢您的任何意见!

【问题讨论】:

    标签: spss


    【解决方案1】:

    我建议创建一个没有最后一个字符的新变量,然后寻找双打:

    * first creating some sample data to play with.    
    data list list/ID (a15).
    begin data.
    20-4026988-2
    12-2345678-7
    20-4026988-3
    5-4026992-5
    5-4026992-8
    12-1234567-1
    20-4027281-2
    6-1234567-1
    20-4027281-3
    end data.
    
    * now creating the new variable and counting the occurrences of each shortened ID.
    string ShortID (a15).
    compute ShortID=char.substr(ID,1,char.rindex(ID,"-")).
    * also possible: compute ShortID=char.substr(ID,1,char.length(rtrim(ID))-1).
    aggregate out=* mode=add /break=ShortID/occurrences=n.
    
    * at this point you can filter based on the number or `occurrences` or sort them.
    sort cases by occurrences (d) ShortID.
    

    【讨论】:

      【解决方案2】:

      删除最后一个字符后,您可以使用数据 > 识别重复案例来查找重复项。它为此提供了许多有用的选项。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2021-02-22
        • 1970-01-01
        • 1970-01-01
        • 2020-02-12
        • 2017-08-26
        相关资源
        最近更新 更多