【问题标题】:Removing non-numbers from a string in SPSS在SPSS中从字符串中删除非数字
【发布时间】:2021-03-03 02:14:40
【问题描述】:

考虑以下数据:

如您所见,变量的值本质上是数字,但其中一些包含文本。我已经尝试了我能想到的所有排列 do repeat...end repeat 尝试删除非数字值并只留下数字,但没有成功。

是否有一些语法可以做到这一点? 是否有一个函数可以检查 substr 是否包含任何一组字符?然后我可以创建一个代表所有数字的集合,遍历字符串中的每个字符,如果它不在集合中,则将其替换为 null。

【问题讨论】:

  • 如果@horace_vr 的回答解决了您的问题,请选择它作为解决方案(点击回答左侧的V按钮),也欢迎您也点赞。

标签: string replace spss


【解决方案1】:

IBM 支持上的这个答案回答了一个有点类似的问题: https://www.ibm.com/support/pages/removing-unwanted-characters-strings

您将需要搜索更多字符(整个 a-z、A-Z 以及可能还有一些非字母字符),但应该可以。 如果您使用的是 SPSS 223 或更新版本,您可能还想使用更新的 CHAR.INDEXCHAR.REPLACE 函数;请参阅有关它们的官方 IBM SPSS 文档: https://www.ibm.com/support/knowledgecenter/en/SSLVMB_23.0.0/spss/base/syn_transformation_expressions_string_functions.html

后期编辑(经过 OP 的澄清和建议:

在 IBM 示例中您需要调整的是 2 件事:

  1. 在 k 次迭代后对循环退出进行硬编码(而不是在 #I=0 时 - 它将在它没有找到的第一个字符处停止)。在下面的示例中,k 设置为 100。

  2. 指定要删除的所有字符:a 到 z、空格、引号(作为 2 个连续的引号)等;任何你认为你可能想要清理的东西。那么这应该可以工作(实际上是stackoverflow,格式化目前似乎无法正常工作)

    计算 x=LOWER(x)。

    LOOP k=1 到 CHAR.LENGTH(x)。

    计算 #I = CHAR.INDEX(X,'abcdefghijklmnopqrstuvwxyz+, ''',1)。

    IF #I > 0 X=CONCAT(CHAR.SUBSTR(X,1,#I-1), CHAR.SUBSTR(X,#I+1))。

    结束循环。

    执行。

【讨论】:

  • 运行以下代码(varname 更改为 x)会产生以下输出(对格式表示歉意。我遵循了 Comment Markdown 的规则,但它不起作用):计算 x=lower(x )。字符串 orig_x (a35)。计算 orig_x=x。执行。环形 。计算 #I = CHAR.INDEX(X,'abcdefghijklmnop+,',1) 。如果 #I > 0 X=CONCAT(CHAR.SUBSTR(X,1,#I-1),CHAR.SUBSTR(X,#I+1))。如果 #I=0 则结束循环。执行。 3000 ut 2500 ss t 700 1500 r r 25000 1900 't w ut t ut 2000 250 s
  • 澄清:它只是删除列出的一些字符。比如约2500变成ut 2500。
  • 我添加了更多关于您需要更改 IBM 语法的细节;该代码对我有用
  • 我使用 LOOP k=1 到 CHAR.LENGTH(x)。但否则你的代码完全正确。做到了!
  • 确实,不错!没想到!我将其包含在答案中;如果答案解决了您的问题,请将其标记为“已接受”答案,以便其他人知道,以防遇到同样的问题
猜你喜欢
  • 2013-06-24
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多