【发布时间】:2015-07-14 07:10:51
【问题描述】:
我有一个杂乱无章的数据集,其中包含数百个经理姓名,有些带有中间名缩写,有些则没有(这增加了唯一经理姓名的数量以及由经理姓名运行的任何分析)。我想尽可能取全名并替换较短的名称,即如果经理姓名包含中间首字母,它将使用它来替换较短的经理姓名。下面是一个带有假名字的示例数据集:
data test;
input project name $50.;
datalines;
1 Farmer,Richard
2 Farmer,Richard L
3 Farmer,Richard
4 Farmer,Richard
5 Farmer,Richard L
6 Rooney,Douglas
7 Rowe,Jamie Elaine
8 Rowe,Jamie
9 Rowe,Jamie
10 Rowe,Jamie Elaine
11 Smith,Mary-Lou
12 Needs,Mark
13 Needs,Mark H
14 Smith,Marie
;
run;
因此,我想将所有 Farmer,Richard 名称替换为 Farmer,Richard L 并同样替换为其余名称。有没有一种快速的方法?我试过first. 和last. 方法,计数,滞后,似乎无法找到一种平滑的清洁方法。 DQMATCH 似乎做我想做的事,但我没有那个许可。有什么见解吗?
【问题讨论】:
标签: sas data-cleaning