【问题标题】:How to extract capital letters from string before number in R如何从R中数字之前的字符串中提取大写字母
【发布时间】:2022-01-08 12:27:07
【问题描述】:

我有一个列中包含字符串的数据框。如何在数字之前仅提取大写子字符串并将它们添加到另一列?以 DE 为例,但还有更多国家/地区的缩写,它们总是出现在数字之前。

TD<-data.frame(a=c("WHATEVERDE 11111","","Whatever DE 11111","DE 11111",""), 
           b=c("","What DE EverDE 1111","","",""),
           c=c("Whatever","","","","WhateverDE 11111"))

我想创建另一个列,如下所示:

> TD
                  a                   b                c     result
1  WHATEVERDE 11111                             Whatever         DE
2                   What DE EverDE 1111                          DE
3 Whatever DE 11111                                              DE
4          DE 11111                                              DE
5                                       WhateverDE 11111         DE

我尝试应用解决方案:

sub("^([[:alpha:]]*).*", "\\1", "DE 11111") but is not universal.

带有缩写的向量:

names<-c('AT','BE','DE','BG','CZ','DK','FR','GR','ES','NL','HU','GB','IT')

【问题讨论】:

  • 您是否有一个应该匹配的缩写向量,或者它是非特定的,即。匹配数字前的任何大写字母以及是否有空格?
  • 是的,我可以接受带有国家/地区缩写的向量。它们总是用大写字母,在我的例子中是两个字母。
  • 我更新了帖子。它现在应该可以工作了。从countrycode 包中你可以得到两个字母的缩写,用于创建模式
  • 如果是三个字母,不是iso2c,而是iso3c
  • 完美!非常感谢!

标签: r dataframe substring subset extract


【解决方案1】:

我们循环across 列,提取在零个或多个空格和一个或多个数字之前的 2 个字母大写国家代码子字符串,coalesce 输出,以便它返回每行第一个非 NA 提取元素

library(dplyr)
library(stringr)
library(purrr)
library(countrycode)
pat <- countrycode::codelist %>%
       pull(iso2c) %>% 
       na.omit %>% 
       str_c(collapse = "|") %>% 
       sprintf(fmt = "(%s)(?=\\s*\\d+)")

TD %>% 
   mutate(result = invoke(coalesce, 
     across(everything(), ~ str_extract(., pat))))

-输出

                  a                   b                c result
1  WHATEVERDE 11111                             Whatever     DE
2                   What DE EverDE 1111                      DE
3 Whatever DE 11111                                          DE
4          DE 11111                                          DE
5                                       WhateverDE 11111     DE

【讨论】:

    猜你喜欢
    • 2021-04-14
    • 2022-07-02
    • 2015-09-03
    • 2021-03-15
    • 2021-09-12
    • 2016-10-16
    • 1970-01-01
    • 1970-01-01
    • 2015-11-06
    相关资源
    最近更新 更多