【发布时间】:2020-04-20 16:33:30
【问题描述】:
我正在与QECW data from BLS 合作,并希望使包含的地理数据更有用。我想将“area_title”列拆分为不同的列——一列带有区域名称,一列带有区域级别,另一列带有状态。
我有一个良好的开始使用分离:
qecw <- qecw %>% separate(area_title, c("county", "geography level", "state"))
问题在于,地理数据以多种方式排列成字符串,导致它们不够统一,无法清晰地分开。 area_title 列包含的名称格式分离得非常干净,例如:
area_title
Alabama -- Statewide
Autauga County, Alabama
很好的分割成
county geography level state
Alabama Statewide NA
Autauga County Alabama
但这在以下情况下会失效:
area_title
Aleutians West Census Area, Alaska
Chattanooga-Cleveland-Dalton TN-GA-AL CSA
U.S. Combined statistical Areas, combined
以及包含多个单词的任何州、县或其他地名。
我可以逐个解决这些问题,但我希望有一个更有效的解决方案。
我使用的确切数据是“2019.q1-q3 10 10 Total,所有行业”,可在“按行业分组的当年季度数据”下的链接中找到。
谢谢!
【问题讨论】: