【发布时间】:2020-09-11 10:06:44
【问题描述】:
我在包含州和城市(国内和国际)的数据集中有一个非常丑陋的列。其余的数据都是数字,与任何地理无关。有没有什么方法可以进行文本分析来确定最终目标是什么,最终目标是使列分开州和城市并有第三列来显示国家?
c("Arizona", "(not set)", "Arizona", "(not set)", "California",
"California", "New York", "Texas", "New York", "Texas", "England",
"Illinois", "Florida", "Maharashtra", "Massachusetts", "Virginia",
"Maryland", "Florida", "Karnataka", "Pennsylvania", "Arizona",
"New Jersey", "Illinois", "District of Columbia", "Delhi", "Ohio",
"Ontario", "Georgia", "Colorado", "Washington", "Michigan", "Virginia",
"North Carolina", "England", "Maryland", "Pennsylvania", "Colorado",
"Utah", "Arizona", "New Jersey", "District of Columbia", "Tamil Nadu",
"North Carolina", "Arizona", "Massachusetts", "Tokyo", "Andhra Pradesh",
"Minnesota", "Washington", "Tainan City", "Michigan", "Arizona",
"Maharashtra", "Federal District", "Ile-de-France", "Utah", "Georgia",
"Metro Manila", "Ontario", "Connecticut")
【问题讨论】:
-
发布数据图像不是一个好主意。你能发布一些数据,尤其是坏数据。
-
@ShanR 道歉,进行了更正。