【发布时间】:2021-05-26 12:01:01
【问题描述】:
我有一个“国家”的列名,在这个列中我有 20 个左右的国家,但是它们使用许多不同的语言,因此以不同的语言出现了好几次。例如,瑞士以 Suiza、Schweiz、Suisse 和瑞士出现。
如何将“国家”列中的重复国家/地区重命名为通用名称瑞士,同时保留其他列中的值?
【问题讨论】:
-
您在哪里存储了备用名称,即
Suiza, Schweiz, Suisse用于Switzerland? -
所有国家的名称都在“国家”列下。仅支持多种语言
-
您的数据集中是否有另一列指示每个国家/地区名称使用的语言或首选国家/地区名称?数据集中还有其他类似/共享的值吗?
-
我打算让所有国家都用英语,但这一列的值与其他列不同。
标签: apache-spark pyspark apache-spark-sql