【发布时间】:2021-07-18 00:47:42
【问题描述】:
我需要编写一个小型 ETL 管道,因为我需要将一些数据从源数据库移动到目标数据库(数据仓库)以对数据执行一些分析。
在这些数据中,我需要清理并符合城市名称。城市是由国际用户手动插入的,因此对于一个城市,我可以有多个名称(例如伦敦或伦敦)。 在我的源数据库中,我不仅有大城市,还有小村庄。
好吧,如果我不将城市名称标准化,我们的分析可能是荒谬的。
在我的目标数据库中标准化城市的最佳做法是什么?有什么我可以承担的想法或建议吗?
谢谢
【问题讨论】:
标签: geolocation etl data-warehouse standardization