【问题标题】:How to standardize city names inserted by user如何标准化用户插入的城市名称
【发布时间】:2021-07-18 00:47:42
【问题描述】:

我需要编写一个小型 ETL 管道,因为我需要将一些数据从源数据库移动到目标数据库(数据仓库)以对数据执行一些分析。

在这些数据中,我需要清理并符合城市名称。城市是由国际用户手动插入的,因此对于一个城市,我可以有多个名称(例如伦敦或伦敦)。 在我的源数据库中,我不仅有大城市,还有小村庄。

好吧,如果我不将城市名称标准化,我们的分析可能是荒谬的。

在我的目标数据库中标准化城市的最佳做法是什么?有什么我可以承担的想法或建议吗?

谢谢

【问题讨论】:

    标签: geolocation etl data-warehouse standardization


    【解决方案1】:

    唯一可靠的方法是使用商业地址验证软件 - 最好在创建数据时在您的源系统中,但它可以集成到您的数据管道流程中。

    假设您负担不起/证明使用商业软件的合理性,唯一的其他解决方案是创建您自己的转换表,即保存输入的值以及您希望将它们转换为什么值的表。

    虽然您可以根据历史数据构建此表,但总会有新值不在表中,因此您需要一个流程来识别这些值,将新记录添加到您的翻译数据中,然后修复受影响的记录。您还需要接受每次数据加载后一段时间内您的仓库中都会有未清理的数据

    【讨论】:

    • 只要确保您只是转换城市名称,而不是修复错误数据。数据仓库不应该修复坏数据,它应该只显示需要在源中修复的数据。
    • 我认为这是一个混合问题......也许我们还必须改进城市的手动输入
    猜你喜欢
    • 2021-07-10
    • 1970-01-01
    • 2013-09-26
    • 1970-01-01
    • 2010-11-25
    • 2010-11-25
    • 1970-01-01
    • 1970-01-01
    • 2013-01-21
    相关资源
    最近更新 更多