【问题标题】:Cloud Dataprep - Replace code or id with value with middle datasetCloud Dataprep - 用中间数据集的值替换代码或 ID
【发布时间】:2025-12-27 12:20:20
【问题描述】:
我是 GCP 数据准备的新手,现在正在尝试创建一个配方,但我不知道该怎么做。
总而言之,我有 2 个文件,第一个包含此列:
姓名,CONTRY_CODE, ...
第二个是:
COUNTRY_CODE,COUNTRY_NAME
如何将第一个数据集中的 COUNTRY_CODE 替换为第二个数据集的 COUNTRY_NAME(与相应的 COUNTRY_CODE 匹配)?
提前致谢!
【问题讨论】:
标签:
google-cloud-platform
google-cloud-dataprep
trifacta
【解决方案1】:
对于任何试图制作这种东西的人。您可以使用 Dataprep! 中的 Lookup 属性来实现它。
只需选择您要更改的列(在我的情况下为 COUNTRY_CODE),然后选择 Lookup -> 选择一个数据集(在我的情况下是第二个)。它将按预期替换它!
【解决方案2】:
虽然查找答案将正常工作,但JOIN 选项可能是更好的可扩展性解决方案,因为它支持远程端的多个列、显示匹配率、允许模糊匹配以及许多其他好处(就像忽略匹配中的空格一样)。您还可以选择连接类型来控制输出和缺失行的处理方式。
从语义上讲,这两个选项并没有太大的不同,我还没有看到真正的性能差异——但我已经能够通过使用这样的 Join 来简化其中的一些操作: