【发布时间】:2019-02-01 14:32:35
【问题描述】:
我有一种情况,我从多个来源(如 SourceA、SourceB、SourceC ...... SourceN)获取数据。每个来源的数据格式或内容可以不同。现在我需要处理来自多个源的这些数据,并为每个源示例“Col1,Col3,Col3,SourceIdentifier,sourceUniqueID”生成一个公共输出。现在我需要将此输出添加到某个表中,让我们将此表称为已处理输出。现在我的问题是 1)如您所见,我需要在 Processedoutput 表中确定哪一行属于哪个源以及每个源的唯一ID(每个源都有一个标识列作为主键)通过这 2 列我可以获得唯一行但我不想将 2 个键作为标识符,我只想要一个键,通过它我可以获得相同的答案。我也不想使用 GUID 列
2) 如果我将此数据存储在列式数据库中,例如 redshift 或 AZUER 数据仓库。将 2 键作为记录的标识符或唯一标识符会有任何性能问题
3) 由于有一些像 power BI 这样的 BI 工具不支持多个键作为连接条件,我如何在 powerBI 中显示相同的数据(注意 - 我可以在 powerBI 中创建一个计算列并进行连接作为单键,但我不想这样做)
谢谢 阿图尔
【问题讨论】:
-
我在您的数据或描述中没有看到任何关于父母和孩子的信息。我错过了什么吗?
-
对不起,如果我无法澄清自己。但是所有的源表都作为父表,处理后的输出表是具有多个源表的子表
标签: database database-design amazon-redshift rdbms azure-sqldw