【问题标题】:Confusions related to Redshift about dataset (Structured, Unstructured, Semi-structured) and format to be used与 Redshift 相关的关于数据集(结构化、非结构化、半结构化)和要使用的格式的混淆
【发布时间】:2017-07-22 11:28:57
【问题描述】:
  1. 谁能清楚地解释一下 Redshift 可以处理什么样的数据(如结构化、非结构化或任何格式)?

  2. 如何将Cloudfront logs 复制到 Amazon Redshift,即使日志是非结构化数据,而无需转到 Amazon EMR?

  3. **如何找到在 Amazon Redshift 中创建的Database size

请有人清楚地解释一下我上面提到的所有三个问题...如果你用一些示例或示例代码或任何来源解释我会更好 it will be very helpful for my project

【问题讨论】:

    标签: amazon-web-services amazon-s3 amazon-redshift amazon-emr


    【解决方案1】:

    Amazon Redshift 提供标准 SQL 接口(基于 PostgreSQL)。因此,它最适合存储在表、行和列中的结构化数据。

    还可以在字段中存储 JSON 记录,并通过JSON functions 访问它们。

    要将数据加载到 Amazon Redshift 中,它需要采用分隔文件格式,例如逗号分隔、制表符分隔、固定长度字段或 JSON 格式。任何格式不合适的数据都需要预处理并转换为合适的格式。这可以使用 Amazon Athena (Presto) 或 Amazon EMR (Hadoop) 等工具来完成。

    Amazon CloudFront 日志采用制表符分隔格式,可以直接加载到 Amazon Redshift。示例见:Analyzing S3 and CloudFront Access Logs with AWS Redshift

    可以通过SVV_DISKUSAGE系统视图获取有关表占用的磁盘空间的信息。

    【讨论】:

    • CloudFront 日志应该是固定字段制表符分隔的。如果您不想要所有字段,您可以将它们复制到临时表中,然后将您想要的字段移动/转换到主表中。通过管理 COPY 命令的 max_errors,您可以跳过标题行等。(docs.aws.amazon.com/AmazonCloudFront/latest/DeveloperGuide/…)
    • 啊!你是对的,@systemjack。我已经相应地更新了我的答案。谢谢!
    猜你喜欢
    • 2019-12-10
    • 1970-01-01
    • 1970-01-01
    • 2018-10-28
    • 1970-01-01
    • 2015-10-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多