【问题标题】:AWS Glue Custom ClassifierAWS Glue 自定义分类器
【发布时间】:2019-10-11 07:10:25
【问题描述】:

我已经定义/设置了一个爬虫来读取和编目 S3 存储桶中的 avro 文件。但是爬虫/分类器无法读取字段的“doc”属性,因此它在目录中创建了一个模式,其中包含字段名称和相应的数据类型,但没有 doc 字段值。我正在探索创建自定义分类器的选项,该分类器将读取和填充字段的 doc 属性及其名称和类型。我浏览了 AWS 官方文档,但没有找到任何有关如何操作的信息/示例。谢谢。

【问题讨论】:

    标签: aws-glue aws-glue-data-catalog


    【解决方案1】:

    您好,您可以在这里查看:https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html

    您可以提供自定义分类器来对 AWS Glue 中的数据进行分类。 您可以使用 grok 模式、XML 标记创建自定义分类器, JavaScript 对象表示法 (JSON) 或逗号分隔值 (CSV)。一个 AWS Glue 爬网程序调用自定义分类器。如果分类器 识别数据,它返回分类和模式 数据到爬虫。您可能需要定义一个自定义分类器,如果 您的数据不匹配任何内置分类器,或者如果您想 自定义爬虫创建的表。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-06-27
      • 2018-05-01
      • 2021-10-15
      • 1970-01-01
      • 2018-04-06
      • 1970-01-01
      相关资源
      最近更新 更多