【问题标题】:best practice for logging mechanisam in ETL processingETL 处理中日志记录机制的最佳实践
【发布时间】:2020-08-05 11:23:40
【问题描述】:

ETL 处理中记录机制的最佳实践是什么?

实际上我们正在开发ETL应用程序。在这个我们想使用日志分析来记录数据 任何人都可以提供符合行业标准的日志记录机制的最佳实践。

我用谷歌搜索了以下链接:https://www.timmitchell.net/post/2016/03/14/etl-logging/

感谢任何帮助。

提前致谢

【问题讨论】:

    标签: azure pyspark etl azure-databricks azure-log-analytics


    【解决方案1】:

    我最近在组织中实施了合一。由于技术选择,它是定制的。以下是日志中包含的内容。

    • 它充当任何 ETL 作业的包装器,也就是开发了一个模板并且该模板具有内置日志记录
    • 模板具有主子作业和基于主子的日志功能
    • 日志记录如下:
    • 作业状态 - 成功、失败、警告
    • 源详细信息(例如文件名或源表等名称)
    • 数据分类标注
    • 传入数据源的企业所有者
    • 原始文件的行数与加载的行数
    • 如果作业失败,向分发列表发送警报
    • 如果作业失败,则通过服务台提出工单

    这取决于您的要求,您可能希望捕获更多或更少。 祝你好运

    【讨论】:

    • 嗨,谢谢回复
    • 嗨,谢谢回复实际上我们正在使用数据块和 pyspark 来实现 ETL,并使用 Azure 日志分析来实现日志记录机制,您能否建议我如何使用这些技术实现
    • 嗨@NarsingRao 我还没有使用 Azure 日志分析。但我假设它在引擎盖下有一个存储引擎,它可能是一个文件存储系统。我上面提出的所有建议都是定制开发的,不幸的是,其中许多建议您可能必须手动记录。 Databirks 作为应用程序将轻松记录到日志分析。您可能必须将其他消息回显(自定义代码)到 databricks 控制台以通过日志分析进行捕获。
    • 嗨 Amandeep Modgil 我们可以在 git hub 或在线获取任何项目以供参考吗?提前致谢
    猜你喜欢
    • 1970-01-01
    • 2012-11-02
    • 1970-01-01
    • 2018-03-27
    • 2021-08-05
    • 1970-01-01
    • 2010-10-08
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多