目录
介绍
你好。这是来自 Databricks 的 Arai。这是奇塔的第一篇文章。
我于 2022 年 7 月开始担任解决方案架构师。
我们的职责是让我们的客户了解我们的产品,并在他们推出产品时提供技术支持。
在本文中,我们从新员工的角度总结了 10 个我们认为有用的功能,以便对 Databricks 感兴趣的每个人都可以了解我们的平台。
这将激励我在未来继续写文章,所以如果你能“喜欢”、保存文章并在 SNS 上分享,我会很高兴。谢谢!
背景和目的
你们中的许多人可能不熟悉 Databricks 公司。
它是一家总部位于美国加利福尼亚州的公司,主要开发B2B产品,因此一般不为人所知。
另一方面,一些从事数据工程和数据科学的人可能已经看到或听说过 MLFlow 或 Spark,或者使用过它们。 Apache Spark 是我们的创始人于 2009 年在加州大学伯克利分校发起的一个项目,而 MlFlow 是 2018 年宣布的一个项目。我们还将在今年(2022 年)开源 Delta Lake。
在加入公司之前,有使用MLFlow开发机器学习管道和使用Spark开发ETL管道的经验,但是不知道Databricks平台(Databricks Lakehouse Platform)能做什么,知识有限,因为总结的文章很少。
加入公司并实际接触后,感觉它是一个可以做的比我想象的更多的平台。在加入公司之前,我觉得像我这样的人很多,所以在这篇文章中,我将简要介绍一下我使用过的功能。
如果您想更多地了解我们的平台,我们希望本文能帮助您了解更多。如果您有兴趣,请随时与我们联系。
什么是 Databricks
简而言之
“从数据收集积累到分析,机器学习模型开发和运营全面、高效、廉价它是一个集成平台,可以做
可能很突然,但是你在处理数据的时候有没有遇到过以下情况?
“我不知道其他团队正在使用的数据在哪里。”
“数据湖上的数据不同于数据仓库上的数据”
“我将 SQL 扔到数据仓库,但处理时间太长。”
“没有数据科学家,我们无法创建机器学习模型。”
“我无法复制模型,因为我没有正在写的笔记本。”
“我做了一个机器学习模型,但我没有实际操作的基础。”
“类似的分析报告有多个,但数值不同,不知道哪一个是正确的。”
与数据基础设施相关的问题数不胜数。
Databricks 提供了解决上述问题的平台,
该平台的设计基于以下三个概念(简单/开放/多云)。
简单 - 简单
“公司有多个数据平台,不知道用哪一个……”
仅作记录,我们的平台(Databricks Lakehouse Platform)简单易用。我们将解决过去在处理数据的团队中出现的数据湖和数据仓库的问题和问题。数据湖屋它是根据以下思想设计的具体来说,除了数据湖中不必要的文件数量增加并成为数据沼泽之外,还存在分散在团队和组织之间的数据仓库中的性能、不一致和排他性(数据孤岛)问题。一个数据平台,可以消除
开——开
“如果我介绍一次,我担心供应商锁定......”
未锁定供应商。 Delta Lake 作为平台的基础,保证了可靠性、安全性和性能,是一个开源项目,不会陷入只有特定供应商和供应商才能维护和运营的情况。如果您不需要它,您可以使用开源在内部制作它。此外,任何熟悉 Python 和 SQL 的人都可以使用它。此外,450 多个合作伙伴存在,并且通过使用平台上的连接器,可以与每个公司的工具链接。
多云 - 多云
“如果我想使用与我现在使用的不同的云,我该怎么办?”
以 Databricks 为核心,我们在所有云中提供一致的管理、安全和治理机制(Unity 目录),使我们能够跨云提供商提供类似的功能。使用其他云时无需重新发明新的管理和治理机制。
功能介绍
在本章中,我将介绍 10 个我个人觉得很酷的函数。
这次我们将简要介绍每个功能,但希望以后的文章将重点介绍每个功能的细节。
常见的
① 同时编辑笔记本和使用评论的协作工作
“我不想将文件交给审查,我想同时编辑它们……”
我敢肯定,每个人都将其他人编写的代码共享为文件。 Databricks 允许授权用户直接在他们的笔记本中评论和编辑代码。过去我经常通过 Github / Gitlab 交换文件和交换意见和评论,但使用这个功能提高了我的工作效率。
② 可以管理和恢复笔记本版本
“我对笔记本进行了不必要的编辑,无法返回横截面……”
如果您对笔记本进行了不必要的更改,有时您可能希望恢复以前的版本。在 Databricks 上,有一个选择和恢复过去版本的功能,允许您恢复到特定的横截面。我有很多经验,我必须删除必要的代码并必须再次工作,但使用此功能可以解决问题。
③ 可以为每个笔记本执行计划
“我想调度作业,但是CRON和调度器设置很麻烦……”
有时您可能希望在特定时间安排笔记本和代码的执行。在 Databricks 上,可以在 GUI 上为每个笔记本详细设置计划执行,如下所示。到现在为止,我用的都是 CRON jobs 和 Airflow 的 schedule 功能,但是感觉这个功能可以替代。
(设定画面)
(执行结果)
数据工程
④ 对象存储(S3、Azure Blob、Google Cloud Storage)可以直接用SQL/Python/R挂载处理
“我直接从 S3 读取文件,但是性能很差……”
“把文件从S3一个一个下载到本地环境好麻烦……”
数据工程师和数据科学家必须每天使用 AWS / Azure / GCP 上的数据。根据环境的不同,性能可能会出现问题或生产力可能会很低。如果挂载对象存储,则无需迁移即可转换和使用数据。您不必担心从存储中逐个下载文件的麻烦或直接读写时的性能下降。
⑤ 能够处理笔记本上的流数据和非结构化数据
“我想根据需要轻松地实时更新数据,而不是一天一次的批处理……”
笔记本电脑也支持流数据。
当新数据保存在目标路径中时,它会在未经许可的情况下将记录添加到表中。下图中,蓝色部分代表事件,可以看到随时都在向目标表添加记录。到目前为止,我有手动将数据导入到每次链接的数据仓库中的经验,例如每天/每周/每月,但是使用此功能可以减少工时数。
机器学习
⑥ 您可以使用 AutoML 轻松创建机器学习模型/AI
“我想尝试机器学习,但我不会写复杂的代码……”
“我想开发一个简单的第一个基线模型……”
“没有数据科学家,我们无法创建机器学习模型……”
在 Databricks 上,准备好训练数据,只写一行代码,AutoML 就会创建 XGboost / LightGBM / RandomForest 等模型。当然,模型可以在平台上手动开发,但数据科学家和机器学习工程师往往人手不足,因此希望使工作尽可能高效。通过使用这个功能,可以减少数据科学家的工时,甚至那些不熟悉机器学习的人也可以开发模型/AI。
⑦ 能够在模型开发过程中在MLFlow中记录评价指标和特征值
“管理超参数、评估指标和使用的模型很麻烦……”
“我无法复制模型,因为我没有正在写的笔记本。”
在进行机器学习/建模时,需要记录很多信息(超参数、评价指标、模型文件等)。在平台上可以通过MLFlow Expriments查看学习结果,可以查看使用的模型、超参数、评价指标。这是使用 AutoML 的结果,但在手动开发模型时,通过设置日志输出和模型存储也可以获得类似的输出。
数据块 SQL
⑧ 可使用高速 Spark 引擎 Photon 进行处理
“我在数据仓库中扔了一些SQL,但是处理时间太长了……”
一家Spark/MLFlow公司形象强势,在数据仓库领域可能不为人知,但Databricks SQL是光子比 Spark 在幕后支持的引擎更快。它的性能由第三方组织 TPC 委员会衡量,与其他数据仓库产品相比,它证明了它的成本效益。它实现了高速且廉价的数据仓库,有助于降低基础设施成本和提高工作效率。
(9) 查询结果可以在GUI上轻松可视化
“我想轻松地将分析结果可视化,但是工具很难使用..”
还有一个用于在 Databricks 上执行 SQL、查询执行和使用 Redash 在幕后进行简单可视化的环境。您还可以通过动态更改 SQL 的一部分作为参数进行过滤和可视化。过去,我使用 CSV 格式输出查询结果,将它们与 BI 工具链接,并可视化它们,但使用此功能消除了该过程。
⑩ 可以使用查询结果创建仪表盘和报表
“我想通过汇总多个 SQL 的结果来创建仪表板……”
您还可以通过汇总创建的查询的结果来创建仪表板。
这也可以动态更新,可以查看最新的断面数据。此仪表板可以与团队成员和其他组织的成员共享。
综上所述
在本文中,我们从一个新员工的角度简要介绍了 Databricks Lakehouse 平台的 10 个很酷的功能。如果有每个人都想使用的功能,我将不胜感激。
另外,如果您想了解更多关于这些功能的信息,或者如果您对 Databricks 有更多了解,请在评论中告诉我们。
我希望能够在以后的文章中更深入地挖掘每个特性。我花了很多精力写我的第一篇奇塔文章,所以如果你读了这篇文章并认为它对你有帮助,如果你能“点赞”,保存文章,并在 SNS 上分享,我会很高兴!
参考
原创声明:本文系作者授权爱码网发表,未经许可,不得转载;
原文地址:https://www.likecs.com/show-308623851.html