这是活动中讨论的内容的摘录。
数据科学过程
在解释什么是机器学习之前,让我先解释一下应用机器学习的数据科学过程。
- 问题:数据科学过程始于某种“问题”(例如我应该针对哪些人口统计数据进行广告宣传?)。
- 假设:对这个问题做一个假设(如果你在 20 多岁时打了一个网络广告,那么转化率应该会上升)。
- 实验/分析:进行实验和分析以验证假设。
- 结果分析和解释:进一步分析和解释分析结果。
- 提供和交流结果:向管理层等利益相关者提供结果,并与他们沟通以采取行动。
什么是数据科学
数据科学需要三种技能来从各种数据中提取知识。
- 计算机科学
- 应用统计
- 领域知识
这些重叠的领域是数据科学。这就是机器学习发挥作用的地方。
数据科学是领域知识、应用统计学、计算机科学和机器学习这是一个跨越多个学术领域的领域,包括
笔记
尽管上图中没有显示机器学习,但请把它看作是一种可以跨学科使用的技术。数据科学项目中要记住的要点
数据科学通常用于公司的项目中,为了使这个数据科学项目取得成功,需要注意一些要点。
- 构建现实世界的问题:您需要明确定义项目的范围以及应用机器学习的领域。
- 可衡量的现实世界目标:通过设定可量化的目标来推动项目。利用机器学习来产生这种可衡量的输出。
- 约束,基线:我们将总结输出,同时注意使用项目输出和要实现的基线时出现的限制。
- 整个解决方案的连续仪表:要让数据科学的输出(解决方案)根据业务的连续性来衡量,而不是输出一次就结束。
什么是机器学习
如上所述,机器学习是一种结合了应用统计学和数据科学中使用的计算机科学的技术。
机器学习
在机器学习中,计算机学习如何执行任务,而不是显式地对计算机进行编程来执行任务。在深入了解机器学习的细节之前,让我们看一个显式“非机器学习”编程的例子。
考虑预测今天是否会下雨的问题。在编程的情况下,如果“云量为 80%”,“湿度为 60%”,则为“雨”。这不是机器学习。
在机器学习中,没有明确地对任务进行编程计算机学习如何执行任务。下面的例子预测了云层和湿度下雨的概率。机器学习是指计算机从数据中自行学习这种预测方法。
机器学习中使用的机器学习算法从数据中学习。
机器学习的好处包括:
- 更准确的预测:上述条件的枚举精度有限。
- 容纳大量数据(行数):枚举大量数据的条件是不切实际的。
- 支持大量功能(列数):同上。
- 减少人力负荷:同上。
机器学习工作流程
- 数据探索:了解机器学习中使用的数据的趋势。
- 数据清理: 对应于缺失数据等。
- 特征工程:生成用于机器学习的特征。
- 模型开发:根据数据训练模型。
- 模型评估:评估作为学习结果获得的模型的准确性。
- 模型部署:在生产中部署和利用模型。
机器学习工作流程和数据科学过程之间的关系如下所示:
机器学习分类
机器学习有几种类型。
- 监督学习:将“教师数据(表示正确的标签数据)”提供给机器学习模型并使其学习的机器学习。
监督学习的例子包括:
- 会有多少雨?
- 库存什么时候用完?
- 这种治疗对患者有效吗?
- 候选人获得多少票?
- 无监督学习:机器学习模型从没有“监督数据”的数据中学习。
无监督学习的例子包括:
- 能否根据客户的购买行为对客户进行分组?
- 可以根据症状对患者进行分组吗?
- 可能存在不同于其他交易的欺诈行为
- 您能识别交易吗?
监督学习
在这里,我将解释监督学习的“分类”和“回归”。
分类问题
上面提到的降雨预报有几种模式。预测两个类别中的哪一个“会下雨”或“不会下雨”是一个“分类”问题。
分类是监督学习的一个子集,模型是预定义类从哪一堂课尝试预测是否
分类示例包括:
- 谁Can you predict who will win the election?
- 哪支队伍可以预测是否会赢得一场足球比赛?
- 图像中有什么哪种水果你能预测如果
回归问题
预测“会下多少雨”是预测标签值的“回归”问题。
回归是监督学习的一个子集,模型是
连续标签值基于定量价值尝试预测回归的例子包括:
- 候选人多少票你能预测会发生什么吗?
- 足球队在比赛中多少分你能预测会发生什么吗?
无监督学习
即使标签不存在,“无监督学习”也可用于理解数据之间的关系。
在无监督学习中,算法是没有现有标签的输入数据之间的关系试着理解
无监督学习的一个例子是“聚类”。
- 在上图中,相似的记录包含相似的特征。
- 必须提前确定簇的数量(取决于算法)。
除此之外,无监督学习还包括时间序列预测,即从时间序列数据中预测未来。
从 Databricks 开始的机器学习
使用 Databricks,您可以在笔记本中轻松实现上述各种机器学习,并支持所获得的机器学习模型的全面运行。
Databricks 在机器学习的上下文中主要提供以下功能:
- 协作数据探索工作区:内置数据准备功能,原生可视化支持,机器学习优化运行时(软件包)
![]()
- 实验环境:特征存储、实验(模型训练)跟踪、模型注册,用于模型的集中管理
![]()
- MLOps + DevOps 全面运营: Git 集成、模型服务、模型监控
![]()
此外,如果您对使用 Databricks 进行机器学习感兴趣,也请参阅这篇文章。
- Databricks AutoML 示例
- Databricks AutoML 简介:自动化机器学习开发的玻璃盒方法
- Databricks AutoML 手册
- 使用 Databricks AutoML 增强您的机器学习项目
- Databricks 机器学习指南
- Databricks 机器学习教程
- 开始使用 Databricks 进行机器学习
- 作为机器学习工程师开始使用 Databricks
- 在 Databricks 上构建机器学习模型的端到端示例
Databricks 免费试用
原创声明:本文系作者授权爱码网发表,未经许可,不得转载;
原文地址:https://www.likecs.com/show-308623817.html