分类是监督学习的一个核心问题。
在监督学习当输出变中,量Y取有限个离散值时,预测问题便成为分类问题。这时X可以是离散的,也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类器对新的输入进行预测,称为分类。可能的输出称为类别。分类的类别为多个时,称为多类分类问题。

分类问题包括学习和分类两个过程。在学习过程中,根据已知的训练数据集利用有效的学习方法学习一个分类器;在分类过程中,利用学习的分类器对新的输入实例进行分类。

评价分类性能的指标一般是分类准确率,其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率。

对于二分类问题最常用的准确率与召回率。通常我们关注的类为正类数,其它类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:
TP——将正类预测为正类数
FN——将负类预测为负类数
FP——将负类预测为正类数
TN——把负类预测为负类数

准确率(Accuracy)。顾名思义,就是所有的预测正确(正类负类)的占总的比重。
监督学习———分类问题

精确率(Precision),查准率。即正确预测为正的占全部预测为正的比例。个人理解:真正正确的占所有预测为正的比例。
监督学习———分类问题
召回率(Recall),查全率。即正确预测为正的占全部实际为正的比例。个人理解:真正正确的占所有实际为正的比例。
监督学习———分类问题
F1值(H-mean值)。F1值为算数平均数除以几何平均数,且越大越好,将Precision和Recall的上述公式带入会发现,当F1值小时,True Positive相对增加,而false相对减少,即Precision和Recall都相对增加,即F1对Precision和Recall都进行了加权。
监督学习———分类问题
公式转化之后为:
监督学习———分类问题
区分:
精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是
监督学习———分类问题
而召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
监督学习———分类问题
其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样本中所有的正样本数。
监督学习———分类问题
在信息检索领域,精确率和召回率又被称为查准率和查全率,

查准率=检索出的相关信息量 / 检索出的信息总量
查全率=检索出的相关信息量 / 系统中的相关信息总量

相关文章:

  • 2021-12-15
  • 2021-08-16
  • 2021-12-14
  • 2021-06-11
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-09-27
猜你喜欢
  • 2022-01-09
  • 2021-12-08
  • 2022-01-06
  • 2021-07-08
  • 2021-08-31
  • 2021-05-15
  • 2022-12-23
相关资源
相似解决方案