监督学习———分类问题

分类是监督学习的一个核心问题。
在监督学习当输出变中，量Y取有限个离散值时，预测问题便成为分类问题。这时X可以是离散的，也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器。分类器对新的输入进行预测，称为分类。可能的输出称为类别。分类的类别为多个时，称为多类分类问题。

分类问题包括学习和分类两个过程。在学习过程中，根据已知的训练数据集利用有效的学习方法学习一个分类器；在分类过程中，利用学习的分类器对新的输入实例进行分类。

评价分类性能的指标一般是分类准确率，其定义是：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率。

对于二分类问题最常用的准确率与召回率。通常我们关注的类为正类数，其它类为负类，分类器在测试数据集上的预测或正确或不正确，4种情况出现的总数分别记作：
TP——将正类预测为正类数
FN——将负类预测为负类数
FP——将负类预测为正类数
TN——把负类预测为负类数

准确率（Accuracy）。顾名思义，就是所有的预测正确（正类负类）的占总的比重。
监督学习———分类问题

精确率（Precision），查准率。即正确预测为正的占全部预测为正的比例。个人理解：真正正确的占所有预测为正的比例。
监督学习———分类问题
召回率（Recall），查全率。即正确预测为正的占全部实际为正的比例。个人理解：真正正确的占所有实际为正的比例。

F1值（H-mean值）。F1值为算数平均数除以几何平均数，且越大越好，将Precision和Recall的上述公式带入会发现，当F1值小时，True Positive相对增加，而false相对减少，即Precision和Recall都相对增加，即F1对Precision和Recall都进行了加权。
监督学习———分类问题
公式转化之后为：

区分：
精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，也就是
监督学习———分类问题
而召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。

其实就是分母不同，一个分母是预测为正的样本数，另一个是原来样本中所有的正样本数。
监督学习———分类问题
在信息检索领域，精确率和召回率又被称为查准率和查全率，

查准率＝检索出的相关信息量 / 检索出的信息总量
查全率＝检索出的相关信息量 / 系统中的相关信息总量