进来了解下sklearn吧

Scikit-learn简称为sklearn，是机器学习中常用的第三方模块，对常用的机器学习方法进行了封装，调用起来十分方便，极大的节省我们编写代码的时间以及减少我们的代码量。

sklearn结构图

进来了解下sklearn吧

sklearn库的算法主要有四类：分类，回归，聚类，降维。其中：

常用的回归：线性、决策树、SVM、KNN ；集成回归：随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用的分类：线性、决策树、SVM、KNN，朴素贝叶斯；集成分类：随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用聚类：k均值(K-means)、层次聚类、DBSCAN
常用降维：LDA、PCA

sklearn中的大部分函数可以归为估计器(Estimator)和转化器(Transformer)两类。

估计器(Estimator)其实就是模型，它用于对数据的预测或回归。基本上估计器都会有以下几个方法：

fit(x,y) :传入数据以及标签即可训练模型，训练的时间和参数设置，数据集大小以及数据本身的特点有关
score(x,y)用于对模型的正确率进行评分(范围0-1)。但由于对在不同的问题下，评判模型优劣的的标准不限于简单的正确率，可能还包括召回率或者是查准率等其他的指标，特别是对于类别失衡的样本，准确率并不能很好的评估模型的优劣，因此在对模型进行评估时，不要轻易的被score的得分蒙蔽。
predict(x) 用于对数据的预测，它接受输入，并输出预测标签，输出的格式为numpy数组。我们通常使用这个方法返回测试的结果，再将这个结果用于评估模型。

转化器(Transformer)用于对数据的处理，例如标准化、降维以及特征选择等等。同与估计器的使用方法类似:

sklearn库中包含SVM、KNN、贝叶斯、线性回归、逻辑回归、决策树、随机森林、xgboost、GBDT、boosting、神经网络NN等多种算法模型，在使用中只需要简单的调用sklearn里的模块就可以实现大多数机器学习任务。

Sklearn提供一些标准数据，我们不必再从其他网站寻找数据进行训练。例如我博客的下一篇来训练的load_wine数据，可以很方便的返回数据特征变量和目标值。除了引入数据之外，当然我们也能自己构造数据集。

进来了解下sklearn吧。