Scikit-learn简称为sklearn,是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,调用起来十分方便,极大的节省我们编写代码的时间以及减少我们的代码量。

1.sklearn库的结构

sklearn结构图

进来了解下sklearn吧

 

sklearn库的算法主要有四类:分类,回归,聚类,降维。其中:

  • 常用的回归:线性、决策树、SVM、KNN ;集成回归:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
  • 常用的分类:线性、决策树、SVM、KNN,朴素贝叶斯;集成分类:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
  • 常用聚类:k均值(K-means)、层次聚类、DBSCAN
  • 常用降维:LDA、PCA

2. 相关函数

sklearn中的大部分函数可以归为估计器(Estimator)和转化器(Transformer)两类。

估计器(Estimator)其实就是模型,它用于对数据的预测或回归。基本上估计器都会有以下几个方法:

  • fit(x,y) :传入数据以及标签即可训练模型,训练的时间和参数设置,数据集大小以及数据本身的特点有关
  • score(x,y)用于对模型的正确率进行评分(范围0-1)。但由于对在不同的问题下,评判模型优劣的的标准不限于简单的正确率,可能还包括召回率或者是查准率等其他的指标,特别是对于类别失衡的样本,准确率并不能很好的评估模型的优劣,因此在对模型进行评估时,不要轻易的被score的得分蒙蔽。
  • predict(x) 用于对数据的预测,它接受输入,并输出预测标签,输出的格式为numpy数组。我们通常使用这个方法返回测试的结果,再将这个结果用于评估模型。

转化器(Transformer)用于对数据的处理,例如标准化、降维以及特征选择等等。同与估计器的使用方法类似:

  • fit(x,y) :该方法接受输入和标签,计算出数据变换的方式。
  • transform(x) :根据已经计算出的变换方式,返回对输入数据x变换后的结果(不改变x)
  • fit_transform(x,y) :该方法在计算出数据变换方式之后对输入x就地转换。

sklearn库中包含SVM、KNN、贝叶斯、线性回归、逻辑回归、决策树、随机森林、xgboost、GBDT、boosting、神经网络NN等多种算法模型,在使用中只需要简单的调用sklearn里的模块就可以实现大多数机器学习任务。

3.sklearn datasets


Sklearn提供一些标准数据,我们不必再从其他网站寻找数据进行训练。例如我博客的下一篇来训练的load_wine数据,可以很方便的返回数据特征变量和目标值。除了引入数据之外,当然我们也能自己构造数据集。

进来了解下sklearn吧

4.官网链接

http://scikit-learn.org/stable/

http://www.scikitlearn.com.cn/

 

 

相关文章:

  • 2021-07-13
  • 2021-12-24
  • 2021-06-19
  • 2021-10-24
  • 2021-06-14
  • 2022-01-13
  • 2021-09-16
  • 2022-01-18
猜你喜欢
  • 2021-09-23
  • 2021-09-11
  • 2021-08-16
  • 2022-12-23
  • 2021-05-27
  • 2021-09-30
  • 2021-11-19
相关资源
相似解决方案