随着我们在机器学习、数据建模及数据挖掘分析方面的不断深入,会发现特征工程在环节内其实是最基础且耗费我们时长最多的一个部分。所以,如何系统性的掌握一些特征工程技巧,帮助我们不断提升效率显得尤为关键。
《Tips-of-Feature-engineering》,是在GitHub上发布的一个专门针对特征工程技巧的“锦囊”,作者通过总结优秀特征工程项目中的挖掘技巧,并梳理分类打包成了28个小锦囊(持续更新ing),学习检索方便,内容精细。如果需要系统性的掌握特征工程技巧,我推荐这个“锦囊”。
特征锦囊的内容大体上是可以分为五大模块的,分别是基础理论、EDA、预处理、特征衍生以及特征筛选调优,每一个模块涉及的内容都会是咱们进行特征工程中会比较常遇到的,目前已积累的锦囊有28条,目录如下:
项目目前更新到28节,为了方便读者的阅读,作者整理成了2.0版的PDF,可以到公众号或者GitHub进行下载哦。
公众号下载方式:关注公众号《SAMshare》并回复 特征工程,即可下载66页《机器学习之特征锦囊.pdf》
如果你想获取相关的数据集以及项目的更新动态,欢迎star这个GitHub库,github链接(或直接点击文章最下的阅读原文):
https://github.com/Pysamlam/Tips-of-Feature-engineering