数据分析基础
学好数据分析首先需要了解统计学,统计分析是数据分析的基础,也是灵魂。下面列出统计分析的几个核心内容:
- 描述统计,统计推断,概率论;
- 抽样,分布,估计,置信区间,假设检验;
- 线性回归,时间序列;
数据分析工具
SQL语言
数据分析师最关键的一项技能就是会使用SQL语言操作数据库。
关于SQL的学习推荐两个学习路径:
- w3school
- SQL必知必会
Excel基本操作
作为微软的一个出色表格处理工具,Excel也是数据分析师需要掌握的。需要掌握以下核心功能:
- 增删改查
- 各类常用函数的使用
- 各类基础图表的制作
- 数据透视表等
Python or R?
R语言就是为统计学而设计的语言,是统计行业中非常高效实用的工具,目前非常受欢迎。而Python作为目前非常火爆的语言,由于其出色的科学计算包pandas,numpy,scikit-learn等的存在,非常适合数据分析与数据挖掘,是很多人的不二选择。
如何使用Python进行数据分析?
使用python做数据分析,首先要学会使用numpy和pandas包,因为它是python数据分析的核心工具。numpy主要解决一些数学计算,矩阵变换,线性代数等问题,pandas更像是一张excel表,有行列定义,字段定义,以及数据变换和预处理等操作。
- numpy学习思维导图
- pandas学习思维导图
除此之外,推荐一本特别好的Python数据分析书籍:利用Python进行数据分析,这本书是入门Python数据分析非常好的书籍,从numpy,pandas,数据预处理,数据重塑合并,数据变换等各种关于数据的操作,最后还介绍了Python的时间序列用法以及在金融领域上的应用。
另一本推荐的数据分析书籍是:深入浅出数据分析,这本书使用图表示意比较多,内容也很丰富,也是不错的参考资料。
Python数据可视化
Python的数据可视化工具是matplotlib,matplotlib的功能也十分强大,将它使用好会让你的数据可视化美观清晰,吸人眼球。另外一个可视化工具是seaborn,它是在matplotlib基础上封装的更高级的可视化工具,使用方便,图表非常美观,并有FaceGrid,PairPlot,heatmap等强大的复合型可视化方法。
这两个工具的官方网站都有详细的使用说明,但如果你想快速学习核心使用方法也可以参考下面几个教程: