1. 前言
本周学习计划是对于前两周学习的统计学理论基础上,将描述性统计理论进行python实践。
前两周其实就是看了下统计学基础理论和同步视频,补充基础知识,顺便在不是很了解的基础上安装了python,所以本周实践起来虽然还是有困难,但是上手容易了许多。
2. Jupyter Notebook介绍
2.1. 什么是Jupyter Notebook
首先,先简单介绍一下jupyter,前两周只是在前人经验上,安装了Anaconda,然后进入了jupyter编译环境,还没有在这个编译环境下调试过代码,其实由于是第一次接触python,也不知道为什么要安装这个,为什么一定是这个,这个和python的关系又是什么?其实脑袋里面是有很多问号的,本周通过网上查找资料和翻阅书籍,将相关理论做了一个整理。
Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。它的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等,是数据科学/机器学习社区内一款非常流行的工具。
简单来说就是它提供了一个环境,你可以在其中记录代码,运行代码,查看结果,可视化数据并在查看输出结果。这些特性使其成为一款执行端到端数据科学工作流程的便捷工具 ,可以用于数据清理,统计建模,构建和训练机器学习模型,可视化数据以及许多其他用途。
2.2. 如何安装Jupyter Notebook
要使用Jupyter Notebook,首先你要确保自己已经安装了Python(2.7/3.3或更高),这是必备条件。
安装Anaconda,可以打包安装Python和Anaconda,所以第一步是安装Anaconda。
其实除了提到的两个工具,Anaconda还包含数据科学和机器学习中经常需要用到的各种软件包,只需下载、解压、安装,所有工具就都一步到位了。
下载地址:https://jupyter.readthedocs.io/en/latest/install.html
安装完成后,如果要运行Jupyter Notebook
- 在控制台输入以下命令:jupyter notebook
- 在开始里面选择Anaconda3(64位)->Jupyter Notebook
上面任意一种方法,都可以让电脑打开默认浏览器,网址为http:// localhost:8888/tree。
参考网址:http://www.elecfans.com/d/687743.html
相关快捷键:
Shift+Enter : 运行本单元,选中下个单元
Ctrl+Enter : 运行本单元
Alt+Enter : 运行本单元,在其下插入新单元
Y:单元转入代码状态
M:单元转入markdown状态
A :在上方插入新单元
B:在下方插入新单元
X:剪切选中的单元
Shift +V:在上方粘贴单元
在执行没有输出的语句的时候,执行完后界面没有变化,例如下面的导入库的操作,执行后没有变化,不知道有没有执行成功:
咨询完学习小组的小伙伴们后,他们告诉我 In [*]代表正在执行,In []代表没有执行,In [1] 里面带数字的说明已经成功执行完成,试了下果然是这样。
3. 执行脚本
由于自己学习时间有限,所以我是紧跟老师给的学习计划及给的参考材料进行参考学习,所以第一遍的时候没有太多的思考,更多的是执行,下面更多就是列一下自己的执行结果,可能在第四周的时候会有点感悟。
3.1. 导入基础库:
Python最基础的数据类型包括数组、列表、字典比较常见的。而Numpy和Pandas的数据类型是在基础数据类型上建立,彼此相关,又彼此不同。np对象最重要特点向量化运算,pandas对象最重要特点是字典和列表混合。
-
NumPy
是高性能科学计算和数据分析的基础包。部分功能如下: -
Pandas
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。 -
数据可视化matplotlib.pyplot