一.简介
1.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,主要用于数据处理(数据整理,操作,存储,读取等)和数据分析
2.http://pandas.pydata.org/和https://pandas.pydata.org/docs/pandas.pdf
3.pandas有很多数据结构(类),主要用到:Series(一维图表),DataFrame(二维表格),panel(三维数组)
二.Series
1.具有标签(index)的一维数组,能够保存任何数据类型(int,str,float,python对象等),轴标签(索引)从0开始(表格的列的列表)
2.创建:pd.Series(data, index=index),data可以是字典、ndarray、标量
(1)字典
1 #dict, 2 #1.当未传递Series索引时,键表示索引,值表示值 3 d = {'b' : 1, 'a' : 0, 'c' : 2} 4 s=pd.Series(d) 5 print(s) 6 #2.如果传递索引,则将拉出与索引中的标签对应的数据中的值,NaN(不是数字)是pandas中使用的标准缺失数据标记 7 s2=pd.Series(d, index=['b', 'c', 'd', 'a']) 8 print(s2) 9 ---------------------------------------------------------- 10 a 0 11 b 1 12 c 2 13 dtype: int64 14 b 1.0 15 c 2.0 16 d NaN 17 a 0.0 18 dtype: float64