重命名轴索引
跟Series中的值一样,轴标签也可以通过函数或映射进行转换,从而得到一个新的 不同标签的对象。轴还可以被就地修改,而无需新建一个数据结构。
=====================================
跟Series一样,轴索引也有一个map方法
=====================================
将其赋值给index,这样就可以对DataFrame进行就地修改
=====================================
想要创建数据集的转换版(而不是修改原始数据),比较实用的方法是 rename
=====================================
特别说明一下,rename可以结合字典型对象实现对部分轴标签的更新
=====================================
rename可以实现复制DataFrame并对其索引和列标签进行赋值。如果希望就地修改某个数据集,传入inplace=True即可
离散化和面元划分
为了便于分析,连续数据常常被离散化或拆分为“面元”(bin)。假设有一组人员数 据,将它们划分为不同的年龄组
=====================================
将这些数据划分为“18到25”、“26到35”、“35到60”以及“60以上”几个面元。 要实现该功能,使用pandas的cut函数
=====================================
pandas返回的是一个特殊的Categorical对象。展示了pandas.cut划分的面元。 将其看做一组表示面元名称的字符串。它的底层含有一个表示不同分类名称的类型数组,以及一个codes属性中的年龄数据的标签
pd.value_counts(cats)是pandas.cut结果的面元计数。
=====================================
跟“区间”的数学符号一样,圆括号表示开端,而方括号则表示闭端(包括)。哪边是闭端可以通过right=False进行修改
=====================================
通过传递一个列表或数组到labels,设置自己的面元名称
=====================================
如果向cut传入的是面元的数量而不是确切的面元边界,则它会根据数据的最小值和最大值计算等长面元。
将一些均匀分布的数据分成四组
=====================================
选项precision=2,限定小数只有两位。 qcut是一个非常类似于cut的函数,它可以根据样本分位数对数据进行面元划分。根 据数据的分布情况,cut可能无法使各个面元中含有相同数量的数据点。而qcut由于使用的是样本分位数,因此可以得到大小基本相等的面元
=====================================
与cut类似,你也可以传递自定义的分位数(0到1之间的数值,包含端点)
++++++++++++++++++++++++++++++++++++
下一篇:pandas入门(十二)