pandas入门(十一)

上一篇：pandas入门(十)

重命名轴索引

跟Series中的值一样，轴标签也可以通过函数或映射进行转换，从而得到一个新的不同标签的对象。轴还可以被就地修改，而无需新建一个数据结构。 pandas入门(十一)

=====================================
跟Series一样，轴索引也有一个map方法
pandas入门(十一)

=====================================
将其赋值给index，这样就可以对DataFrame进行就地修改
pandas入门(十一)

=====================================
想要创建数据集的转换版（而不是修改原始数据），比较实用的方法是 rename
pandas入门(十一)

=====================================
特别说明一下，rename可以结合字典型对象实现对部分轴标签的更新
pandas入门(十一)

=====================================
rename可以实现复制DataFrame并对其索引和列标签进行赋值。如果希望就地修改某个数据集，传入inplace=True即可
pandas入门(十一)

离散化和面元划分

为了便于分析，连续数据常常被离散化或拆分为“面元”（bin）。假设有一组人员数据，将它们划分为不同的年龄组 pandas入门(十一)

=====================================
将这些数据划分为“18到25”、“26到35”、“35到60”以及“60以上”几个面元。要实现该功能，使用pandas的cut函数
pandas入门(十一)

=====================================
pandas返回的是一个特殊的Categorical对象。展示了pandas.cut划分的面元。将其看做一组表示面元名称的字符串。它的底层含有一个表示不同分类名称的类型数组，以及一个codes属性中的年龄数据的标签
pandas入门(十一)

pd.value_counts(cats)是pandas.cut结果的面元计数。

=====================================
跟“区间”的数学符号一样，圆括号表示开端，而方括号则表示闭端（包括）。哪边是闭端可以通过right=False进行修改
pandas入门(十一)

=====================================
通过传递一个列表或数组到labels，设置自己的面元名称
pandas入门(十一)

=====================================
如果向cut传入的是面元的数量而不是确切的面元边界，则它会根据数据的最小值和最大值计算等长面元。
将一些均匀分布的数据分成四组

pandas入门(十一)

=====================================
选项precision=2，限定小数只有两位。 qcut是一个非常类似于cut的函数，它可以根据样本分位数对数据进行面元划分。根据数据的分布情况，cut可能无法使各个面元中含有相同数量的数据点。而qcut由于使用的是样本分位数，因此可以得到大小基本相等的面元
pandas入门(十一)

=====================================
与cut类似，你也可以传递自定义的分位数（0到1之间的数值，包含端点）
pandas入门(十一)

++++++++++++++++++++++++++++++++++++

下一篇：pandas入门(十二)