统计分为描述统计和推断统计,我们在这一章里,主要讲解描述性统计。我们用到的数据如下所示:
python量化交易笔记---13.描述性统计

images/c13f004.png

上图中,gsyh代表工商银行收益率,pfyh代表浦发银行收益率,zglt代表中国联通收益率,我们仅以工商银行收益为例计算各个统计量。

1.频数分布

我们以2014年工商银行股票的收益率为例,来看频数分布。我们将收益率(下图中ysgh列)按0.025为一段,统计收益率落在该段内的天数,就可以得到频数分布,我们可以按照直方图来进行绘制。如下所示:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

def startup():
    ''' 创建时间序列示例 '''
    rs = pd.read_csv('../datas/retdata.csv')
    gsyh = rs.gsyh
    print(type(gsyh))
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    plt.title('工商银行收益率频数分布图')
    plt.xlabel('收益率')
    plt.ylabel('天数')
    plt.hist(gsyh)
    plt.show()
    
if '__main__' == __name__:
    startup()
codes/c13c001.py

运行结果为:
python量化交易笔记---13.描述性统计

images/c13f001.png

2.数据统计

2.1.数据位置

2.1.1.样本平均数

算数平均数可以用在各种数据分析中,定义为:

xˉ=x1+x2+...+xnn \bar{x}=\frac{x_1+x_2+...+x_n}{n}

几何平均数最常用于收益率计算,假设共有k个元素,定义为:

xˉ=[i=1kxi]1k \bar{x}=\bigg[ \prod_{i=1}^{k} x_i \bigg]^{\frac{1}{k}}

2.1.2.中位数

中位数定义为其至少大于等于50%的数据,同时小于等于50%的数据。

2.1.3.众数

一组数据中出现最多的数值。

2.1.4.百分位数

假设百分比为α\alpha如25,则表示至少α\alpha%的数小于该值,同时至少(100α)(100-\alpha)%的数大于该值。

下面我们还以工商银行收益率为例,求出这几个值:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

def startup():
    ''' 数据位置分析 '''
    rs = pd.read_csv('../datas/retdata.csv')
    gsyh = rs.gsyh
    print('平均数:{0}'.format(gsyh.mean()))
    print('中位数:{0}'.format(gsyh.median()))
    gsyhMode = gsyh.mode()
    print('众数:{0}; {1}'.format(gsyhMode, type(gsyhMode)))
    print('百分位数:{0}'.format(gsyh.quantile(0.3)))
    
if '__main__' == __name__:
    startup()
codes/c13c002.py

运行结果如下所示:
python量化交易笔记---13.描述性统计

images/c13f002.png

2.2.数据离散度

数据离散度描述数据相对于中心位置的偏离程度,常用的指标有极差、平均绝对误差、方差和标准差。

2.2.1.极差

序列中最大值与最小值之差。

2.2.2.平均绝对误差

MAD=1ni=1n(xixˉ) MAD=\frac{1}{n}\sum_{i=1}^{n} \bigg \vert (x_i-\bar{x}) \bigg\vert

2.2.3.方差和标准差

σ2=1n1i=1n(xixˉ)2 \sigma ^{2} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{x})^{2}

σ=1n1i=1n(xixˉ)2 \sigma = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{x})^{2} }

计算离散度程序如下所示:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

def startup():
    ''' 数据位置分析 '''
    rs = pd.read_csv('../datas/retdata.csv')
    gsyh = rs.gsyh
    print('极差:{0}'.format(gsyh.max() - gsyh.min()))
    print('平均绝对误差:{0}'.format(gsyh.mad()))
    print('方差:{0}'.format(gsyh.var()))
    print('标准差:{0}'.format(gsyh.std()))
    
if '__main__' == __name__:
    startup()
codes/c13c003.py

运行结果为:
python量化交易笔记---13.描述性统计

images/c13f003.png

相关文章:

  • 2022-12-23
  • 2021-04-03
  • 2022-01-05
猜你喜欢
  • 2022-12-23
  • 2021-08-18
  • 2022-12-23
  • 2021-08-26
  • 2021-12-05
  • 2021-06-19
  • 2022-12-23
相关资源
相似解决方案