数据的概括性度量是统计学中的重点基础,分为:
- 集中趋势
- 离散程度
- 偏态与峰态
集中趋势(central tendency)
集中趋势就是一组数据向其中心靠拢的倾向和程度。测度集中趋势,就是寻找数据水平的代表值或中心值。
不同类型的数据是用不同的集中趋势测度的,集中趋势的度量,对不同类型数据有如下方法:
- 分类数据:众数
- 顺序数据:中位数和分位数
- 数值型数据:平均数
测度方法是向下兼容的,比如分类数据的测度方法,可以用来测度顺序数据和数值型数据,顺序数据的方法可以用来测度数值型数据,反之则不行。
众数
众数就是一组数据中,出现次数最多的变量值。只适用于数量值较多的时候使用。众数主要用于分类数据比较多。
众数不会受到极端值的影响。
一组数据,可能没有众数,也可能有一个或多个众数。
例子:
- 数据{10,5,9,12,68},就没有众数
- 数据{6,5,9,8,5,5},众数为5
- 数据{11,8,8,6,5,11},众数为 11,8
中位数和分位数
如果将数据按某个变量排列,排第50%个的数就是中位数,如果有两个数,就取它们的平均值。中位数不易受极端值的影响。
各个变量值与中位数的离差绝对值之和最低
中位数求法如下:
$$ M_{e}=\Bigg\{\begin{array}{l}{x\left(\frac{n+1}{2}\right)}&,n\text{为奇数} \\ {\frac{1}{2}\left\{x\left(\frac{n}{2}\right)+x\left(\frac{n}{2}+1\right)\right.}&,n\text{为偶数}\end{array} $$
例子:
- 一组数据{24,30,45,93,108},中位数为45.
- 一组数据{24,30,45,46,93,108},中位数为(45+46)/2=45.5.
四分位数分为:
- 四分之一分位数Q1:25%位置上的
- 四分之三分位数Q3:75%位置上的
四分位数也不会受到极端值影响。
同理,也可以计算十分位数、百分位数、千分位数……
平均数
平均数就是一组数据相加后除以数据个数的结果。容易受到异常值影响。
平均数分为两种:
- 简单平均数:就是权值相同
- 加权平均数:就是各组中的数据的值乘以频数,再除以频数的和:
$$ \bar x = \frac{M_1f_1+M2f_2+...M_kf_k}{f_1+f_2+...+f_k} $$
调和平均数(harmonic mean):又乘倒数平均数,是变量倒数的算数平均数 倒数:
- 简单调和平均 与 加权调和平均
$$ H=\frac{1}{\frac{\sum_{x}^{1}}{n}}=\frac{n}{\sum \frac{1}{x}}\\ H=\frac{1}{\frac{\sum\frac{1}{x}f}{f}}=\frac{\sum f}{\sum \frac1xf} $$
几何平均数(geometric mean):n个变量乘积的n次方根
- 适用于对比率数据的平均
- 主要用于计算平均增长率
- 计算公式如下:
$$ G_{m}=\sqrt[n]{x_{1} \times x_{2} \times \cdots \times x_{n}}=\sqrt[n]{\prod_{i=1}^{n} x_{i}} $$
几何平均数可以看做是平均数的一种变形:
$$ \lg G_{m}=\frac{1}{n}\left(\lg x_{1}+\lg x_{2}+\cdots+\lg x_{n}\right)\\ =\frac 1n\sum_{i=1}^n \lg x_i $$
例子:某个公司平均2016年相对2017年的增长率为109%,2017年相对2018年的增长率为116%,2019年相对2018年的增长率为120%,那么年平均增长率为:
$$ \begin{aligned} G_{m} &=\sqrt[n]{x_{1} \times x_{2} \times \cdots \times x_{n}} \\ &=\sqrt[3]{109 \% \times 116 \% \times 120 \%} \\ &=114.91 \% \end{aligned} $$
平均数的特性:
- 各变量与平均数的离差之和为0:
$$ \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)=0 $$
各变量与平均数的离差平方和最小:
$$ \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}=\min $$
小总结
众数
- 不受极端值影响
- 具有不唯一行
- 数据分布偏斜程度较大时应用
中位数、四分位数
- 不受极端值影响
- 护具分度偏斜程度较大时应用
平均数
- 容易受到极端值影响
- 数学性质优良
- 数据对称分布或者接近对称分布时使用
离散程度
- 离散趋势,也叫做离中趋势,是数据分布的另一个重要特征。
- 反应了各变量远离中心的程度
- 从另一个侧面说明了集中趋势测度的代表程度
- 不同类型的数据有不同的离散程度测度值
分类数据-异众比率(variation ratio)
对于分类数据,可以计算异众比率来得到离散程度。异众比率可以用来衡量众数的代表性。
异众比率就是对分类数据的非众数组占总频率的比例:
计算公式如下:
$$ v_{r}=\frac{\sum f_{i}-f_{m}}{\sum f_{i}}=1-\frac{f_{m}}{\sum f_{i}} $$
例子:
- 数据{10,5,9,12,68},没有众数,自然无法计算异众比率了,或者可以认为异众比率为100%
- 数据{6,5,9,8,5,5},众数为5,异众比率为3/6=1/2
- 数据{11,8,8,6,5,11},众数为 11,8,异众比率为:2/6=1/3
顺序数据-四分位差(quartile deviation)
对顺序数据离散程度的测度,也称为内距或者四分间距。其值为上四分位数与下四分位数的差:
$$ Q3-Q1 $$
反应了中间50%的数据的离散程度,不容易受极端值的影响,可以用于衡量中位数的代表性。
顺序数据-极差(range)
极差 就是最大值与最小值之差,也称为全距,很容易受到极端值的影响。
平均差(mean deviation)
平均差就是各单位与其平均数的离差的绝对值的平均数,如果数据分了很多组,可以求每组的平均差。
- 平均差能反应一组数据的离散程度
- 平均差数学性质较差,实际中应用较少
- 计算公式为:
$$ \text{未分组:}M_{d}=\frac{\sum_{i=1}^{n}\left|x_{i}-\overline{x}\right|}{n}\\ \text{分组数据:}M_{d}=\frac{\sum_{i=1}^{k}\left|M_{i}-\overline{x}\right| f_{i}}{n} $$
方差和标准差(variance and standard deviation)
方差就不需要多介绍了,是计算数据离散程度的最常用的指标。
- 方差反映了各个变量与均值的平均差异
- 根据总体数据量计算的,称为总体方差或标准差
- 根据样本数据计算的,称为样本方差或标准差
要注意一点,如果是样本方差,要减去一个自由度,也就是除以样本数$n-1$,而非样本数$n$
$$ s^{2}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}{n-1} $$
标准分数(standard score)
标准分数也称为标准化值
- 标准分数是对某一个值在一组数据中相对位置的度量
- 可用于判断一组数中是否有离群点
- 用于对变量的标准化处理
- 计算公式为(其中$s$为标准差):
$$ z_{i}=\frac{x_{i}-\overline{x}}{s} $$
- 标准分数的均值为0,方差为1
经验法则 68,95,99.7法则
通过标准差,可以使用一个经验法则,称为 68,95,99.7法则:
当一组数据对称分布时:
- 约有68%的数据在平均数加减1个标准差的范围内
- 约有95%的数据在平均数加减2个标准差的范围内
- 约有99.7%的数据在平均数加减3个标准差的范围内
切比雪夫不等式(Chebyshev's inequality)
如果一组数不对称分布,经验法则不适用,就可以使用切比雪夫不等式,它对任何形状的分布都适用。
切比雪夫不等式提供的是下界,也就是所占比至少多少。
对于任意分布形态的数据,根据切比雪夫不等式,可以知道:至少有$1-1/k^2$的数据落在$k$个标准差之内,其中$k>1$但不一定是整数。
举个例子:
- $k=2$可以推出至少有$75\%$的数据落在平均值加减2个标准差之内
- $k=3$可以推出至少有$89\%$的数据落在平均值加减3个标准差之内
- $k=4可以推出至少有$94%$的数据落在平均值加减4个标准差之内
相对离差程度:离散系数(coefficient of variation)
离散系数是标准差与均值之比
- 是对数据相对离散程度的度量
- 消除了数据水平高低和计量单位的影响
- 用于对不同组别数据离散程度的比较
- 计算公式如下
$$ v_{s}=\frac{s}{\overline{x}} $$
偏态和峰态(skewness & kurtosis)
偏态(偏度)
偏态分为左偏和右偏,具体如下图所示:
偏态系数计算方法如下:
- 根据原始数据计算:
$$ S K=\frac{n \sum\left(x_{i}-\overline{x}\right)^{3}}{(n-1)(n-2) s^{3}} $$
- 根据分组数据计算:
$$ S K=\frac{\sum_{i=1}^{k}\left(M_{i}-\overline{x}\right)^{3} f_{i}}{n s^{3}} $$
峰态(峰度)
峰度是指数据相对于标准正态的峰态。
- 峰态系数=0,峰度适中(mesokurtic)
- 峰态系数<0,扁平分布(platykurtic)
- 峰态系数>0,尖型分布(leptokurtic)
下面这个图非常形象地展示了不同峰度的分布的区别
峰度系数的计算公式:
- 根据原始数据计算
$$ K=\frac{n(n+1) \sum\left(x_{i}-\overline{x}\right)^{4}-3\left[\sum\left(x_{i}-\overline{x}\right)^{2}(n-1)\right]^{2}}{(n-1)(n-2)(n-3) s^{4}} $$
- 根据分组数据计算
$$ K=\frac{\sum\left(x_{i}-\overline{x}\right)^{4} f_{i}}{n s^{4}}-3 $$
可以算出,如果式子中减去3相关的项,可以将值与3比较,大于3则是尖型分布,小于3则是扁平分布。
学习交流:
微信:ElijahMingLiu