数据的概括性度量是统计学中的重点基础,分为:

  • 集中趋势
  • 离散程度
  • 偏态与峰态

集中趋势(central tendency)

集中趋势就是一组数据向其中心靠拢的倾向和程度。测度集中趋势,就是寻找数据水平的代表值或中心值。

不同类型的数据是用不同的集中趋势测度的,集中趋势的度量,对不同类型数据有如下方法:

  • 分类数据:众数
  • 顺序数据:中位数和分位数
  • 数值型数据:平均数

测度方法是向下兼容的,比如分类数据的测度方法,可以用来测度顺序数据和数值型数据,顺序数据的方法可以用来测度数值型数据,反之则不行。

众数

众数就是一组数据中,出现次数最多的变量值。只适用于数量值较多的时候使用。众数主要用于分类数据比较多。

众数不会受到极端值的影响。

一组数据,可能没有众数,也可能有一个或多个众数。

例子:

  • 数据{10,5,9,12,68},就没有众数
  • 数据{6,5,9,8,5,5},众数为5
  • 数据{11,8,8,6,5,11},众数为 11,8

中位数和分位数

如果将数据按某个变量排列,排第50%个的数就是中位数,如果有两个数,就取它们的平均值。中位数不易受极端值的影响。

各个变量值与中位数的离差绝对值之和最低

中位数求法如下:

$$ M_{e}=\Bigg\{\begin{array}{l}{x\left(\frac{n+1}{2}\right)}&,n\text{为奇数} \\ {\frac{1}{2}\left\{x\left(\frac{n}{2}\right)+x\left(\frac{n}{2}+1\right)\right.}&,n\text{为偶数}\end{array} $$

例子:

  • 一组数据{24,30,45,93,108},中位数为45.
  • 一组数据{24,30,45,46,93,108},中位数为(45+46)/2=45.5.

四分位数分为:

  • 四分之一分位数Q1:25%位置上的
  • 四分之三分位数Q3:75%位置上的

四分位数也不会受到极端值影响。

同理,也可以计算十分位数、百分位数、千分位数……

平均数

平均数就是一组数据相加后除以数据个数的结果。容易受到异常值影响。

平均数分为两种:

  • 简单平均数:就是权值相同
  • 加权平均数:就是各组中的数据的值乘以频数,再除以频数的和:

$$ \bar x = \frac{M_1f_1+M2f_2+...M_kf_k}{f_1+f_2+...+f_k} $$

  • 调和平均数(harmonic mean):又乘倒数平均数,是变量倒数的算数平均数 倒数:

    • 简单调和平均 与 加权调和平均

$$ H=\frac{1}{\frac{\sum_{x}^{1}}{n}}=\frac{n}{\sum \frac{1}{x}}\\ H=\frac{1}{\frac{\sum\frac{1}{x}f}{f}}=\frac{\sum f}{\sum \frac1xf} $$

  • 几何平均数(geometric mean):n个变量乘积的n次方根

    • 适用于对比率数据的平均
    • 主要用于计算平均增长率
    • 计算公式如下:

$$ G_{m}=\sqrt[n]{x_{1} \times x_{2} \times \cdots \times x_{n}}=\sqrt[n]{\prod_{i=1}^{n} x_{i}} $$

几何平均数可以看做是平均数的一种变形:

$$ \lg G_{m}=\frac{1}{n}\left(\lg x_{1}+\lg x_{2}+\cdots+\lg x_{n}\right)\\ =\frac 1n\sum_{i=1}^n \lg x_i $$

例子:某个公司平均2016年相对2017年的增长率为109%,2017年相对2018年的增长率为116%,2019年相对2018年的增长率为120%,那么年平均增长率为:

$$ \begin{aligned} G_{m} &=\sqrt[n]{x_{1} \times x_{2} \times \cdots \times x_{n}} \\ &=\sqrt[3]{109 \% \times 116 \% \times 120 \%} \\ &=114.91 \% \end{aligned} $$

平均数的特性:

  • 各变量与平均数的离差之和为0:

$$ \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)=0 $$

各变量与平均数的离差平方和最小:

$$ \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}=\min $$

小总结

众数

  • 不受极端值影响
  • 具有不唯一行
  • 数据分布偏斜程度较大时应用

中位数、四分位数

  • 不受极端值影响
  • 护具分度偏斜程度较大时应用

平均数

  • 容易受到极端值影响
  • 数学性质优良
  • 数据对称分布或者接近对称分布时使用

离散程度

  • 离散趋势,也叫做离中趋势,是数据分布的另一个重要特征。
  • 反应了各变量远离中心的程度
  • 从另一个侧面说明了集中趋势测度的代表程度
  • 不同类型的数据有不同的离散程度测度值

分类数据-异众比率(variation ratio)

对于分类数据,可以计算异众比率来得到离散程度。异众比率可以用来衡量众数的代表性

异众比率就是对分类数据的非众数组占总频率的比例:

计算公式如下:

$$ v_{r}=\frac{\sum f_{i}-f_{m}}{\sum f_{i}}=1-\frac{f_{m}}{\sum f_{i}} $$

例子:

  • 数据{10,5,9,12,68},没有众数,自然无法计算异众比率了,或者可以认为异众比率为100%
  • 数据{6,5,9,8,5,5},众数为5,异众比率为3/6=1/2
  • 数据{11,8,8,6,5,11},众数为 11,8,异众比率为:2/6=1/3

顺序数据-四分位差(quartile deviation)

对顺序数据离散程度的测度,也称为内距或者四分间距。其值为上四分位数与下四分位数的差:

$$ Q3-Q1 $$

反应了中间50%的数据的离散程度,不容易受极端值的影响,可以用于衡量中位数的代表性。

顺序数据-极差(range)

极差 就是最大值与最小值之差,也称为全距,很容易受到极端值的影响。

平均差(mean deviation)

平均差就是各单位与其平均数的离差的绝对值的平均数,如果数据分了很多组,可以求每组的平均差。

  • 平均差能反应一组数据的离散程度
  • 平均差数学性质较差,实际中应用较少
  • 计算公式为:

$$ \text{未分组:}M_{d}=\frac{\sum_{i=1}^{n}\left|x_{i}-\overline{x}\right|}{n}\\ \text{分组数据:}M_{d}=\frac{\sum_{i=1}^{k}\left|M_{i}-\overline{x}\right| f_{i}}{n} $$

方差和标准差(variance and standard deviation)

方差就不需要多介绍了,是计算数据离散程度的最常用的指标。

  • 方差反映了各个变量与均值的平均差异
  • 根据总体数据量计算的,称为总体方差或标准差
  • 根据样本数据计算的,称为样本方差或标准差

要注意一点,如果是样本方差,要减去一个自由度,也就是除以样本数$n-1$,而非样本数$n$

$$ s^{2}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}{n-1} $$

标准分数(standard score)

标准分数也称为标准化值

  • 标准分数是对某一个值在一组数据中相对位置的度量
  • 可用于判断一组数中是否有离群点
  • 用于对变量的标准化处理
  • 计算公式为(其中$s$为标准差):

$$ z_{i}=\frac{x_{i}-\overline{x}}{s} $$

  • 标准分数的均值为0,方差为1

经验法则 68,95,99.7法则

通过标准差,可以使用一个经验法则,称为 68,95,99.7法则

当一组数据对称分布时:

  • 约有68%的数据在平均数加减1个标准差的范围内
  • 约有95%的数据在平均数加减2个标准差的范围内
  • 约有99.7%的数据在平均数加减3个标准差的范围内

切比雪夫不等式(Chebyshev's inequality)

如果一组数不对称分布,经验法则不适用,就可以使用切比雪夫不等式,它对任何形状的分布都适用。

切比雪夫不等式提供的是下界,也就是所占比至少多少。

对于任意分布形态的数据,根据切比雪夫不等式,可以知道:至少有$1-1/k^2$的数据落在$k$个标准差之内,其中$k>1$但不一定是整数。

举个例子:

  • $k=2$可以推出至少有$75\%$的数据落在平均值加减2个标准差之内
  • $k=3$可以推出至少有$89\%$的数据落在平均值加减3个标准差之内
  • $k=4可以推出至少有$94%$的数据落在平均值加减4个标准差之内

相对离差程度:离散系数(coefficient of variation)

离散系数是标准差与均值之比

  • 是对数据相对离散程度的度量
  • 消除了数据水平高低和计量单位的影响
  • 用于对不同组别数据离散程度的比较
  • 计算公式如下

$$ v_{s}=\frac{s}{\overline{x}} $$

偏态和峰态(skewness & kurtosis)

偏态(偏度)

偏态分为左偏和右偏,具体如下图所示:

偏态系数计算方法如下:

  • 根据原始数据计算:

$$ S K=\frac{n \sum\left(x_{i}-\overline{x}\right)^{3}}{(n-1)(n-2) s^{3}} $$

  • 根据分组数据计算:

$$ S K=\frac{\sum_{i=1}^{k}\left(M_{i}-\overline{x}\right)^{3} f_{i}}{n s^{3}} $$

峰态(峰度)

峰度是指数据相对于标准正态的峰态。

  • 峰态系数=0,峰度适中(mesokurtic)
  • 峰态系数<0,扁平分布(platykurtic)
  • 峰态系数>0,尖型分布(leptokurtic)

下面这个图非常形象地展示了不同峰度的分布的区别

峰度系数的计算公式:

  • 根据原始数据计算

$$ K=\frac{n(n+1) \sum\left(x_{i}-\overline{x}\right)^{4}-3\left[\sum\left(x_{i}-\overline{x}\right)^{2}(n-1)\right]^{2}}{(n-1)(n-2)(n-3) s^{4}} $$

  • 根据分组数据计算

$$ K=\frac{\sum\left(x_{i}-\overline{x}\right)^{4} f_{i}}{n s^{4}}-3 $$

可以算出,如果式子中减去3相关的项,可以将值与3比较,大于3则是尖型分布,小于3则是扁平分布。

学习交流:
微信:ElijahMingLiu
Wechat

最后修改:2021 年 06 月 01 日 02 : 18 PM
如果觉得我的文章对你有用,请随意赞赏