统计自读系列2——概括性度量集中趋势、离散趋势、峰态、偏态

博主： admin
发布时间：2019 年 05 月 19 日
608次浏览
暂无评论
5427字数
分类：统计学

数据的概括性度量是统计学中的重点基础，分为：

集中趋势
离散程度
偏态与峰态

集中趋势(central tendency)

集中趋势就是一组数据向其中心靠拢的倾向和程度。测度集中趋势，就是寻找数据水平的代表值或中心值。

不同类型的数据是用不同的集中趋势测度的，集中趋势的度量，对不同类型数据有如下方法：

分类数据：众数
顺序数据：中位数和分位数
数值型数据：平均数

测度方法是向下兼容的，比如分类数据的测度方法，可以用来测度顺序数据和数值型数据，顺序数据的方法可以用来测度数值型数据，反之则不行。

众数

众数就是一组数据中，出现次数最多的变量值。只适用于数量值较多的时候使用。众数主要用于分类数据比较多。

众数不会受到极端值的影响。

一组数据，可能没有众数，也可能有一个或多个众数。

例子：

数据{10,5,9,12,68}，就没有众数
数据{6,5,9,8,5,5},众数为5
数据{11,8,8,6,5,11},众数为 11,8

中位数和分位数

如果将数据按某个变量排列，排第50%个的数就是中位数，如果有两个数，就取它们的平均值。中位数不易受极端值的影响。

各个变量值与中位数的离差绝对值之和最低

中位数求法如下：

$$ M_{e}=\Bigg\{\begin{array}{l}{x\left(\frac{n+1}{2}\right)}&,n\text{为奇数} \\ {\frac{1}{2}\left\{x\left(\frac{n}{2}\right)+x\left(\frac{n}{2}+1\right)\right.}&,n\text{为偶数}\end{array} $$

例子：

一组数据{24,30,45,93,108}，中位数为45.
一组数据{24,30,45,46,93,108}，中位数为(45+46)/2=45.5.

四分位数分为：

四分之一分位数Q1：25%位置上的
四分之三分位数Q3：75%位置上的

四分位数也不会受到极端值影响。

同理，也可以计算十分位数、百分位数、千分位数……

平均数

平均数就是一组数据相加后除以数据个数的结果。容易受到异常值影响。

平均数分为两种：

简单平均数:就是权值相同
加权平均数:就是各组中的数据的值乘以频数，再除以频数的和：

$$ \bar x = \frac{M_1f_1+M2f_2+...M_kf_k}{f_1+f_2+...+f_k} $$

调和平均数(harmonic mean):又乘倒数平均数，是变量倒数的算数平均数倒数：
- 简单调和平均与加权调和平均

$$ H=\frac{1}{\frac{\sum_{x}^{1}}{n}}=\frac{n}{\sum \frac{1}{x}}\\ H=\frac{1}{\frac{\sum\frac{1}{x}f}{f}}=\frac{\sum f}{\sum \frac1xf} $$

几何平均数(geometric mean):n个变量乘积的n次方根
- 适用于对比率数据的平均
- 主要用于计算平均增长率
- 计算公式如下：

$$ G_{m}=\sqrt[n]{x_{1} \times x_{2} \times \cdots \times x_{n}}=\sqrt[n]{\prod_{i=1}^{n} x_{i}} $$

几何平均数可以看做是平均数的一种变形：

$$ \lg G_{m}=\frac{1}{n}\left(\lg x_{1}+\lg x_{2}+\cdots+\lg x_{n}\right)\\ =\frac 1n\sum_{i=1}^n \lg x_i $$

例子：某个公司平均2016年相对2017年的增长率为109%，2017年相对2018年的增长率为116%，2019年相对2018年的增长率为120%，那么年平均增长率为：

$$ \begin{aligned} G_{m} &=\sqrt[n]{x_{1} \times x_{2} \times \cdots \times x_{n}} \\ &=\sqrt[3]{109 \% \times 116 \% \times 120 \%} \\ &=114.91 \% \end{aligned} $$

平均数的特性：

各变量与平均数的离差之和为0：

$$ \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)=0 $$

各变量与平均数的离差平方和最小：

$$ \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}=\min $$

小总结

众数

不受极端值影响
具有不唯一行
数据分布偏斜程度较大时应用

中位数、四分位数

不受极端值影响
护具分度偏斜程度较大时应用

平均数

容易受到极端值影响
数学性质优良
数据对称分布或者接近对称分布时使用

离散程度

离散趋势，也叫做离中趋势，是数据分布的另一个重要特征。
反应了各变量远离中心的程度
从另一个侧面说明了集中趋势测度的代表程度
不同类型的数据有不同的离散程度测度值

分类数据-异众比率(variation ratio)

对于分类数据，可以计算异众比率来得到离散程度。异众比率可以用来衡量众数的代表性。

异众比率就是对分类数据的非众数组占总频率的比例：

计算公式如下：

$$ v_{r}=\frac{\sum f_{i}-f_{m}}{\sum f_{i}}=1-\frac{f_{m}}{\sum f_{i}} $$

例子：

数据{10,5,9,12,68}，没有众数，自然无法计算异众比率了，或者可以认为异众比率为100%
数据{6,5,9,8,5,5},众数为5,异众比率为3/6=1/2
数据{11,8,8,6,5,11},众数为 11,8，异众比率为：2/6=1/3

顺序数据-四分位差(quartile deviation)

对顺序数据离散程度的测度，也称为内距或者四分间距。其值为上四分位数与下四分位数的差：

$$ Q3-Q1 $$

反应了中间50%的数据的离散程度，不容易受极端值的影响，可以用于衡量中位数的代表性。

顺序数据-极差(range)

极差就是最大值与最小值之差，也称为全距，很容易受到极端值的影响。

平均差(mean deviation)

平均差就是各单位与其平均数的离差的绝对值的平均数，如果数据分了很多组，可以求每组的平均差。

平均差能反应一组数据的离散程度
平均差数学性质较差，实际中应用较少
计算公式为：

$$ \text{未分组：}M_{d}=\frac{\sum_{i=1}^{n}\left|x_{i}-\overline{x}\right|}{n}\\ \text{分组数据：}M_{d}=\frac{\sum_{i=1}^{k}\left|M_{i}-\overline{x}\right| f_{i}}{n} $$

方差和标准差(variance and standard deviation)

方差就不需要多介绍了，是计算数据离散程度的最常用的指标。

方差反映了各个变量与均值的平均差异
根据总体数据量计算的，称为总体方差或标准差
根据样本数据计算的，称为样本方差或标准差

要注意一点，如果是样本方差，要减去一个自由度，也就是除以样本数$n-1$，而非样本数$n$

$$ s^{2}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}{n-1} $$

标准分数(standard score)

标准分数也称为标准化值

标准分数是对某一个值在一组数据中相对位置的度量
可用于判断一组数中是否有离群点
用于对变量的标准化处理
计算公式为(其中$s$为标准差)：

$$ z_{i}=\frac{x_{i}-\overline{x}}{s} $$

标准分数的均值为0，方差为1

经验法则 68,95,99.7法则

通过标准差，可以使用一个经验法则，称为 68,95,99.7法则：

当一组数据对称分布时：

约有68%的数据在平均数加减1个标准差的范围内
约有95%的数据在平均数加减2个标准差的范围内
约有99.7%的数据在平均数加减3个标准差的范围内

切比雪夫不等式(Chebyshev's inequality)

如果一组数不对称分布，经验法则不适用，就可以使用切比雪夫不等式，它对任何形状的分布都适用。

切比雪夫不等式提供的是下界，也就是所占比至少多少。

对于任意分布形态的数据，根据切比雪夫不等式，可以知道：至少有$1-1/k^2$的数据落在$k$个标准差之内，其中$k>1$但不一定是整数。

举个例子：

$k=2$可以推出至少有$75\%$的数据落在平均值加减2个标准差之内
$k=3$可以推出至少有$89\%$的数据落在平均值加减3个标准差之内
$k=4可以推出至少有$94%$的数据落在平均值加减4个标准差之内

相对离差程度：离散系数(coefficient of variation)

离散系数是标准差与均值之比

是对数据相对离散程度的度量
消除了数据水平高低和计量单位的影响
用于对不同组别数据离散程度的比较
计算公式如下

$$ v_{s}=\frac{s}{\overline{x}} $$

偏态和峰态(skewness & kurtosis)

偏态(偏度)

偏态分为左偏和右偏，具体如下图所示：

偏态系数计算方法如下：

根据原始数据计算：

$$ S K=\frac{n \sum\left(x_{i}-\overline{x}\right)^{3}}{(n-1)(n-2) s^{3}} $$

根据分组数据计算：

$$ S K=\frac{\sum_{i=1}^{k}\left(M_{i}-\overline{x}\right)^{3} f_{i}}{n s^{3}} $$

峰态(峰度)

峰度是指数据相对于标准正态的峰态。

峰态系数=0，峰度适中(mesokurtic)
峰态系数<0，扁平分布(platykurtic)
峰态系数>0，尖型分布(leptokurtic)

下面这个图非常形象地展示了不同峰度的分布的区别

峰度系数的计算公式：

根据原始数据计算

$$ K=\frac{n(n+1) \sum\left(x_{i}-\overline{x}\right)^{4}-3\left[\sum\left(x_{i}-\overline{x}\right)^{2}(n-1)\right]^{2}}{(n-1)(n-2)(n-3) s^{4}} $$

根据分组数据计算

$$ K=\frac{\sum\left(x_{i}-\overline{x}\right)^{4} f_{i}}{n s^{4}}-3 $$

可以算出，如果式子中减去3相关的项，可以将值与3比较，大于3则是尖型分布，小于3则是扁平分布。

学习交流：
微信:ElijahMingLiu
Wechat

最后修改：2021 年 06 月 01 日 02 : 18 PM

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

统计自读系列2——概括性度量集中趋势、离散趋势、峰态、偏态

admin • 2019 年 05 月 19 日

数据的概括性度量是统计学中的重点基础，分为：

集中趋势
离散程度
偏态与峰态

集中趋势(central tendency)

集中趋势就是一组数据向其中心靠拢的倾向和程度。测度集中趋势，就是寻找数据水平的代表值或中心值。

不同类型的数据是用不同的集中趋势测度的，集中趋势的度量，对不同类型数据有如下方法：

分类数据：众数
顺序数据：中位数和分位数
数值型数据：平均数

测度方法是向下兼容的，比如分类数据的测度方法，可以用来测度顺序数据和数值型数据，顺序数据的方法可以用来测度数值型数据，反之则不行。

众数

众数就是一组数据中，出现次数最多的变量值。只适用于数量值较多的时候使用。众数主要用于分类数据比较多。

众数不会受到极端值的影响。

一组数据，可能没有众数，也可能有一个或多个众数。

例子：

数据{10,5,9,12,68}，就没有众数
数据{6,5,9,8,5,5},众数为5
数据{11,8,8,6,5,11},众数为 11,8

中位数和分位数

如果将数据按某个变量排列，排第50%个的数就是中位数，如果有两个数，就取它们的平均值。中位数不易受极端值的影响。

各个变量值与中位数的离差绝对值之和最低

中位数求法如下：

$$ M_{e}=\Bigg\{\begin{array}{l}{x\left(\frac{n+1}{2}\right)}&,n\text{为奇数} \\ {\frac{1}{2}\left\{x\left(\frac{n}{2}\right)+x\left(\frac{n}{2}+1\right)\right.}&,n\text{为偶数}\end{array} $$

例子：

一组数据{24,30,45,93,108}，中位数为45.
一组数据{24,30,45,46,93,108}，中位数为(45+46)/2=45.5.

四分位数分为：

四分之一分位数Q1：25%位置上的
四分之三分位数Q3：75%位置上的

四分位数也不会受到极端值影响。

同理，也可以计算十分位数、百分位数、千分位数……

平均数

平均数就是一组数据相加后除以数据个数的结果。容易受到异常值影响。

平均数分为两种：

简单平均数:就是权值相同
加权平均数:就是各组中的数据的值乘以频数，再除以频数的和：

$$ \bar x = \frac{M_1f_1+M2f_2+...M_kf_k}{f_1+f_2+...+f_k} $$

调和平均数(harmonic mean):又乘倒数平均数，是变量倒数的算数平均数倒数：
- 简单调和平均与加权调和平均

$$ H=\frac{1}{\frac{\sum_{x}^{1}}{n}}=\frac{n}{\sum \frac{1}{x}}\\ H=\frac{1}{\frac{\sum\frac{1}{x}f}{f}}=\frac{\sum f}{\sum \frac1xf} $$

几何平均数(geometric mean):n个变量乘积的n次方根
- 适用于对比率数据的平均
- 主要用于计算平均增长率
- 计算公式如下：

$$ G_{m}=\sqrt[n]{x_{1} \times x_{2} \times \cdots \times x_{n}}=\sqrt[n]{\prod_{i=1}^{n} x_{i}} $$

几何平均数可以看做是平均数的一种变形：

$$ \lg G_{m}=\frac{1}{n}\left(\lg x_{1}+\lg x_{2}+\cdots+\lg x_{n}\right)\\ =\frac 1n\sum_{i=1}^n \lg x_i $$

例子：某个公司平均2016年相对2017年的增长率为109%，2017年相对2018年的增长率为116%，2019年相对2018年的增长率为120%，那么年平均增长率为：

$$ \begin{aligned} G_{m} &=\sqrt[n]{x_{1} \times x_{2} \times \cdots \times x_{n}} \\ &=\sqrt[3]{109 \% \times 116 \% \times 120 \%} \\ &=114.91 \% \end{aligned} $$

平均数的特性：

各变量与平均数的离差之和为0：

$$ \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)=0 $$

各变量与平均数的离差平方和最小：

$$ \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}=\min $$

小总结

众数

不受极端值影响
具有不唯一行
数据分布偏斜程度较大时应用

中位数、四分位数

不受极端值影响
护具分度偏斜程度较大时应用

平均数

容易受到极端值影响
数学性质优良
数据对称分布或者接近对称分布时使用

离散程度

离散趋势，也叫做离中趋势，是数据分布的另一个重要特征。
反应了各变量远离中心的程度
从另一个侧面说明了集中趋势测度的代表程度
不同类型的数据有不同的离散程度测度值

分类数据-异众比率(variation ratio)

对于分类数据，可以计算异众比率来得到离散程度。异众比率可以用来衡量众数的代表性。

异众比率就是对分类数据的非众数组占总频率的比例：

计算公式如下：

$$ v_{r}=\frac{\sum f_{i}-f_{m}}{\sum f_{i}}=1-\frac{f_{m}}{\sum f_{i}} $$

例子：

数据{10,5,9,12,68}，没有众数，自然无法计算异众比率了，或者可以认为异众比率为100%
数据{6,5,9,8,5,5},众数为5,异众比率为3/6=1/2
数据{11,8,8,6,5,11},众数为 11,8，异众比率为：2/6=1/3

顺序数据-四分位差(quartile deviation)

对顺序数据离散程度的测度，也称为内距或者四分间距。其值为上四分位数与下四分位数的差：

$$ Q3-Q1 $$

反应了中间50%的数据的离散程度，不容易受极端值的影响，可以用于衡量中位数的代表性。

顺序数据-极差(range)

极差就是最大值与最小值之差，也称为全距，很容易受到极端值的影响。

平均差(mean deviation)

平均差就是各单位与其平均数的离差的绝对值的平均数，如果数据分了很多组，可以求每组的平均差。

平均差能反应一组数据的离散程度
平均差数学性质较差，实际中应用较少
计算公式为：

$$ \text{未分组：}M_{d}=\frac{\sum_{i=1}^{n}\left|x_{i}-\overline{x}\right|}{n}\\ \text{分组数据：}M_{d}=\frac{\sum_{i=1}^{k}\left|M_{i}-\overline{x}\right| f_{i}}{n} $$

方差和标准差(variance and standard deviation)

方差就不需要多介绍了，是计算数据离散程度的最常用的指标。

方差反映了各个变量与均值的平均差异
根据总体数据量计算的，称为总体方差或标准差
根据样本数据计算的，称为样本方差或标准差

要注意一点，如果是样本方差，要减去一个自由度，也就是除以样本数$n-1$，而非样本数$n$

$$ s^{2}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}{n-1} $$

标准分数(standard score)

标准分数也称为标准化值

标准分数是对某一个值在一组数据中相对位置的度量
可用于判断一组数中是否有离群点
用于对变量的标准化处理
计算公式为(其中$s$为标准差)：

$$ z_{i}=\frac{x_{i}-\overline{x}}{s} $$

标准分数的均值为0，方差为1

经验法则 68,95,99.7法则

通过标准差，可以使用一个经验法则，称为 68,95,99.7法则：

当一组数据对称分布时：

约有68%的数据在平均数加减1个标准差的范围内
约有95%的数据在平均数加减2个标准差的范围内
约有99.7%的数据在平均数加减3个标准差的范围内

切比雪夫不等式(Chebyshev's inequality)

如果一组数不对称分布，经验法则不适用，就可以使用切比雪夫不等式，它对任何形状的分布都适用。

切比雪夫不等式提供的是下界，也就是所占比至少多少。

对于任意分布形态的数据，根据切比雪夫不等式，可以知道：至少有$1-1/k^2$的数据落在$k$个标准差之内，其中$k>1$但不一定是整数。

举个例子：

$k=2$可以推出至少有$75\%$的数据落在平均值加减2个标准差之内
$k=3$可以推出至少有$89\%$的数据落在平均值加减3个标准差之内
$k=4可以推出至少有$94%$的数据落在平均值加减4个标准差之内

相对离差程度：离散系数(coefficient of variation)

离散系数是标准差与均值之比

是对数据相对离散程度的度量
消除了数据水平高低和计量单位的影响
用于对不同组别数据离散程度的比较
计算公式如下

$$ v_{s}=\frac{s}{\overline{x}} $$

偏态和峰态(skewness & kurtosis)

偏态(偏度)

偏态分为左偏和右偏，具体如下图所示：

偏态系数计算方法如下：

根据原始数据计算：

$$ S K=\frac{n \sum\left(x_{i}-\overline{x}\right)^{3}}{(n-1)(n-2) s^{3}} $$

根据分组数据计算：

$$ S K=\frac{\sum_{i=1}^{k}\left(M_{i}-\overline{x}\right)^{3} f_{i}}{n s^{3}} $$

峰态(峰度)

峰度是指数据相对于标准正态的峰态。

峰态系数=0，峰度适中(mesokurtic)
峰态系数<0，扁平分布(platykurtic)
峰态系数>0，尖型分布(leptokurtic)

下面这个图非常形象地展示了不同峰度的分布的区别

峰度系数的计算公式：

根据原始数据计算

$$ K=\frac{n(n+1) \sum\left(x_{i}-\overline{x}\right)^{4}-3\left[\sum\left(x_{i}-\overline{x}\right)^{2}(n-1)\right]^{2}}{(n-1)(n-2)(n-3) s^{4}} $$

根据分组数据计算

$$ K=\frac{\sum\left(x_{i}-\overline{x}\right)^{4} f_{i}}{n s^{4}}-3 $$

可以算出，如果式子中减去3相关的项，可以将值与3比较，大于3则是尖型分布，小于3则是扁平分布。

学习交流：
微信:ElijahMingLiu
Wechat

集中趋势(central tendency)

众数

中位数和分位数

平均数

小总结

离散程度

分类数据-异众比率(variation ratio)

顺序数据-四分位差(quartile deviation)

顺序数据-极差(range)

平均差(mean deviation)

方差和标准差(variance and standard deviation)

标准分数(standard score)

经验法则 68,95,99.7法则

切比雪夫不等式(Chebyshev's inequality)

相对离差程度：离散系数(coefficient of variation)

偏态和峰态(skewness & kurtosis)

偏态(偏度)

峰态(峰度)

发表评论 取消回复

统计自读系列2——概括性度量 集中趋势、离散趋势、峰态、偏态

集中趋势(central tendency)

众数

中位数和分位数

平均数

小总结

离散程度

分类数据-异众比率(variation ratio)

顺序数据-四分位差(quartile deviation)

顺序数据-极差(range)

平均差(mean deviation)

方差和标准差(variance and standard deviation)

标准分数(standard score)

经验法则 68,95,99.7法则

切比雪夫不等式(Chebyshev's inequality)

相对离差程度：离散系数(coefficient of variation)

偏态和峰态(skewness & kurtosis)

偏态(偏度)

峰态(峰度)

发表评论取消回复

统计自读系列2——概括性度量集中趋势、离散趋势、峰态、偏态