统计方法包括 描述统计推断统计, 而推断统计包括 参数估计假设检验。这篇文章详细介绍假设检验。

想得到总体的参数,比如均值、方差 比较难,甚至是不可能的。所以需要在总体中抽取一定的样本,使用样本统计量 来估计 总体的参数。

估计量 与 估计值

  • 估计量:之前的文章统计自读系列——统计量及其抽样分布讲过如何通过样本计算样本的统计量,以及使用它们估计总体参数;
  • 总体的参数用$\theta$表示,样本的估计量用$\hat \theta$来表示;
  • 估计值:估计参数时计算的统计量就是估计值

点估计 以及 区间估计

估计方法包括 点估计区间估计

点估计

其中点估计包括:

  • 矩估计法
  • 顺序统计量法
  • 最大似然法
  • 最小二乘法

点估计就是用样本的估计量直接作为总体参数的估计值,比如用样本方差做总体方差、用两个样本均值之差做两个总体的均值之差。

点估计有个问题,就是没有给出点估计接近总体参数的程度的信息。

区间估计

在点估计的基础上,使用区间估计还可以给出总体参数估计量的一个区间范围,该区间由样本统计量加减抽样误差得到。

比如:某市平均身高为160~176之间,置信度为95%。

区间估计公式如下:

$$ \mu=\overline{x} \pm z_{\alpha / 2} \sigma_{\bar x} $$

  • 当包含90%样本时,$z_{\alpha/2}=1.65$,也就是加减1.65个标准差
  • 当包含95%样本时,$z_{\alpha/2}=1.96$,也就是加减1.96个标准差
  • 当包含99%样本时,$z_{\alpha/2}=2.58$,也就是加减2.58个标准差

img

置信水平

将构建置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比值,称为置信水平。

置信水平写为$1-\alpha$,是总体参数未在区间内的比例。

常用的置信水平包括$99\%,95\%,90\%$,对应的$\alpha$为$0.01,0.05,0.1$。

影响区间宽度的因素

  • 总体数据的离散程度
  • 样本容量:

$$ \sigma_{\overline{x}}=\frac{\sigma}{\sqrt{n}} $$

  • 置信水平$1-\Delta$,影响$z$的大小。

有偏和无偏

无偏性:估计量抽样分布的数学期望等于被估计的总体参数,也就是:

$$ E(\hat \theta)=\theta $$

如下图,$\hat\theta_1$就是无偏的,而$\hat \theta_2$就是有偏的。

1563245041646

有效性

有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效。

例如,下图中黑色的方差明显小于红色的,所以黑色的更有效。

1563245286957

一致性

一致性:随着样本容量的增加,估计量的值越来越接近被估计的总体参数。

把之前的图拿下来,较大样本量的就越接近黑色,样本量较小就接近红色。

可以看出来,一致性的思想和有效性异曲同工之妙。

1563245286957

一个总体参数的区间估计

首先来看总体参数 及 对应的 样本统计量的符号表示:

总体参数符号表示样本统计量
均值$\mu$$\bar x$
比值$\pi$$p$
方差$\sigma^2$$s^2$

总体均值的区间估计

正态总体、$\sigma$已知;或非正态总体、大样本

假定条件:

  • 总体服从正态分布,且方差$\sigma^2$已知
  • 如果不是正态分布,可由正态分布来近似样本数$n\ge 30$

使用正态分布统计$z$

总体均值$\mu$在$1-\alpha$置信水平下的置信区间为:

$$ \overline{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\\ \text{或}\\ \overline{x} \pm z_{\alpha / 2} \frac{s}{\sqrt{n}}\text{(}\sigma\text{未知)} $$

正态总体、$\sigma$未知,小样本

假定条件:

  • 总体服从正态分布,且方差$\sigma$未知
  • 小样本(样本数$n<30$)

使用$t$分布统计:

$$ t=\frac{\bar x - \mu}{s / \sqrt{n}}\sim t(n-1) $$

总体均值$\mu$在$1-\alpha$置信水平下的置信区间为:

$$ \overline{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} $$

$t$分布如下图,可以看到,样本量越大,$t$分布越接近正态分布。

Image result for t distribution

总体比例的区间估计

假定条件

  • 总体服从二项分布
  • 可以由正态分布来近似

使用正态分布统计量$z$:

$$ z=\frac{p-\pi}{\sqrt{\frac{\pi(1-\pi)}{n}}} \sim N(0,1) $$

总体比例$\pi$在$1-\alpha$置信水平下:

$$ p \pm z_{\alpha / 2} \sqrt{\frac{\pi(1-\pi)}{n}} \\ \text{或}\\ p \pm z_{\alpha / 2} \sqrt{\frac{p(1-p)}{n}}\text{(}\pi\text{未知)} $$

总体方差的区间估计

  • 估计一个总体的方差或标准差
  • 假定总体服从正态分布
  • 总体方差$\sigma^2$的点估计量是$s^2$,且

$$ \frac{(n-1) s^{2}}{\sigma^{2}} \sim x^{2}(n-1) $$

  • 总体方差在$1-\alpha$置信水平下的置信区间:

$$ \frac{(n-1) s^{2}}{x_{\alpha / 2}^{2}(n-1)} \leq \sigma^{2}\leq \frac{(n-1) s^{2}}{x_{1-\alpha / 2}^{2}(n-1)} $$

两个总体参数的区间估计

总体参数符号表示样本统计量
均值之差$\mu_1-\mu_2$$\bar x_1-\bar x_2$
比值之差$\pi_1-\pi_2$$p_1-p_2$
方差比$\sigma^2_1/\sigma^2_2$$s^2_1/s^2_1$

两个总体均值之差的区间估计

独立大样本

假定条件:

  • 两个总体都服从于正态分布,$\sigma_1^2$和$\sigma_2^2$已知
  • 若不是正态分布,可以用正态分布近似$(n_1\ge 30,n_2 \ge 30)$
  • 两个样本是独立的随机样本

使用正态分布统计量$z$:

$$ z=\frac{\left(\overline{x}_{1}-\overline{x}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}} \sim N(0.1) $$

$\sigma_1^2$和$\sigma_2^2$已知时,两个总体之差$\mu_1-\mu_2$在$1-\alpha$置信水平下的置信区间为:

$$ \left(\overline{x}_{1}-\overline{x}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}} $$

在$\sigma_1^2$和$\sigma_2^2$未知时,两个总体均值之差$\mu_1-\mu_2$在$1-\alpha$置信水平下的置信区间为

$$ \left(\overline{x}_{1}-\overline{x}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}} $$

独立小样本$\sigma_1^2=\sigma_2^2$

假定条件:

  • 两个总体都服从于正态分布
  • 两个总体方差未知但相等,,也就是$\sigma_1^2=\sigma_2^2$
  • 两个独立小样本$(n_1\le 30,n_2 \le 30)$

总体方差的合并估计量

$$ s_{p}^{2}=\frac{\left(n_{1}-1\right) s_{1}^{2}+\left(n_{2}-1\right) s_{2}^{2}}{n_{1}+n_{2}-2} $$

估计量$\overline{x}_{1}-\overline{x}_{2}$的抽样标准差

$$ \sqrt{\frac{s_{p}^{2}}{n_{1}}+\frac{s_{p}^{2}}{n_{2}}}=s_{p} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}} $$

两个样本均值差的标准化

$$ t=\frac{\left(\overline{x}_{1}-\overline{x}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \sim t\left(n_{1}+n_{2}-2\right) $$

两个总体均值之差$\mu_{1}-\mu_{2}$在$1-\alpha$置信水平的置信区间为:

$$ \left(\overline{x}_{1}-\overline{x}_{2}\right) \pm {t}_{\alpha / 2}\left(n_{1}+n_{2}-2\right)\sqrt{s^2_p\bigg(\frac{1}{n_1}+\frac{1}{n_2}\bigg)} $$

独立小样本$\sigma_1^2\ne\sigma_2^2$

假定条件:

  • 两个总体都服从于正态分布
  • 两个总体方差未知且不相等,也就是$\sigma_1^2\ne\sigma_2^2$
  • 两个独立小样本$(n_1\le 30,n_2 \le 30)$

使用统计量

$$ t=\frac{\left(\overline{x}_{1}-\overline{x}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}} \sim t(v)}\sim t(v) $$

两个总体均值之差$\mu_{1}-\mu_{2}$在$1-\alpha$置信水平的置信区间为:

$$ \left(\overline{x}_{1}-\overline{x}_{2}\right) \pm t_{\alpha / 2}(v) \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}} $$

自由度

$$ v=\frac{\left(\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}\right)^{2}}{\frac{\left(s_{1}^{2} / n_{1}\right)^{2}}{n_{1}-1}+\frac{\left(s_{2}^{2} / n_{2}\right)^{2}}{n_{2}-1}} $$

匹配大样本

假定条件:

  • 两个匹配的大样本$(n_1> 30,n_2 > 30)$
  • 两个总体各观察值的配对差都服从于正态分布

两个总体均值之差$\mu_{1}-\mu_{2}$在$1-\alpha$置信水平下的置信区间为

$$ \overline{d} \pm z_{\alpha / 2} \frac{\sigma_{d}}{\sqrt{n}} $$

匹配小样本

假定条件:

  • 两个匹配的大样本$(n_1< 30,n_2 < 30)$
  • 两个总体各观察值的配对差都服从于正态分布

两个总体均值之差$\mu_{1}-\mu_{2}$在$1-\alpha$置信水平下的置信区间为

$$ \overline{d} \pm t_{\alpha / 2}(n-1) \frac{s_{d}}{\sqrt{n}} $$

两个总体比例之差的区间估计

假定条件:

  • 两个总体服从二项分布
  • 可以用正态分布来近似
  • 两个样本是独立的

两个总体比例之差$\pi_1-\pi_2$在$1-\alpha$置信水平下的置信区间为:

$$ \left(p_{1}-p_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{p_{1}\left(1-p_{1}\right)}{n_{1}}+\frac{p_{2}\left(1-p_{2}\right)}{n_{2}}} $$

两个总体方差之间的区间估计

比较两个总体的方差比

用两个样本的方差比来判断

  • 如果$\mathcal{s}_{1}^{2} / \mathcal{s}_{2}^{2}$接近于1,说明两个总体方差很接近
  • 如果$\mathcal{s}_{1}^{2} / \mathcal{s}_{2}^{2}$远离1,说明两个总体方差存在差异

两个总体方差比在$1-\alpha$置信水平下的置信区间为

$$ \frac{s_{1}^{2} / s_{2}^{2}}{F_{\alpha / 2}} \leq \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \leq \frac{s_{1}^{2} / s_{2}^{2}}{\vec{F}_{1-\alpha / 2}} $$

其中:

$$ F_{1-\alpha / 2}\left(n_{1}, n_{2}\right)=\frac{1}{F_{\alpha / 2}\left(n_{2}, n_{1}\right)} $$

估计样本均值时样本容量的确定

$$ n=\frac{\left(z_{\alpha / 2}\right)^{2} \sigma^{2}}{E^{2}} $$

其中,

$$ E=z_{\alpha/2}\frac{\sigma}{\sqrt{n}} $$

样本容量$n$:

  • 与总体方差成正比
  • 与边际误差成反比
  • 与可靠性系数成正比

估计样本比例时样本容量的确定

$$ n=\frac{\left(z_{\alpha / 2}\right)^{2} \cdot \pi(1-\pi)}{E^{2}} $$

其中:

$$ E=z_{\alpha / 2} \sqrt{\frac{\pi(1-\pi)}{n}} $$

  • $E$的均值通常小于0.1
  • $\pi$未知时,可取最大值0.5

估计两个总体均值之差时样本容量的确定

设$n_1$和$n_2$来自两个总体的样本,并假设$n_1=n_2$,可以得到:

$$ n_{1}=n_{2}=n=\frac{\left(z_{\alpha / 2}\right)^{2} \cdot\left(\sigma_{1}^{2}+\sigma_{2}^{2}\right)}{E^{2}} $$

其中

$$ E=z_{\alpha / 2} \frac{\sigma_{1}+\sigma_{2}}{\sqrt{n}} $$

估计两个总体比例之差时样本容量的确定

设$n_1$和$n_2$来自两个总体的样本,并假设$n_1=n_2$,可以得到:

$$ n_{1}=n_{2}=n=\frac{\left(z_{\alpha / 2}\right)^{2} \cdot\left[\pi_{1}\left(1-\pi_{1}\right)+\pi_{2}\left(1-\pi_{2}\right)\right]}{E^{2}} $$

其中:

$$ E=z_{\alpha / 2} \frac{\pi_{1}\left(1-\pi_{1}\right)+\pi_{2}\left(1-\pi_{2}\right)}{\sqrt{n}} $$

学习交流:
微信:ElijahMingLiu
Wechat

最后修改:2021 年 06 月 01 日 02 : 20 PM
如果觉得我的文章对你有用,请随意赞赏