卡方检验一般指皮尔森卡方检验,是观察数据分布是否满足假设。
假设有$n$个分类,我们假设第$i$个分类出现的概率的期望为$E_i$,而其真实出现的概率为$O_i$,那么假设的卡方检验为:
$$ \sum_{i=1}^{n} \frac{\left(\mathrm{O}_{i}-E_{i}\right)^{2}}{E_{i}} \sim \chi^{2} $$
之后,根据自由度(自由度为n-1) 以及 算出来的卡方值,去查表,如果超过表中的数值,那么就拒绝假设。
要注意:
- 卡方检验是基于大样本,每个分类的样本的至少要大于5。
- 卡方检验是单尾建议
例子
假设,根据以前的比赛,今年中国拿金牌、银牌、铜牌的比例应该是2:3:5,而今年真实拿奖情况为28、38、34,我们要使用卡方检验判断我们的假设有没有错。
种类 | 金牌 | 银牌 | 铜牌 |
---|---|---|---|
观察值 | 28 | 38 | 34 |
首先要根据样本总数把期望值的数值求出来,分别是20,30,50。
种类 | 金牌 | 银牌 | 铜牌 |
---|---|---|---|
观察值 | 28 | 38 | 34 |
期望值 | 20 | 30 | 50 |
接下来,计算卡方值:
$$ \begin{align} \chi^2&=\frac{(28-20)^2}{20}+\frac{(38-30)^2}{30}+\frac{(34-50)^2}{50}\\ &=\frac{64}{20}+\frac{64}{30}+\frac{256}{50}=10.45 \end{align} $$
接下来,查表,自由度为$3-1=2$,置信度为$0.05$,可以查到结果为$5.99$,这个值远大于$10.45$,所以拒绝原假设。国家队比去年进步了很多!