卡方检验极简教程

admin

2015 年 07 月 13 日

560次浏览

暂无评论

890字数

统计学

卡方检验一般指皮尔森卡方检验，是观察数据分布是否满足假设。

假设有$n$个分类，我们假设第$i$个分类出现的概率的期望为$E_i$，而其真实出现的概率为$O_i$，那么假设的卡方检验为：

$$ \sum_{i=1}^{n} \frac{\left(\mathrm{O}_{i}-E_{i}\right)^{2}}{E_{i}} \sim \chi^{2} $$

之后，根据自由度(自由度为n-1) 以及算出来的卡方值，去查表，如果超过表中的数值，那么就拒绝假设。

要注意：

卡方检验是基于大样本，每个分类的样本的至少要大于5。
卡方检验是单尾建议

例子

假设，根据以前的比赛，今年中国拿金牌、银牌、铜牌的比例应该是2:3:5，而今年真实拿奖情况为28、38、34，我们要使用卡方检验判断我们的假设有没有错。

种类	金牌	银牌	铜牌
观察值	28	38	34

首先要根据样本总数把期望值的数值求出来，分别是20,30,50。

种类	金牌	银牌	铜牌
观察值	28	38	34
期望值	20	30	50

接下来，计算卡方值：

$$ \begin{align} \chi^2&=\frac{(28-20)^2}{20}+\frac{(38-30)^2}{30}+\frac{(34-50)^2}{50}\\ &=\frac{64}{20}+\frac{64}{30}+\frac{256}{50}=10.45 \end{align} $$

接下来，查表，自由度为$3-1=2$，置信度为$0.05$，可以查到结果为$5.99$，这个值远大于$10.45$，所以拒绝原假设。国家队比去年进步了很多！

卡方检验极简教程

例子

发表评论取消回复

广义拉格朗日函数及其对偶算法

支持向量机SVM 系列(1)——线性可分支持向量机

支持向量机SVM 系列(2)——对偶方法(Dual Method)

支持向量机SVM 系列(3)——核函数(Kernel Function)

支持向量机SVM 系列(4)——软间隔(soft-margin SVM)

偏导数、梯度、Jacobian矩阵、Hessian矩阵

支持向量机SVM 系列(5)——基于核函数的LogReg与岭回归

多步时间序列预测的总结-1

Python高级特性1

统计自读系列3——统计量及其抽样分布

卡方检验极简教程

例子

例子

发表评论 取消回复

卡方检验极简教程

例子

发表评论取消回复