卡方检验正式文稿演示

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

组别 甲组 乙组 合计
阳性数 a c
a+c
阴性数 b d
b+d
合计 a+b=n1 c+d=n2
N
率% a/n1 c/n2 (a+c)/N
各组样 本例数 是固定 的
另一个同样重要的分布—χ2卡方分布(Chisquared distribution)。
此分布在1875年,首先由F. Helmet所提出, 而且是由正态分布演变而来的,即标准正态 分布Z值之平方而得
设Xi为来自正态总体的连续性变量。
ui
Xi
u2 i
(Xi )2 2
12
n
u2 i
类似于方差的计算思想,
(x i X ) (A T 0 )2 (A T )2
Pearson χ2检验的基本公式
残差大小是一个相对的概念,
相对于期望频数为10时,20
的残差非常大;可相对于期
望频数为1000时20就很小了。
因此又将残差平方除以期望
频数再求和,以标准化观察
Karl Pearson (1857 – 1936) 频数与期望频数的差别。
检验统计量:χ2 应用:计数资料
基本概念
例1 某院比较异梨醇(试验组)和氢氯塞嗪 (对照组)降低颅内压的疗效,将200名患者 随机分为两组,试验组104例中有效的99例,对 照组96例中有效的78例,问两种药物对降低颅 内压疗效有无差别?
表 200名颅内高压患者治疗情况
编号 年龄 性别 治疗组 舒张压 体温 疗效
行分类
列分类(Y)
合计
(X) 发生数 未发生数

a=a99
b=b5
1a0+4b
单元格

c=c75
d=d21
c9+6d
合计
1a7+4c
b2+6 d
20n0
实际频数(actual frequency)是指各分类 实际发生或未发生计数值,记为A。
理论频数(theoretical frequency)是指按
5 0.41 0.55 … 9.24 11.07 12.83 …
6 0.68 0.87 … 10.64 12.59 14.45 …
7 0.99 1.24 … 12.02 14.07 16.01 …
8 1.34 1.65 … 13.36 15.51 17.53 …
0.005
7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95
卡方检验正式文稿演示
卡方检验正式
讲课内容: 1. 概述——基本思想 2. 2×2表卡方检验 3. 配对四格表卡方检验 4. Fisher确切概率检验 5. R×C表卡方检验 6. 多个样本率的多重比较 7. 有序分组资料的线性趋势检验
概念回顾
在总体率为π的二项分布总体中做n1和n2抽
样,样本率p1和p2与π的差别,称为率抽样误差。
2 (AT)2
T
卡方统计量,1900年由英国 统计学家K. Pearson首次提出。
(行 数1)(列 数1)
从卡方的计算公式可见,当观察频数与期 望频数完全一致时,卡方值为0;
观察频数与期望频数越接近,两者之间的 差异越小,卡方值越小;
反之,观察频数与期望频数差别越大,两 者之间的差异越大,卡方值越大。
当然,卡方值的大小也和自由度有关
检验的自由度取决于可以自由取值的格子 数目,而不是样本含量n。
理论上,在n≥40时下式值与χ2分布近似, 在理论数>5,近似程度较好。
χ2分布
连续型分布:正态分布(Normal distribution),学生氏t分布(Student’s tdistribution),F分布(F distribution)
1 37 男
A 11.27 37.5 有效
2 45 女
B 12.53 37.0 有效
3 43 男
A 10.93 36.5 有效
4 59 女 B 14.67 37.8 无效
………


……
200 54 男 B 16.80 37.6 无效
如何整理此类资料? 如何分析此类资料?
四格表(fourfold table)资料的基本形式
在总体率为π1和π2的不同总体中抽样,得p1
和p2,在nπ>5,可通过率的u检验推断是否
π1=π2。
u p1 p2 S p1 p2
二项分布的两个样本率的检验同样可用χ2检
验。
目的:
推断两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别 多个样本率的多重比较 两个分类变量之间有无关联性 频数分布拟合优度的检验。
n
(Xi
2
)2
2 n
i1
i1
称为自由度df=n的卡方值。
显然,卡方分布具有可加性。
χ2分布的概率密度函数曲线
纵高
0.5 0.4 0.3 0.2 0.1 0.0
0
f(2)2(1/2)22(/21)e2/2
自由度=1 自由度=2 自由度=3 自由度=6
P=0.05的临界值
3 3.84 6 7.81 9
78.1
合计
174
26
200
87.0
残差
– 设A代表某个类别的观察频数,T代表基于 H0计算出的期望频数,A与T之差(A-T)被 称为残差
残差可以表示某一个类别观察值和理论值的 偏离程度,但残差有正有负,相加后会彼此 抵消,总和仍然为0。为此可以将残差平方后 求和,以表示样本总的偏离无效假设的程度
某H0假设计算各分类理论上的发生或未 发生计数值,记为T。
TRC
nRnC N
式中,TRC 为第R 行C 列的理论频数
nR 为相应的行合计
nC 为相应的列合计
疗法 有效人数 无效人数 合计
有效率
试验组 99(90.48) 5(13.52) 104
95.2
对照组 75(83.52) 21(12.48) 96
1122.59 15
18
卡方值
附表 8 χ2 界值表
概率,P
自由度 0.995 0.990 … 0.100 0.050 0.025 …
υ
1
ቤተ መጻሕፍቲ ባይዱ
2.71 3.84 5.02 …
2 0.01 0.02 … 4.61 5.99 7.38 …
3 0.07 0.11 … 6.25 7.81 9.35 …
4 0.21 0.30 … 7.78 9.49 11.14 …
当υ=1时, 02.05,1u02.05/21.962
第二节 2×2表卡方检验
两组样本率比较的设计分类: 1.两组(独立) 样本率的比较
组间数据是相互独立,非配对设计。 2×2表卡方检验
2.配对设计两组样本率的比较 组间数据是相关的,配对设计。 配对四格表卡方检验
两组(不配对)样本率的比较
1)四格表形式
相关文档
最新文档