χ2检验
第五章 χ2检验
χ2的连续性矫正
由上式计算的 χ2 只是近似地服从连续型随机变 量 χ2 分布。在对次数资料迚行χ2 检验利用连续型随 机变量χ2分布计算概率时,常常偏高,特别是当自 由度为1时,偏差较大。
矫正后的χ2值记为χc2
当自由度大于1时, χ2分布与连续型随机变量
χ2分布相近似,这时,可不作连续性矫正,但要
总和
r1 r2
总和
R1= O11 + O12 R2= O21 + O22
C1= O11 + O21
C2= O12 + O22
T
给药方式与给药效果的2×2列联表 给药方式
口服 注射
有效
58 64
无效
40 31
总数
98(R1) 95(R2)
有效率
59.2% 67.4%
总数
122(C1)
71(C2)
193(T)
1.H0 :给药方式与给药效果相互独立。
HA :给药方式与给药效果有关联。
2.给出显著水平α=0.05
3.计算各个理论数 Eij=Ri×Cj/T=行总数×列总数/总数
E11= R1 × C1/T=61.95 E21= R2 × C1/T=60.05 E12= R1 × C2/T=36.05 E22= R2 × C2/T=34.95
本章内容
一、离散型数据 x2 统计量和 x2分布 二、拟合优度检验 三、独立性检验
拟合优度检验 (吻合度检验)
理论数可以通过一定的理论分布或某种学说 推算出。用实际观察数与理论数直接比较,从而得
出两者之间是否吻合,这一类检验称为吻合度检验。
独立性检验
分析两类因子是相互独立还是彼此相关。理论 值的推算没有什么理论或学说作依据,这时可假设 观察的各属性之间没有关联,然后证明这种无关联 的假设是否成立。这种检验称为独立性检验。
08-χ2 检验011014
专用计算公式:
2
A n( 1) n R nC
2
式中n是总例数,A是每个格子的实际频数, nR 、nC分别为某格子对应的行合计和列合计。
例6.14 市重污染区、一般市区和农村的出生婴儿 的致畸情况如下表示。问三个地区的出生婴儿致 畸率有无差别?
表6.14 某市三个地区出生婴儿的致畸率比较
3.实际频数(actual frequency, A):
实际资料中的数据。
4.无效假设下频数的重新分配
--理论频数(Therical frequency, T)
TRC
n R nC n
式中TRC表示R 行(row)C 列(column) 的理论频数,nR为相应行的合计,nC为相应列 的合计,n为总例数。
【教学内容】
一、四格表资料的χ2检验
(一)四格表资料的χ2检验 (二)四格表资料χ2检验的校正
二、行×列表资料的χ2检验
三、配对四格表资料的χ2检验
2检验 一、四格表资料的χ
(一)四格表资料的χ2检验
【例6.12】在某山区小学随机抽取男生
80人,其中肺吸虫感染23人;随机抽取女
生85人,其中肺吸虫感染13人。问该山区
例如,两种方法检测诊断n个病人,结果如下:
2
(3)确定 P 值,作出统计结论 2 2 ν =2,查χ 界值表χ 0.005(2)=10.60,P<0.005。在a=0.05 水准上, 拒绝 H0,接受 H1,可以认为该市三个地区出生婴儿的致畸率有差别。
表10
Χ2界值表(部分)
R×C表χ2检验应用的注意事项
1. 理论频数不宜太小,一般要求:不应有1/5 以上格子的理论频数小于5或有一个格子的理论 频数小于1。
非参数检验I:χ2检验
S
x ) ( xi1 S
x)
,
其中Ф为N(0,1)的分布函数,可查表得到。
T i = 200·Pi
男孩身高 是否符合正态分布3
2 r (Oi Ti )2 11.0963
i 1
Ti
x 自由度df = 9-1-2 = 6 (∵用, 、S2作为μ, σ2的估计量,
∴应再减去二个自由度)。查χ2分布表,得:
96
37
31
15
合计 179
是否符合9 : 3 : 3 : 1的规律2
2 3 (Oi Ti )2
i0
Ti
(96 100.6875)2 (37 33.5625)2 (31 33.5625)2 (15 11.1875)2
100.6875
33.5625
33.5625
11.1875
0.2182 0.3521 0.1956 1.2992
H0:Oi
=
T
i;HA:Oi
≠
T
,但检验是上
I
单尾检验。
(2)确定显著水平
(3) 由H0:Oi = T I出发,计算样本资料的χ2值 (4)根据df 和显著水平,查χ2临界值。
(5)结果判断 χ2大于χ2临界值,否定H0; χ2小于χ2临界值 ,接受H0;
Pearson统计量的应用主要有以下两个方面:
df = r c r c 1 (r 1) (c 1)
= (行总数-1)×(列总数-1)
计算各格理论值Ti
口服(B)
注射(B)
列总数
有效(A)
无效(A )
O1 = 58
98 122 T1 193 61.95
O3 = 64
T3
普通四格表χ2检验的条件(一)
普通四格表χ2检验的条件(一)普通四格表χ2检验的条件什么是χ2检验?χ2检验是统计学中常用的一种推断方法,用于检验样本频数分布是否符合假设的理论分布。
在实际应用中,常使用χ2检验来检验分类变量的独立性或某一样本的分布是否符合某一特定的理论分布。
普通四格表在χ2检验中,普通四格表(2x2表)是最常见的一种形式。
它由两个二元分类变量构成,每个变量各有两个取值。
用表格的形式可以表示为:取值1 取值2变量1 a b变量2 c d其中,a、b、c、d分别表示四个不同的样本频数。
χ2检验的条件进行χ2检验需要满足以下两个条件:1.样本的观测值应为独立随机变量所谓独立随机变量,就是指样本中的每一个观测值都不受其他观测值的影响,具有随机性。
不满足独立性的样本数据是不适合进行χ2检验的。
2.样本频数应符合要求要进行χ2检验,样本数据不仅需要独立,还需要满足一定的频数条件。
通常要求每个样本频数均不低于5。
如果某些样本频数低于5,需要合并相邻的样本数据,使其频数大于或等于5。
χ2检验是一种常用的统计推断方法,可以用来检验样本分布是否符合理论分布。
在进行χ2检验时,需要满足样本独立随机的条件和样本频数的要求。
对于普通四格表(2x2表),需注意样本频数是否符合要求。
导致χ2检验失效的因素1.样本容量过小当样本容量比较小时,会导致样本频数无法满足χ2检验的要求,从而导致检验结果不可靠。
2.样本数据不独立如果样本数据不是独立随机的,那么进行χ2检验就没有任何意义。
如连续测量的数据,通常采用t检验等方法进行统计分析。
3.样本数据分布不服从正态分布χ2检验在进行前是基于样本符合正态分布的假设的,如果样本数据不服从正态分布,则χ2检验的结果也会失真。
如何避免偏差?1.增加样本容量通常来说,样本容量越大,偏差越小。
在实际应用中,可以通过增加样本容量来提高数据的可靠性,避免因样本容量过小导致的偏差。
2.建立模型检验在样本数据不独立、不符合正态分布的情况下,可以使用其他的检验方法,如logistic回归、多元分析等方法,来建立模型检验数据的假设。
x2检验 医学统计学
基本思想
所谓两属性X和Y互相独立,是指属性X的概 率和属性Y的概率分布无关,否则称这两种 属性之间存在关联性。即
ij
ri cj
( nri n
)( ncj n
)
Tij
n ij
nri ncj n
1. 建立假设 H0:两种属性之间相互独立 H1:两种属性之间相互不独立
α=0.05
2. 计算检验统计
表10-1 两种药治疗急性下呼吸道感染有效率比较
处理
有效例数
无效例数
合计
有效率(%)
A药 B药 合计
68(64.818)a 52(55.182)c
120 (a+c)
6(9.182)b
74 (a+b)
11(7.818)d
63 (c+d)
17 (b+d)
137 (n=a+b+c+d)
91.89 82.54 87.59
P=0.01, x2 =6.63 ▪ P=0.05时, v=1, x2 =3.84
v=2, x2 =5.99
四格表χ2检验公式
当n≥40,T≥5时
2
( ARC TRC )2 TRC
2
ad bc2 n
a ca bc db d
1. 建立假设 H0:两药疗效相同 H1:两药疗效不相同
为两组疗效之间的差异有统计学意义。
观察组和对照组疗效比较
组别 显效 有效 无效
观察组 58
44
18
对照组 56
43
35
合计
114
87
53
配对四格表χ2检验
▪ 一般形式
甲属性
乙属性
第六章 χ2检验
二、计算检验统计量:
2 1 4 1 3
2
2 2 2 2 2 2 2 2 30 38 32 12 19 30 19 9 189 1 0 . 69 112 49 112 68 112 51 112 21 77 49 77 68 77 51 77 21
统计:按照α=0.05的检验水准,拒绝H0,接受H1,差异有统计学意义。 专业:结合本例,可以认为三种方法治疗慢性支气管炎的效果不同或 不全相同。
2.两组或多组样本构成比的比较
例6-4:欲了解儿童白血病患者的血型分布是否与成 年患者有所不同,资料见表6-4。试分析儿童白血病 患者与成年患者的血型分布构成比有无差别?
第六章 χ2检验
《医学统计学》余松林主编
本章内容
第三节 独立性检验 第四节 趋势检验 第五节 多个四格表的联合分析 第六节 四格表的费歇尔精确概率检验
第三节 独立性检验
本节介绍应用χ2检验推断两个或两个以 上总体率(或构成比)之间有无差别及 两分类变量间有无相关关系。
一、四格表资料的χ2检验 (两个样本率的比较)
表6-4 儿童急性白血病患者与成人急性白血病患者的血型分布
分组
儿童 成人 合计
A型 30
19 49
B型 38
30 68
O型 32
19 51
AB型 12
9 21
合计 112
77 189
解:
一、建立假设,确定检验水准:
H0:儿童白血病患者与成人患者的血型分布构成比相同 H1:儿童白血病患者与成人患者的血型分布构成比不相同 检验水准α=0.05。
二、计算检验统计量:
卡方检验
总体分布的拟合性检验(2)
• 例:某校314名学生在一次考试中的成绩分 布如下:A等22人,B等94人,C等113人,D 等69人,E等16人。问这一成绩是否服从正 态分布?
26
总体分布的拟合性检验(2)
• 首先,建立假设: • H0:实际成绩的等级人数分布与正态分布所 期待的理论次数分布无显著差异。 • H1:实际成绩的等级人数分布与正态分布所 期待的理论次数分布有显著差异。
2 2 2 2
9
χ2检验的基本公式
• 究竟χ2值大到什么程度才能说样本分布与理 论分布不一致呢?这要看样本的χ2值在其抽 样分布上出现的概率如何而定。 • 我们就用上面的例子说明χ2的抽样分布。如 果将上述所抽取的50个学生还回总体之中,再 从中随机抽取50个学生,又可以计算出一个样 本χ2值。这样反复抽下去,就会有一切可能 个样本χ2值。这一切可能个样本χ2值的分布, 就形成一个实验性的χ2抽样分布。
表 300次掷一颗六面体实验观测结果
点数
频数
I
O
1
43
2
49
3
56
4
45
5
66
6
41
13
总体分布的拟合性检验(1)
• 上例中的数据录入有两种方式,数据编号da ta10-01 和 data10-01a。data10-01是一种 直接录入原始数据的方式,只有一个变量, 在应用中可直接使用,但数据录入量较大。
对话框2
1选择行变量
7单击OK按钮
2单击按钮 3选择列变量 4单击按钮
5单击统计按钮, 进行设置
6单击单元格按钮, 进行设置
47
统计设臵
1选中χ2
2单击按钮
应用统计学(第六章 次数资料的χ2检验)
次有极为密切的关系。
若需进一步比较r×c列联表内组间的差异,可将r×c列联表做 成多个2×c列联表进行检验。
例4:碘治疗甲状腺肿效果与年龄关系3×4列联表
年龄(岁) 治愈
显效
好转 无效 合计
11~30 67(45.29) 9(17.87) 10(22.02) 5(5.82) 91
31~50 32(39.32) 23(15.51) 20(19.12) 4(5.05) 79
49.00
59.04
df=2, χ20.05 =5.992;χ2> χ20.05 ,P<0.05
推断:否定H0 ,接受HA。三种农药对烟蚜的毒杀效果 存在显著差异。
例3:肺门密度与矽肺期次的3×3列联表
矽肺期次
Ⅰ Ⅱ Ⅲ 合计
+ 43(249) 1(17.2) 6( 7.9)
50
肺门密度 ++
188(149.9) 96(103.4) 17( 47.7)
例5:为研究53BP2对肿瘤发生易感性的影响,建立了该基因的 基因敲除小鼠,其等位基因杂合型(-/+)和野生型(+/+)小鼠 在接受γ射线照射之后的肿瘤发生情况记录如下表。问该基 因是否影响小鼠对肿瘤的易感性?
肿瘤
无瘤
合计
野生型
3
16
19
杂合型
9
10
19
合计
12
26
38
解:组合概率计算
i
a
b
c
d
ij
T
(i=1,2,…
j=1,2,…)
3.理论数和χ2值的计算
理论数
r
c
Eij Oij Oij
x2检验法
2χ检验法2χ检验法是一种针对总体分布的假设检验。
当总体X 的分布未知时,我们根据一组样本12,,...,nx x x 的值检验关于总体分布的假设:0H :总体X 的分布函数为F(x);(1)若总体X 是离散的,则以上假设相当于0H :总体X 的分布率为()i i P X x p ==; (2)若总体X 是连续的,则以上假设相当于0H :总体X 的概率密度为()f x ;基本思想:将随机实验可能的结果的全体Ω分成k 个互不相容的事件12,,...,,()k i i A A A p A p =。
现重复作同一实验n 次,记事件A i 出现的频率为/i f n ,则当假设H 0为真且n 足够大时,/i f n 与i p 之间应该差异很小。
定理:若n 充分大(n>=50),则当H 0为真时总有2221()(1)ki i i if np k r np χχ=-=--∑,r 为被估计的参数的个数。
结论:对于假设0H (总体X 的分布函数为F(x)),当2221()(1)ki i i if np k r np αχχ=-=--≥∑时,我们认为原假设0H 不成立。
(α称为置信水平,通常取α=0.05)例1.婴儿出生时刻某医院为了研究一天中婴儿出生时刻的分布规律,对2880名婴儿进行了调查,据此分析婴儿出生时解:0H :婴儿出生时刻服从一天内的均匀分布。
记A i 表示婴儿出生时刻落在第i 小时(i=0,1,…,23),则对均匀分布有()1/24i P A =。
利用Excel 很容易计算出221()40.8333ki i i if np np χ=-==∑,在置信水平1-α=0.95下,利用Mathematica计算20.05(23)χ(若查表则更快捷)如下:调入统计函数库 取2(23)χ分布 调入代数函数库解不等式结果为35.1725验证所得结果由于40.8333>35.1725,故假设H 0不成立,即认为婴儿出生时刻不服从均匀分布。
9第八章 卡方检验
也称卡方检验。 检验也称卡方检验 χ2 检验 也称卡方检验 。 是英国统计 学家Pearson于 1900年提出的一种应 于 学家 年提出的一种应 用范围很广的假设检验方法, 用范围很广的假设检验方法,可用于 检验两个率间的差异; 检验两个率间的差异 ; 检验多个率 (或构成比 间的差异;判断两种属性 或构成比)间的差异 或构成比 间的差异; 或现象间是否存在关联性; 或现象间是否存在关联性;了解实际 分布与某种理论分布是否吻合; 分布与某种理论分布是否吻合;判断 两个数列间是否存在差异等。 两个数列间是否存在差异等。
计算公式
(a + b)!(c + d )!(a + c)!(b + d )! P= a!b!c!d!n!
式中a、b、c、d 和n的意义同前 , !为阶乘符号。0!= 1, 为阶乘符号。 1!= 1 ,3!= 3×2×1 = 6。
(三)求P值的步骤
• 1 . 列四格表 。 使四格表周边合计数 列四格表。 不变, 不变 , 依次增减四格表中任一格子 的数据,列出所有可能的四格表。 的数据,列出所有可能的四格表。 • 列四表格的数量 = 最小合计数 + 1 。 列四表格的数量= 最小合计数+ • 如例 8 -3 , 增减 a 格的数据 ,得 9 个 如例8 格的数据, 四格表。 四格表。
χ2分布的特点
• ⑴ χ2 分布的形状依赖于 ν 的大小 : 当 ν≤2 时 , 曲线呈 L 型 ; 随着 ν 的增加 , 曲线呈L 的增加, 曲线逐渐趋于对称; →∞时 曲线逐渐趋于对称 ; 当 ν→∞ 时 , 分布 趋近于正态分布。 趋近于正态分布。 • ⑵χ2分布具有可加性:如果两个独立的 分布具有可加性: 随机变量X1和X2分别服从ν1和ν2的χ2分 那么它们的和( 也服从( 布,那么它们的和(X1+X2)也服从(ν1+ ν2)的χ2分布。 分布。
【统计分析】x2检验
表 10-6
三种药物治疗老年 2 型糖尿病的疗效
有效
无效
合计
35
21
56
17
13
30
29
1
30
81
35
116
有效率(%) 62.5 56.7 96.7 69.8
单向有序R×C表
有两种形式
一种是R×C表中的分组变量(如年龄组)是有序的, 而指标变量(如传染病的类型)是无序的。其研究目 的通常是分析不同年龄组各种传染病的构成情况,此 种单向有序R×C表可用行×列表资料 χ2 检验进行分 析。
α=0.05
2. 计算检验统计
2 b c 12 2 11 12 4.92
bc
2 11
3. P<0.05 差异有统计学意义。
配对四格表资料的关联性检验
公式与普通四格表检验公式相同
1. 建立假设 H0:两法的结果无相关 H1:两法的结果相关
α=0.05 2. 计算检验统计
2
a
ad bc2 n ca bc d b
观察组和对照组疗效比较
组别 显效 有效 无效
观察组 58
44
18
对照组 56
43
35
合计
114
87
53
双向无序R×C表
若研究目的为多个样本率(构成比)的比较, 可用行×列表资料 χ2 检验; 若研究目的为分析两个分类变量直接有无关联 性,可用行×列表资料 χ2 检验及列联系数进 行分析。
组别 降糖 1 号 玉泉丸 格列本脲 合计
x2检验基本思想
组别
+
-
合计
A
a
B
c
合计
m1
第7章 χ2检验
89.02
70.27 80.13
2、计算卡方值 a=73 b=9 c=52 d=22 n=156 2 ( ad bc ) n 2 =8.59 (a b)(a c)(b d )(c d )
(四)四格表资料卡方检验的校正
1、校正条件: n≥40,且 1<T<5(一个及以上格子) 2、基本公式
那么A药组82人中理论上讲有效人数为65.7人
(82*80.13%=65.7),即第一行第一列的理论频
数为82*80.13%=65.7
n n R C 用计算,即 也可以 T RC n
T11=125*82/156=65.7)。
表7-1 两药治疗脑血管栓塞有效率比较
药物 A B 合计 有效 73 (65.7) 52 (59.3) 125 无效 9 (16.3) 22 (14.7) 31 合计 82 74 156 有效率(%) 89.02 70.27 80.13
a c
b d
73 52
9 3
四格表资料的基本形式
处理组 A药 B药 合 计 发生数 未发生数 合计 a+b c+d n
a c a+c
b d b+d
请判断下列a、b、c谁属四格表:两组大白鼠 在不同致癌剂作用下的发癌率如下表,问两组发 癌率有无差别?
表 处理 甲组 乙组 合计 不同致癌剂作用下大白鼠发癌率比较 例数 71 42 113 发癌数 52 39 91 未发癌数 19 3 22 发癌率% 73.24 92.86 80.33
T 怎么求 ?
n n R C T:理论频数(theoretical frequency) TRC n T 第R 行C 列的理论频数
χ2 检验.
1092 416
3072 416
合计 109 307 416
2 2 O T R 1 j 1 2 R1 R2 C j T 372 492 232 4162 109 307 187 149 80 7.692 2 2 2 O T R 2 j 2 2 R1 R2 C j T 1502 1002 572 4162 109 307 187 149 80 7.692 2
(1) H0 :豌豆F2分离符合9:3:3:1的自由组合规 律
HA :豌豆F2分离不符合9:3:3:1的自由组合 规律; (2)取显著水平α =0.05
(3)计算统计数χ2值:
χ2 =0.016+0.101+0.135+0.218=0.470
(4)查值表,进行推断: χ2< χ20.05
P>0.05
孟德尔分离规律
自由组合定律
例:有一鲤鱼遗传试验,以红色和青灰色杂交,其F2 代获得不同分离尾数,问观测值是否符合孟德尔 3:1遗传定律.
体色
青灰色 1503
红色 99
总数 1602
F2观测尾数
• (1)H0:鲤鱼体色分离符合3:1, HA:不符. • (2)确定显著水平α =0.05 • (3)计算χ 2:由于理论资料k=2,df=2-1=1,
307 80 E23 59.04 416
理论值的计算: 甲 乙 丙 死亡数 37(49.00) 49(39.04) 23(20.96) 未死亡数 150(138.00) 100(109.96) 57(59.04) 合计 187 149 80 合计 109 307 416
第六章χ2检验
ν=(行数-1)(列数-1)
=(R-1)(C-1)
7. χ2界值特点:在同一自由度下, χ2 值 越 大 , 相 应 的 概 率 P 值 越 小 ; χ2值越小,相应的概率P值越大。
8. X2分布是一种连续型分布:按X2分布 的密度函数f(X2,v)可给出自由度v=1,2, 3,……的一簇X2分布曲线(图7—1)。由 X2分布曲线可见,X2分布的形状依赖于 自由度V的大小:①当自由度v≤2,时, 曲线呈L型;②随着v的增加,曲线逐渐 趋于对称;③当自由度 v→∞时,X2分布 趋向正态分布。
一致性检验(计算Kappa值) 。
-+
+ ++ +++ 合计
++ +++
5.当多个样本率(或构成比)比较的χ2
检验,结论为拒绝检验假设,只能认 为各总体率(或总体构成比)之间总 的说来有差别,但不能说明它们彼此 之间都有差别,或某两者之间有差别。
若想进一步了解哪两者的差别有
统计学意义,可用χ2分割。(例6.7)
4.χ2值的含义:反映了实际频数与理 论频数的吻合程度。
χ2值永远是正值。(即χ2≥0)
5. χ2检验判别准则:
若 χ2<χ20.05(ν) , 则 P>0.05,不拒绝 无效假设H0;
若χ2≥χ20.05(ν) ,则P<0.05,拒绝无效 假设H0,接受H1 。
6. χ2分布的参数:自由度。其计算
(二) 四格表资料χ2检验专用公式:
(n≥40且所有的T≥5)
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
l 例6.1
第七章 χ2检验5
在计算理论推算值E与实际观测值O之间的符合程度时, 最简单的方法是比较两者差数的大小,但这并不能很 好的说明问题。 例如,在某动物育种实验中,F2代出现下面的分离:
表7-1
显然两次实验的(O - E)2都是16,但二者不能 等量齐观。对于K组资料,采用:
(7.2, 7.4)
式7.2中,O为实际观测值,E为理论推算值。 由公式可知,χ2最小值为0,随着χ2值的增
(7.8, 7.18)
例7.6 某医院用碘剂治疗地方性甲状腺肿, 不同年龄的治疗效果列于表5—10。试检验不 同年龄的治疗效果有无差异?
表7-10
分析:
(1) H0 :治疗效果与年龄无关; HA :治疗 效果与年龄有关,即不同年龄治疗效果不同;
(2)给出显著水平α =0.01; (3)计算统计数χ2 :
例7.1 有一鲤鱼遗传试验,以荷包红鲤(红 色)与湘江野鲤(青灰色)杂交,其F2代获得如 表5—2所列的体色分离尾数,问这一资料的 实际观察值是否符合孟德尔的青 : 红=3 : l 一对等位基因的遗传规律?
表7-2
分析:本题为判断定际观察值与理论比率是 否相符,属于典型的两组数据的适合性检验 问题。
或者写为(行 - 1)(列 - 1),进行推断。
若χ2 >χ2α ,则P<α ,表明实际观测数与理 论数不一致,应否定H0 ,接受HA ;
若χ2 <χ2 α ,则P>α ,表明实际观测数与理 论数相一致,应接受H0 ,否定HA 。
例7.4 调查经过种子灭菌处理与未经种子灭菌 处理的小麦发生散黑穗病的穗数,得结果于表 7.7,试分析种子灭菌与否和散黑穗病穗多少 是否有关。
第七章 χ2检验
本章内容
离散性资料(计数资料和属性资 料)的假设检验
χ2检 验
心理统计学ຫໍສະໝຸດ 立性或同质性χ2检验使用条件
检验对象
独立性χ2检验:推断两个离散型变量是否存在依从 关系
同质性χ2检验:推断几次重复试验的结果是否相同
待检变量:任意类型变量,但较适合于离散型 待检总体:任意类型总体
抽样分布 SPSS数据文件的结构:多个因变量 SPSS菜单操作 SPSS输出结果的解读
心理统计学
χ2检验
χ2检验的基本概念 χ2分布的特点 拟合优度χ2检验 独立性或同质性χ2检验
χ2检验
χ2检验的类型:
拟合优度χ2检验:推断某个变量是否服从某种特定分布 独立性χ2检验:推断两个离散型变量是否存在依从关系
同质性χ2检验:推断几次重复试验的结果是否相同
拟合优度χ2检验的统计量:
2 fo ft 2 ~ 2df r 1c 1
ft
经SPSS for Windows算得: χ2 = 10.480, P=0.033 (3)统计决断:
∵ χ2 = 10.480, P=0.033<0.05 ,∴在0.05 的 报显考著师性范水专平业上的拒态绝度与H0其,家接庭受经H1济,状认况为有高关三。学生对
独立性或同质性χ2检验
例8.3 从某中学随机抽取150名高三毕业学生,经调查, 其家庭经济状况和是否愿意报考师范专业的态度 如表所示,问高三学生对报考师范专业的态度与 其家庭经济状况是否有关?
解:检验步骤: (1)提出假设: (2)HH01计::算报报检考考验师师统范范计专专量业业的的的值态态及度度其与与概家家率庭庭:经经济济状状况况无有关关
解:检验步骤: ( (12))提计出算假检设验统:计HH01量::的幼幼值儿儿及的的其颜颜概色色率选选:择择无有倾倾向向性性
3、χ2检验
结果说明:
本例df=1,需用连续性校正公式, 故采用Continuity Correction(连续性校 正的卡方值)的统计结果。 χ2=7.944, P=0.005 结果表明灭螨剂A组的杀螨率极显 著高于灭螨剂B组
?
张文彤
C h i -S q u a r e Te s t s Value 6.133b 5.118 6.304 df Asymp. Sig. (2-sided) .013 .024 .012 Exact Sig. (2-sided) .018 Exact Sig. (1-sided) .011
间断变量。
本班男、女生人数: 药物治疗效果:
χ2检验与测量数据假设检验的区别(2)
测量数据所来自的总体要求呈正 态分布; χ2检验的数据所来自的总体分布 是未知的。
χ2检验与测量数据假设检验的区别(3) 测量数据的假设检验是对总体参数或 几个总体参数之差所进行的假设检验; χ2 检验在多数情况下不是对总体参
独立性检验
同质性检验
适合性检验(吻合度检验) 是指对样本的理论数先通过一 定的理论分布推算出来,然后用实际 观测值与理论数相比较,从而得出实 际观测值与理论数之间是否吻合。因 此又叫吻合度检验。
独立性检验
是指研究两个或两个以上的计数 资料或属性资料之间是相互独立的或 者是相互联系的假设检验。
通过假设所观测的各属性之间没
与理论值完全符合。 原理
理论值观测值χ2来自Ⅰ高Ⅱ
Ⅲ
低
χ2检验统计量的基本形式
χ2= ∑ (Oi-Ei)2 Ei
O:实际观察的频数(observational frequency) E:无效假设下的期望频数(expectation frequency)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
335 农村SMR: SMR 0.95 353 农村标准化患病率: p ' 42.1% 0.95 40.0%
3。应用标准化时的注意事项
(1)标准化法只适用于某因素在组内构成不同,并有 可能影响各组总率比较的情况。 (2)选择的标准人口不同,算出的标准化率也不同。 (3)标准化率不能反映实际水平,只是表示相互比较
人口数 死亡数 死亡率(%)
n1 n2
…
r1 r2
…
p1 p2
…
N1 N2
…
R1 R2
…
P1 P2
…
i
…
ni
…
ri
…
pi
…
Ni
…
Ri
…
Pi
…
k
合计
nk
n
rk
r
pk
p
Nk
N
Rk
R
Pk
P
例5-4
对表5-4资料,求甲、乙两种疗法标准化治愈率。
表5-4
病型 普通型
甲乙两种疗法治疗某病的治愈率比较
甲疗法 乙疗法
(1)χ2分布的定义
χ2分布是一种连续型随机变量的概率分布设X1 X2,…,Xν
是相互独立的随机变量,且均服从标准正态分布N(0,1),则
随机变量的平方和称为χ2变量
2 2 X12 X 2 X2
χ2变量服从自由度为ν的χ2分布,记为χ2~χ2 (ν)
(2)χ2分布的图形
0.3
某医院1991-1999年日门诊量
日门诊人次 指标符号(ai) 1200 a0 1500 a1 1600 a2 1670 a3 1750 a4 1820 a5 2210 a6 2680 a7 3450 a8
研究的初始时间称为基期,对应的指标数称为基数(a0)。
1。绝对增长量
绝对增长量是说明事物在一定时期增长的绝对值。 可分为两类 累计增长量:报告期指标与基期指标之差。
(2) 增长速度:发展速度-1,表示净增加速度。 定基比增长速度: 环比增长速度:
ai a0 1
ai ai 1 1
3。平均发展速度和平均增长速度
(1) 平均发展速度:是各环比发展速度的几何平
均数,说明某事物在一个较长时期中逐期(如逐
年)平均发展的速度。
平均发展速度: n
a n a0
(2) 平均增长速度:是各环比增长速度的平均数,
ai a 0
ai 1
逐年增长量:报告期指标与前一期指标之差。ai
2。发展速度和增长速度
发展速度和增长速度均为相对比,说明事物在一 定时期的速度变化。 (1) 发展速度:表示报告期指标的水平相当于某 一期指标水平的百分之几或若干倍。 定基比发展速度: 环比发展速度:
ai a0
ai ai 1
达21.3%-28.7%。8年间该医院年平均发展速度为
114.1%,年平均增长速度为14.1%。
动态数列的分析不仅可以总结过去,而且可以
进行预测,即根据平均发展速度的公式,计算几
年后达到的指标值。
如:预测2001年的日门诊量 根据资料可知2001年的日门诊量为a10,平均发 展速度为:n an a0 1.141
2 计数资料的描述和χ 检验
第一节 计数资料的统计描述
一、常用相对数
相对数:两个有关联的数值之比就称为相对数,
用以说明事物的相对水平。
常用的相对数: 强度相对数(率)、结构相对数(构成比)、相对比
表5-2 已婚育龄妇女不同情况下放环失败率的比较
放环情况 人工流产后
月经后 哺乳期 合计
放环人数 失败人数 失败人数比(%) 失败率(%) 255
10
a10 1200 1.141 a10 4488
一、率的抽样误差与标准误
(一)定义 在抽样研究中,由于抽样造成的样本率与总体率之间的 差异或者样本率之间的差异,称为率的抽样误差。 (二)计算:率的抽样误差大小用率的标准误来衡量。
(1 ) p n
一般情况下,由于我们研究的是样本,π未知,所以常 用p代替π,得到率的标准误的估计值:
选定标准构成 计算标准化率
① 直接法
已知标准组年龄别人口 数时:p
'
N
'
i
pi
N
Ni 已知标准组年龄别人口 构成比时:p ( ) pi N
② 间接法
r p P P SMR ni Pi
'
表
年龄组 1 2 …
计算标准化率的数据符号
被标化组 标准组 人口数 死亡数 死亡率(%)
87 17 359
78
39 9 126
61.9
31.0 7.1 100.0
30.6
44.8 52.9 35.1
二、应用相对数时的注意事项
1。结构相对数不能代替强度相对数 2。计算相对数应有足够数量 3。正确计算合计率 4。应注意资料的可比性 (其一:内部构成是否相同) 5。对比不同时期资料应注意客观条件是否相同 6。样本率(或构成比)的抽样误差
由度一定时,χ2值越大,P值越小;χ2值越小,
P值越大。
一、四格表资料的χ2检验
1。四格表资料(完全随机设计)
四格表的格式 分组 A组 B组 合计 + 合计
2 ( A T ) 2 T
2 ( ad bc ) n 2 (a b)(c d )(a c)(b d )
① 选择间接法 ② 选定另一个地区某年的50岁以上老年妇女 原发性骨质疏松的年龄组患病率Pi作为标准
③ 求预期患病人数
表5-8
标准 年龄组 患病率 (岁) ( Pi) 人口数 ( ni)
间接法计算标准化率
城市
预期患病人数 ( niPi) 人口数 ( ni)
农村
预期患病人数 ( niPi)
50607080合计
32.5
20.9 53.4
④ 计算甲、乙两种疗法的标准化治愈率 甲疗法的标准化治愈率:p’=47.5% 乙疗法的标准化治愈率:p’=53.4%
例5-6
经研究表明,女性原发行性骨质疏松随年
龄增长患病率增高。1998年某省在城市和农村分别
抽样调查了50岁以上的老年妇女776例和789例,这 些人中患有原发性骨质疏松症者城市为322例,农 村为335例,总患病率分别为41.5%和42.5%。由于 本次调查的城乡老年妇女的年龄构成不同,请对总
不稳定
表
年龄组 1 2 …
计算标准化率的数据符号
被标化组 标准组 人口数 死亡数 死亡率(%)
人口数 死亡数 死亡率(%)
n1 n2
…
r1 r2
…
p1 p2
…
N1 N2
…
R1 R2
…
P1 P2
…
i
…
ni
…
ri
…
pi
…
Ni
…
Ri
…
Pi
…
k
合计
nk
n
rk
r
pk
p
Nk
N
Rk
R
Pk
P
选择标准构成的方法:
三、率的标准化
表5-4
病型 普通型 重型 合计
甲乙两种疗法治疗某病的治愈率比较
甲疗法 乙疗法 病人数 治愈数 治愈率(%) 100 300 400 65 125 190 65.0 41.7 47.5 60.0 35.0 53.8
病人数 治愈数 治愈率(%) 300 100 400 180 35 215
1.标准化法的意义和基本思想
几组资料的合计率要做比较,由于某一影响因素
在资料中的内部构成不同,不能直接比较。采用统
一的标准构成进行调整,以消除构成不同对合计率
的影响,使调整后的率具有可比性,这种方法叫率
的标准化法,调整后的率叫调整率或标准化率,用 p’
表示。
2。标准化率的计算
(1)标准化方法 常用的标准化方法:直接法和间接法,要根 据资料的条件选择不同的方法计算标准化率。 以对死亡率的年龄构成标准化为例: 直接法:已知年龄别死亡率 间接法:只有总死亡数和年龄别人口数,无年龄 别死亡率;或各年龄组人口数较小,年龄别死亡率
21.3
46.1 65.5 71.7 42.1
354
251 130 41 776
75
116 85 29 305
241
315 175 58 789
51
145 115 42 353
④ 计算城乡两地的SMR及标准化患病率
322 SMR 1.05 305 城市标准化患病率: p ' 42.1% 1.05 44.2%
患病率进行标准化,然后比较。
表5-7
1998年某省城乡女性的原发性骨质疏松症患病率比较
农村 调查人数 患病人数 患病率 241 315 175 58 789 … … … … 335 … … … … 42.5
城市 年龄组 (岁) 调查人数 患病人数 患病率 50607080合计 354 251 130 41 776 … … … … 322 … … … … 41.5
几组资料任选一组资料的人口数(或人口构
成)作为标准。——适用于直接法 几组资料各部分人口数之和组成的人口数 (或人口构成)作为标准。——适用于直接法 另外选用一个通用的或者便于比较的标准作 为标准,如全国、全省或全地区的数据作为标 准。——直接法和间接法均可
(2)计算标准化率的步骤
根据资料的条件选用直接法或间接法
的资料间的相对水平。
(4)标准化率是样本率,存在抽样误差。
四、动态数列及其分析指标
动态数列是一系列按时间顺序排列起来