2009biostatistic8
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物统计学
瞿海斌
浙江大学药物信息学研究所
quhb@
药学院大楼327室
http://10.71.129.45:8088/data2009ftp.nsf
检验
2χ卡方检验(Chi-square test)是现代统计学的创始人
之一,英国人K . Pearson (1857-1936)于1900年
提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较、计数资料的关联度分析、拟合优度检验等等。
•率的反应为生与死、阳性与阴性、发生与不发生等二分类变量,如果二分类变量为非正反关系(如治疗A、治疗B);反应为多分类,如何进行假设检验?•率的正态检验要求:n足够大,且nπ≥5和n(1-π)≥5。如果条件不满足,如何进行假设检验?
目的:
推断两个总体率或构成比之间有无差别;
多个总体率或构成比之间有无差别;
多个样本率的多重比较;
检验两种属性或两个变量之间有无关联性(test of independence/association);
频数分布拟合优度的检验(goodness of fit)。
检验统计量:应用:计数资料(质反应数据)
2
χ
根据遗传学理论,新生儿的性别比例是
计某地区一年的876个新生儿中,有男孩
448人。按1:1的性别比例计算,男、
438人。以A表示实际观察次数,论次数,可将上述情况列成表
实际观察数A 理论观察数
从表看到,实际观察次数与理论次数存在一定的差异,这里男、女各相差10人。这个差异是属于抽样误差(把对该地区一年新生儿的性别统计当作是一次抽样调查)、还是新生儿性别比例发生了实质性的变化?
要回答这个问题,首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。
为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与理论次
数的差数。从表看出:A
1-T
1
=-10,A
2
-T
2
=10,由
于这两个差数之和为0,显然不能用这两个差数之和来表示实际观察次数与理论次数的偏离程
度。为了避免正、负抵消,可将两个差数A
1-T
1
、
A 2-T
2
平方后再相加,即计算∑(A-T)2,其值越
大,实际观察次数与理论次数相差亦越大,反之则越小。但利用∑(A-T)2表示实际观察次数与理论次数的偏离程度尚有不足。
例如某一组实际观察次数为505、理论次数为500,相差5;而另一组实际观察次数为26、理论次数为21,相差亦为5。显然这两组实际观察次数与理论次数的偏离程度是不同的。因为前者是相对于理论次数500相差5,后者是相对于理论次数21相差5。为了弥补这一不足,可先将各差数平方除以相应的理论次数后再相加,并记之为χ2,即
偏离程度的一个统计量,χ2越小,表明实际观察次数与理论次数越接近;χ2=0越大,表示两者相差越大。
对于表中的资料,可计算得
222
1010
438438A T )()
T −−=+
上面在属于离散型随机变量的次数资料的基础上引入了统计量χ2,它近似地服从统计学中一种连续型随机变量的概率分布⎯⎯χ2分布。
χ2统计量
•设X~N(0,1),又设X1,X2,…,X n是其的一个样本,它们的平方和记作χ2,即
χ2=X12+X22+…+X n2
称χ2为服从参数为n的χ2分布,记作χ2
~χ2(n), 参数n也称为自由度。
现从此总体中独立随机抽取n 个随机变量:,求出其标准正态离差:
σμ−=22x u
它服从自由度为n 的χ2分布,记为
~χ2(n);
21...n
u u u +++1
22
()(σμ
∑∑==−=n i i i x u 2
)
自由度=1自由度=2自由度=3自由度=6
只是近似地服从连续型随机变量布。在对次数资料进行χ2检验利用连续型随机变量分布计算概率时,常常偏低,特别是当自由度为
提出了一个矫正公式,矫正后的
当自由度大于1时,上述χ2分布与连续型随机变量χ2分布相近似,这时,可不作连续性矫正,但要求各组内的理论次数不小于5。
对于一组服从二项分布的观察阳性率,有的观察数,P 为加权平均2
()
(1)
i
i n p P P P −−∑
对于一组服从泊松分布的观察数=σ2,有
2
()x x x
−∑
检验总体分布
•总体x分布未知时,根据它的n个观察值来检验关于总体的分布的假设
H
: 总体x的分布函数为F(x)
–分布为离散时,H0:总体x的分布律为
P{x=t i}=p i, i=1,2,…
–分布为连续时,H0:总体x的概率密度f(x)
把随机试验结果的全体S分为k个互不相容的事
, A k。在假设H0下,可以计算,),i=1,…,k. 显然,在n次试验中,事件
/n与p i有差异。一般来说,若
f
i
真,则这种差异并不显著,若H
为假,则这种
差异就显著。基于这种想法,Pearson
•定理若n充分大(n>=50, 则不论总体属什么分布,统计量χ2总是近似服从自由度为k-r-1的χ2分布,其中r是被估计参数的个数
•若在假设H
0下,有χ2> χ2
α
( k-r-1),则在
水平α下拒绝H