医学统计学重点知识总结 (2)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、平均数应用的注意事项
1.同质的资料计算平均数才有意义。
2.均数适用于:单峰对称分布的资料
3.几何均数适用于:对数变换后单峰对称的资料:等比资料、滴度资料、对数正态分布资料
4.中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数:偏态分布、分布不明资料、有不确定值的资料
二、抽样误差
1.由抽样引起的样本统计量与总体参数间的差别。
2.原因:个体变异+抽样
3.表现:样本统计量与总体参数间的差别;不同样本统计量间的差别
4.抽样误差是不可避免的!
5.抽样误差是有规律的!
三、中心极限定理(central limit theorem)
1.Case 1:从正态分布总体N(,2),中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则样本均数也服从正态分布。
2.Case 2:从非正态(nonnormal)分布总体(2)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要样本含量足够大(n>50),样本均数也近似服从正态分布。
四、统计推断的内容
1.参数估计:由样本统计量估计总体参数 (1)点估计
(2)区间估计:按一定的概率或可信度(1- α )用一个区间估计总体参数所在范围,这个范围称作可信度为1- α的可信区间(confidence interval, CI),又称置信区间 。
这种估计方法称为区间估计。
2.假设检验
五、正确理解可信区间的涵义
1.可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。
所谓95%的可信度是针对可信区间的构建方法而言的。
2.以均数的可信区间为例,其涵义是:如果重复100次抽样,每次样本含量均为n ,每个样本均按
构建可信区间,则在此100个可信区间内,理论上有95个包含总体均
数,而有5个不包含总体均数。
3.在区间估计中,总体参数虽未知,但却是固定的值(且只有一个),而不是随机变量值 。
例题:算得某95%的可信区间,则(E) A.总体参数有95%的可能落在该区间。
B.有95%的总体参数在该区间内。
C.该区间包含95%的总体参数。
D.该区间有95%的可能包含总体参数。
E.该区间包含总体参数,可信度为95%。
s
t X ν,05.0±
六、参考值范围(reference interval)
1.参考值范围又称正常值范围(normal range)。
2.什么是参考值范围:是绝大多数正常人的某观察指标所在的范围。
绝大多数:90%,95%,99%等等。
3.确定参考值范围的意义:用于判断正常与异常。
4.“正常人”的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。
七.标准差与标准误的区别与联系
联系
1.都是变异指标。
2.当n 不变时,标准差↑,标准误↑
区别
1.标准差描述原始数据的离散程度;
2.标准误反映均数的抽样误差大小。
3.结合样本均数和正态分布的规律,标准差估计参考值范围 ;
4.结合样本均数和t 分布的规律,标准误估计总体均数的可信区间 。
八、假设检验的步骤
1.建立假设
(1)零假设(null hypothesis),记为H0 H0:µµ0;
(2)备择假设(alternative hypothesis),记为H1 H1:µµ0。
2.确定检验水准:一般取α=0.05 小概率事件的判断标准
3.选定检验方法计算检验统计量
0X t s
n
μ-=
1
n ν=-
(1)统计量t 0的偏离。
这种偏离称为标准t 离差。
(2)根据抽样误差理论,在H0假设前提下,统计量t 服从自由度为n-1的t 分布,即t 值在0的附近的可能性大,远离0的可能性小,离0越远可能性越小。
(3)t 值越小,越利于H0假设;t 值越大,越不利于H0假设 4.计算概率P(与统计量t 值对应的概率)
在H0成立的前提下,获得现有这么大的标准t 离差以及更大离差 的可能性。
九、假设检验的基本步骤
1.建立检验假设
2.确定检验水准
n s s X =
3.计算检验统计量,界定P值
4.推断性结论:
当P时,拒绝H0,接受H1,差别有统计学意义。
当P时,不拒绝H0,差别尚无统计学意义。
十、均数的假设检验
1.样本均数与总体均数比较的t检验
2.配对设计计量资料的t检验
3.成组设计计量资料的t检验
4.成组设计计量资料的u检验
十一、配对设计定量资料的t检验
1.配对设计是研究者为了控制可能存在的主要的非处理因素而采用的一种实验设计方法。
(提高组间可比性)
2.自身配对:同一对象接受两种处理,如同一标本用两种方法进行检验,同一患者接受两种处理方法;
3.异体配对:将条件相近的实验对象配对,并分别给予两种处理。
十二、配对t 检验
1.首先求出各对数据间的差值d
2.若两处理因素的效应无差别,差值d的总体均数µd应该为0,故可将该检验理解为样本均数dµd =0的比较。
十三、两样本均数比较的t检验
1.完全随机设计:
(1)受试对象被随机分配到两组中,分别接受不同的处理。
(2)从两个总体中随机地抽取一部分个体进行研究。
例如手术组与非手术组、新药组与对照组等。
2.目的:推断µ1 =µ2?
十四、第一类错误与第二类错误
拒绝H0,接受H1 不拒绝H0 H0真实第一类错误(α ) 正确推断(1-α)
H0不真实正确推断(1-β) 第二类错误(β)
统计学上规定:H0真实时被拒绝为第一类错误(又称Ⅰ型错误,type Ⅰerror),H0不真实时不拒绝为第二类错误(又称Ⅱ型错误,type Ⅱerror)。
Ps:α的意义
1.I型错误的概率。
2.根据研究者的要求在计算检验统计量之前设定的。
3.确定α=0.05,即I型错误的概率为0.05,理论上100次抽样中发生这样的错误平均有5次。
PPS:P值的意义
1.从H0 总体中随机获得等于或大于现有统计量值的概率。
2.拒绝H0时所冒的风险
十五、检验效能
1.又称把握度Power of a test 1β
2.
3.例如1-β=0.9,意味着若两总体确有差别,则理论上100次抽样研究中,平均有90次能得出有差别的结论。
十六、两样本率的比较
1.目的: 推断两总体率是否相等
2.两样本率比较的u 检验(u test)
3.X2检验 (chi-square test)
例 :某医院研究某种新降压药治疗高血压病人的疗效,结果如下,问该新药治疗高血压的痊愈率和对照组是否相同?
四格表的理论频数由下式求得 :
R C
RC n n T n
=
式中:TRC 为第R 行C 列的理论频数,nR 为相应的行合计, nC 为相应的列合计 第一步:建立检验假设 H0π1=π2; H1π1≠π2。
第二步:确定检验水准 ɑ= 0.05 (双侧检验)
第三步:计算检验统计量 :
式中: A 为实际频数,T 为理论频数
T T A )
(2
2-∑
=χ
由于四格表资料为双边固定形式,即假设行合计与列合计均固定,所以四格表的自由度ν=1 ()()
1
ν=行数-列数-1
本例X 2 =6.93 >3.84 得P < 0.05。
按ɑ= 0.05水准拒绝H0,差别有统计学意义。
故可以认为两组总体痊愈率不相同。
十七、基本思想概括(X2)
1.若H0成立,则四个格子的实际频数A与理论频数T 之差异纯系抽样误差所致,故一般不
X22值的概率P是很小的。
2.因此,若根据实际样本资料求得一个很小的P,且P≤ɑ(检验水准),根据小概率原理,就有理由怀疑H0的真实性,因而拒绝它;若P>ɑH0
十八、配对两分类资料的比较
1.配对设计是医学研究中常用的设计方法之一,二分类结果资料的配对研究常用于比较两种检验方法、两种培养方法、两种提取方法等的差别。
2.2检验,又称作McNemar检验。
3.目的:通过单样本分析,推断两处理结果有无差别。
计算公式
b+c>40:
2 2
()
()
b c
b c χ-
=
+
20<b+c≤40:
2 2
(1)
() C
b c
b c
χ--
=
+
X2检验的应用条件
1.当b+c>40X2
2.当20<b+c≤40X2C
3.当b+c≤20时:计算确切概率
二十、两样本比较的秩和检验
1.检验假设
H0 :A、B两组等级分布相同;
H1 :A、B两组等级分布不同。
ɑ =0.05。
二十一、基本思想(质和检验)
1.如果H0 成立,即两组分布位置相同,则A组的实际秩和应接近理论秩n1(N+1)/2;B组的实际秩和应接近理论秩和n2(N+1)/
2.或相差不大,差值很大的概率应很小。
2.如果相差较大,超出了预定的界值,则可认为H0不成立。
【例8.3】某实验室观察在缺氧条件下猫和兔的生存时间,结果见表8.2,试检验在缺氧条件下猫和兔的生存时间有无差别?
检验假设
H0 :猫和兔在缺氧条件下生存时间总体分布相同 ; H1 :猫和兔在缺氧条件下生存时间总体分布不同 。
ɑ=0.05。
检验统计量T 值
n1=8,n2=12,检验统计量T=127.5 确定P 值和作出推断结论
查附表10得T 界值是58~110。
则双侧P<0.05 ɑ=0.05水准,拒绝H0,接受 H1,差异有统计学意义,故可认为在缺氧条件下猫的生存时间与兔不同。
二十二、配对符号秩和检验
1.Wilcoxon 符号秩和检验
2.计算等级之差值,对差值进行编秩,并冠以差值的符号。
3.查 T 界值表,或用近似 u 检验,计算 P 值;
4.界定 P 值,作出结论。
二十三、秩和检验的正确应用
1.主要对等级资料进行分析;
2.秩和检验可用于任意分布(distribution free)的资料;
3.非参数统计的主要优点是不受总体分布的限制,适用范围广。
4.非参数统计的主要缺点是符合参数检验的资料(如两样本均数比较的t 检验),如用非参数检验,因没有充分利用资料提供的信息,检验效率降低。
二十四、研究设计的三个要素
处理 、对象 、效应
例:观察某药物的降压效果,采用阳性对照
处理: 服用试验药、对照药(一个处理因素,两个水平) 对象: 原发性,轻、中度高血压 效应: 收缩压、舒张压的下降值
二十五、研究设计的基本原则
1.对照: 对照的作用、对照的形式、对照组设置的要求
2.随机: 随机化的作用、随机的含义、分层随机、分段随机
3.重复: 重复的作用、重复的次数
二十六、标准误
1.样本统计量的标准差称为标准误。
X n
σ
σ=
二十七、秩次与秩和
1.秩次(rank),秩统计量:是指全部观察值按某种顺序排列的位序;
2.秩和(rank sum):同组秩次之和。
二十八、样本含量较大时,用u 检验
二十九、多组比较的秩和检验
1.Kruskal-Wallis法
2.先对所有数据编秩,求各组秩和;
3.计算H 统计量;
4.查H 界值表,或用近似 2 检验,计算P 值;
5.界定P 值,作出结论。
三十、符号秩和检验的基本思想
1.总秩和为T=N(N+1)/2
2.如H0成立,则正负各半,T+ 与T-均接近N(N+1)/4。
3.如果相差太大,超出了事先规定的界值,则H0不成立。