医学统计9-非参数检验
医学统计学最佳选择题
---------------------------------------------------------------最新资料推荐------------------------------------------------------医学统计学最佳选择题医学统计学最佳选择题一、绪论医学统计学最佳选择题一、绪论 1.下面的变量中,属于分类变量的是 A.脉搏 B.血型C.肺活量 D.红细胞计数 E.血压 2.下面的变量中,属于数值变量的是 A.性别 B.体重 C.血型 D.职业 E.民族 3.下列有关个人基本信息的指标,其中属于有序分类变量的是 A.学历 B.民族 C.职业 D.血型 E.身高 4.若要通过样本作统计推断,样本应是 A.总体中典型的一部分 B.总体中任意部分C.总体中随机抽取的一部分 D.总体中选取的有意义的一部分E.总体中信息明确的一部分 5. 统计量是指 A.是统计总体数据得到的量 B.反映总体统计特征的量 C.是根据总体中的全部数据计算出的统计指标 D.是用参数估计出来的量 E.是由样本数据计算出来的统计指标 6.下列关于概率的说法,错误的是 A.通常用 P 表示 B.大小在 0~1 之间 C.某事件发生的频率即概率 D.在实际工作中,概率是难以获得的 E.某事件发生的概率 P0.05 时,称为小概率事件。
7.减少抽样误差的有效途径是 A.避免系统误差 B.控制随机测量误差 C.增大样本含量 D.减少样本含量 E.以上都不对二、定量资料的统计描述 1.用均数和标准差能用于全面描述下列哪种资料的特征 A.正偏态分布 B.负偏态分布 C.正态分布 D.对数正态分布 E.任意分布 2.当各观察值呈倍数变1 / 13化(等比关系)时,平均数宜用 A.均数 B.几何均数 C.中位数 D.相对数 E.四分位数间距 3.某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是 A. M B. G C. X D. P 95 E. CV 4. 对于正态分布的资料,理论上 A. 均数比中位数大 B. 均数比中位数小 C. 均数等于中位数 D. 均数与中位数无法确定孰大孰小 E. 以上说法均不准确 5.当资料两端含有不确定值时,描述其变异度宜采用 A. R B. CV C. S 2 D. S E. Q 6.关于标准差,哪项是错误的 A.反映全部观察值的离散程度 B.度量了一组数据偏离均数的大小C.反映了均数代表性的好坏D.一定大于或等于零E.不会小于算术均数 7.各观察值均加(或减)同一非 0 常数后 A.均数不变,标准差改变 B.均数改变,标准差不变 C.两者均不变 D.两者均改变 E.以上都不对 8.比较身高和体重两组数据变异度大小宜采用 A.方差 B.标准差 C.极差 D.变异系数 E.四分位数间距 9. 横轴上,正态曲线下从 6 .9 1 到的面积为 A.95% B.97.5% C.49.5% D.47.5% E.45% 三、定性资料的统计描述 1.某病患者 200 人,其中男性 180 人,女性 20 人,分别占90%与10%,则结论为 A 男性易患该病 B 女性易患该病C 男、女性患该病概率相等D 根据该资料可以计算出男、女性的患病率 E 尚不能得出结论 2.一种新的治疗方法不能治愈---------------------------------------------------------------最新资料推荐------------------------------------------------------病人,但能使病人寿命延长,则会发生的情况是 A 该病患病率增加B 该病患病率减少 C 该病发病率增加 D 该病发病率减少 E 该病患病率和发病率均不变。
医学统计学 -第10章 基于秩次的非参数检验
H0:多个总体分布相同(或者中位数相等) H1:多个总体分布不同或不全相同(或者中位数不全相等)
26
例10.5
某医院用3种方法治疗15例胰腺癌患者,每种方 法各治疗5例,治疗后生存月数如下表,问3种方法的 疗效有无差别?
当n≤50时,通过查T界值表来确定是否波动过
大
T在界值范围内,波动不大
P>α
T在界值范围外或等于界值时,波动大,P≤α
11
(4) 查表及推断结论 查T界值表T0.05(16)=29~107 由于T=28在上下界值范围外,所以P≤0.05。 按a=0.05检验水准拒绝H0,接受H1,可以 认为该厂工人尿铅含量不当地正常人有差异, 通过正负秩和的大小可以推断工人的尿铅含 量要高于正常人。
第十章 基于秩次的非参数检验
1
假设检验的方法分为两类
参数检验(parametric test)
已知总体分布类型,对未知参数(μ、π)进行统计推断 依赖于特定分布类型,比较的是参数 一般有严格的适用条件
如:样本来自正态分布、总体方差齐同等 这类方法比如:t检验、F检验等
非参数检验(nonparametric test)
Z
T n1(N 1) / 2 0.5
n1n2 (N 3 N
12N(N 1)
(t
3 j
t
j
))
2036 40(84 1) / 2 0.5
40 44 (843 84 (323 32) (323 32) (203 20)) 12 40 (84 1)
7.01
由于Z=7.01,大于Z0.05=1.96,所以P<0.05,按照α=0.05 检验水准拒绝H0,接受H1,可以认为夏冬两季居民体 内核黄素含量有差别。根据平均秩次可以知道夏季的含
医学统计学09秩和检验
22
u=
|11186 − 88(216 + 1) / 2 − 0.5 128 × 88 × (216 + 1) /12
(t 3 − t j ) ∑ j (N 3 − N )
= 3.628
C = 1− = 1−
823 − 82 ) + ( 783 − 78 ) + ( 303 − 30 ) + ( 263 − 26 ) ( 216 − 216
9
秩和
A组: - 、±、+、+、+、 ++ 秩和: 1 2 4.5 4.5 4.5 8.5
TA=25
B组: +、++、++、++、+++、+++ 秩和: 4.5 8.5 8.5 8.5 11.5 11.5 TB=53
TA+TB=N(N+1)/2=78
10
秩次:在一定程度上反映了等级的高低; 秩和:在一定程度上反映了等级的分布位置。 对等级的分析,转化为对秩次的分析。 秩和检验就是通过秩次的排列求出秩和,对总 体的分布进行假设检验。
α =0.05。
编秩 ,求秩和T。 确定检验统计量T 若两样本例数不等,以例 数较少者为n1,检验统计量T=T1=560.5。 确定P值,作出推断结论
29
560.55 − 24 × (68 + 1) / 2 − 0.5 u= = 3.4265 24 × 44 × (68 + 1) / 12
(16 3 − 16) + ( 28 3 − 28) + (19 3 − 19) + (5 3 − 5) C = 1− 68 3 − 68
医学统计学第5版单选题
《医学统计学》单项选择题摘自:马斌荣主编、医学统计学、第5版、北京:人民卫生出版社,2008第一章1、医学统计学研究的对象就是A 、医学中的小概率事件 C 、动物与人的本质 E.有变异的医学事件医学统计中的基本概念B 、各种类型的数据 D 、疾病的预防与治疗2、用样本推论总体,具有代表性的样本指的就是A.总体中最容易获得的部分个体B.在总体中随意抽取任意个体C.挑选总体中的有代表性的部分个体D.用配对方法抽取的部分个体E.依照随机原则抽取总体中的部分个体答案:E E D E A第二章集中趋势的统计描述1、某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标就是 A 、中位数 B 、几何均数 C 、均数 D 、 P 95百分位数E 、频数分布3、下列观测结果属于等级资料的就是A.收缩压测量值 C.住院天数 E.四种血型4、随机误差指的就是A 、测量不准引起的误差 C 、选择样本不当引起的误差 E 、由偶然因素引起的误差 5、收集资料不可避免的误差就是 A 、 随机误差C 、过失误差B.脉搏数 D.病情程度B 、由操作失误引起的误差 D 、选择总体不当引起的误差B 、系统误差 D 、记录误差2、算术均数与中位数相比,其特点就是A.不易受极端值的影响 C.抽样误差较大E.更适用于分布不明确资料3、一组原始数据呈正偏态分布,其数据的特点就是A 、数值离散度较小B 、数值离散度较大C 、数值分布偏向较大一侧D 、数值分布偏向较小一侧E 、数值分布不均匀4、将一组计量资料整理成频数表的主要目的就是A.化为计数资料 B 、便于计算C 、形象描述数据的特点D 、为了能够更精确地检验E 、提供数据与描述数据的分布特征5、6人接种流感疫苗一个月后测定抗体滴度为1:20、1:40、1:80、1:80、1:160、1:320, 求平均滴度应选用的指标就是A 、均数B 、几何均数C 、中位数D 、百分位数E 、倒数的均数答案:A B D E B第三章离散程度的统计描述1、变异系数主要用于A.比较不同计量指标的变异程度 B 、衡量正态分布的变异程度 C 、衡量测量的准确度 D 、衡量偏态分布的变异程度E 、衡量样本抽样误差的大小2、对于近似正态分布的资料,描述其变异程度应选用的指标就是A 、变异系数B 、离均差平方与C 、极差D 、四分位数间距E 、 标准差3、某项指标95%医学参考值范围表示的就是A 、检测指标在此范围,判断“异常”正确的概率大于或等于95%B 、检测指标在此范围,判断“正常”正确的概率大于或等于95%C 、在“异常”总体中有95%的人在此范围之外D 、在“正常”总体中有95%的人在此范围E 、检测指标若超出此范围,则有95%的把握说明诊断对象为“异常”B.能充分利用数据的信息4.应用百分位数法估计参考值范围的条件就是A.数据服从正态分布B.数据服从偏态分布C.有大样本数据D.数据服从对称分布E.数据变异不能太大5.已知动脉硬化患者载脂蛋白B的含量(mg/dl)呈明显偏态分布,描述其个体差异的统计指标应使用A.全距B.标准差C.变异系数D.方差E.四分位数间距答案:A E D B E第四章抽样误差与假设检验1、样本均数的标准误越小说明A、观察个体的变异越小B、观察个体的变异越大C、抽样误差越大D、由样本均数估计总体均数的可靠性越小E、由样本均数估计总体均数的可靠性越大2、抽样误差产生的原因就是A、样本不就是随机抽取B、测量不准确C、资料不就是正态分布D、个体差异E、统计指标选择不当3、对于正偏态分布的的总体,当样本含量足够大时,样本均数的分布近似为A、正偏态分布B、负偏态分布C、正态分布D、t分布E、标准正态分布4、假设检验的目的就是A、检验参数估计的准确度B、检验样本统计量就是否不同C、检验样本统计量与总体参数就是否不同D、检验总体参数就是否不同E、检验样本的P值就是否为小概率5、根据样本资料算得健康成人白细胞计数的95%可信区间为7、2X109/L〜9、1X109/L, 其含义就是A、估计总体中有95%的观察值在此范围内B、总体均数在该区间的概率为95%C、样本中有95%的观察值在此范围内D、该区间包含样本均数的可能性为95%E、该区间包含总体均数的可能性为95%答案:E D C D E第五章t检验1、两样本均数比较,检验结果P 0.05说明A、两总体均数的差别较小B、两总体均数的差别较大C、支持两总体无差别的结论D、不支持两总体有差别的结论E、可以确认两总体无差别2、由两样本均数的差别推断两总体均数的差别,其差别有统计学意义就是指A、两样本均数的差别具有实际意义B、两总体均数的差别具有实际意义C、两样本与两总体均数的差别都具有实际意义D、有理由认为两样本均数有差别E、有理由认为两总体均数有差别3、两样本均数比较,差别具有统计学意义时,P值越小说明A、两样本均数差别越大B、两总体均数差别越大C、越有理由认为两样本均数不同D、越有理由认为两总体均数不同E、越有理由认为两样本均数相同4、减少假设检验的H类误差,应该使用的方法就是A、减少I类错误B、减少测量的系统误差C、减少测量的随机误差D、提高检验界值E、增加样本含量5.两样本均数比较的t检验与u检验的主要差别就是A、t检验只能用于小样本资料B、u检验要求大样本资料C、t检验要求数据方差相同D、t检验的检验效能更高E、u检验能用于两大样本均数比较答案:D E D E B第六章方差分析1、方差分析的基本思想与要点就是A.组间均方大于组内均方B.组内均方大于组间均方C.不同来源的方差必须相等D.两方差之比服从F分布E.总变异及其自由度可按不同来源分解2、方差分析的应用条件之一就是方差齐性,它就是指A、各比较组相应的样本方差相等B、各比较组相应的总体方差相等C、组内方差二组间方差D、总方差二各组方差之与E、总方差二组内方差+组间方差3、完全随机设计方差分析中的组间均方反映的就是A 、随机测量误差大小B 、某因素效应大小C 、处理因素效应与随机误差综合结果D 、全部数据的离散度E 、各组方差的平均水平4、对于两组资料的比较,方差分析与t 检验的关系就是A 、t 检验结果更准确B 、方差分析结果更准确C 、t 检验对数据的要求更为严格D 、近似等价E 、完全等价5.多组均数比较的方差分析,如果P 0.05,则应该进一步做的就是A.两均数的t 检验B.区组方差分析C.方差齐性检验D. q 检验E.确定单独效应答案:E B C E D第七章相对数及其应用1、如果一种新的治疗方法能够使不能治愈的疾病得到缓解并延长生命则应发生的情 况就是A 、该病患病率增加B 、该病患病率减少C 、该病的发病率增加D 、该病的发病率减少E 、该疾病的死因构成比增加2、计算乙肝疫苗接种后血清学检查的阳转率,分母为A 、乙肝易感人数 C 、乙肝疫苗接种人数E 、 乙肝疫苗接种后的阳转人数4、影响总体率估计的抽样误差大小的因素就是A 、总体率估计的容许误差B 、样本率估计的容许误差C 、检验水准与样本含量D 、检验的把握度与样本含量E 、总体率与样本含量B 、平均人口数 D 、乙肝患者人数3、计算标准化死亡率的目的就是A 、减少死亡率估计的偏倚C 、便于进行不同地区死亡率的比较E 、便于进行不同时间死亡率的比较B 、减少死亡率估计的抽样误差 D 、消除各地区内部构成不同的影响5、研究某种新药的降压效果,对100人进行试验,其显效率的95%可信区间为0、862〜0、 926,表示A.样本显效率在0、862〜0、926之间的概率就是95% B 、有95%的把握说总体显效率在此范围内波动 C 、有95%的患者显效率在此范围D 、样本率估计的抽样误差有95%的可能在此范围E 、该区间包括总体显效率的可能性为95%答案:A C D E E第八章 X 2检验1、利用X 2检验公式不适合解决的实际问题就是A 、比较两种药物的有效率B 、检验某种疾病与基因多态性的关系C 、两组有序试验结果的药物疗效D 、药物三种不同剂量显效率有无差别E 、两组病情“轻、中、重”的构成比例2.欲比较两组阳性反应率,在样本量非常小的情况下(如勺< 10,n 2 < 10 ),应采用A 、四格表X 2检验B 、校正四格表X 2检验C 、Fisher 确切概率法D 、配对X 2检验E 、校正配对X 2检验从甲、乙两文中,查到同类研究的两个率比较的X 2检验,甲文X 2 > X ;0i'i ,乙文X 2 >X 2,可认为0.05,1A 、两文结果有矛盾 C 、甲文结果更为可信 E 、甲文说明总体的差异较大5、下列哪一项不就是两组有效率比较检验功效的相关因素(原题的选项设置不合适,已 进行了修改)A 、1型错误B 、理论频数C 、样本含量D 、总体率差别E 、11型错误3.进行四组样本率比较的X 2检验,如X 2 > X O.01,3 ,可认为A 、四组样本率均不相同 C 、四组样本率相差较大E.至少有两组总体率不相同B 、四组总体率均不相同 D 、 至少有两组样本率不相4、 B 、两文结果完全相同 D 、乙文结果更为可信答案:C C E C B第九章非参数检验1.对医学计量资料成组比较,相对参数检验来说,非参数秩与检验的优点就是A、适用范围广B、检验效能高C.检验结果更准确D、充分利用资料信息E、不易出现假阴性错误2、对于计量资料的比较,在满足参数法条件下用非参方法分析,可能产生的结果就是A、增加I类错误B、增加H类错误C、减少I类错误D、减少II类错误E、两类错误都增加3、两样本比较的秩与检验,如果样本含量一定,两组秩与的差别越大说明A、两总体的差别越大B、两总体的差别越小C、两样本的差别可能越大D、越有理由说明两总体有差别E、越有理由说明两总体无差别4、多个计量资料的比较,当分布类型不清时,应选择的统计方法就是A、方差分析B、Wilcoxon T检验C、Kruskal-Wallis H检验D、u检验1、X 2检验5.在一项临床试验研究中,疗效分为“痊愈、显效、有效、无效”四个等级现欲比较试验组与对照组治疗效果有无差别,宜采用的统计方法就是A、Wilcoxon秩与检验B、2 x 4列联表X 2检验C、四格表X2检验D、Fisher确切概率法E、计算标准化率答案:A B D C A第十章线性相关与回归1、使用最小二乘法确定直线回归方程的原则就是A、各观察点距回归直线的纵向距离之与最小B、各观察点距回归直线的横向距离之与最小C、各观察点距回归直线的垂直距离平方与最小D、各观察点距回归直线的纵向距离平方与最小E、各观察点距回归直线的横向距离平方与最小2、两数值变量相关关系越强,表示A、相关系数越大B、相关系数的绝对值越大B、回归系数越大C、回归系数的绝对值越大E、相关系数检验统计量的t值越大3、回归分析的决定系数R 2越接近于1,说明A、相关系数越大B、回归方程的显著程度越高C、应变量的变异越大D、应变量的变异越小E、自变量对应变量的影响越大4、两组资料作回归分析,直线回归系数b较大的一组,表示A.两变量关系密切的可能性较大B.检验显著的可能性较大C.决定系数R2较大D.决定系数R2可能大也可能小E.数量依存关系更密切6、1—7岁儿童可以用年龄(岁)估计体重(市斤),回归方程为Y = 14 + 4X ,若将体重换成国际单位kg,则此方程A.常数项改变B.回归系数改变C.常数项与回归系数都改变D.常数项与回归系数都不改变E.决定系数改变答案:D B E D C第十一章多元线性回归与多元逐步回归1、在疾病发生危险因素的研究中,采用多变量回归分析的主要目的就是A.节省样本B.提高分析效率C.克服共线影响D.减少异常值的影响E.减少混杂的影响2、多元线性回归分析中,反映回归平方与在应变量Y的总离均差平方与中所占比重的统计量就是A、简单相关系数B、复相关系数C、偏回归系数D、回归均方E、决定系数R 23、对同一资料作多变量线性回归分析,若对两个具有不同个数自变量的回归方程进行比较,应选用的指标就是A.决定系数B、相关系数C、偏回归平方与D、校正决定系数E、复相关系数4、多元线性回归分析,对回归方程作方差分析,检验统计量F值反映的就是A.所有自变量与应变量间就是否存在线性回归关系B.部分自变量与应变量间就是否存在线性回归关系C.自变量与应变量间存在的线性回归关系就是否较强D.自变量之间就是否存在共线E、回归方程的拟合优度5、在多元回归分析中,若对某个自变量的值都乘以一个常数c(。
医学统计学 9第九讲 秩和检验
7
2.20 0.05 2.5 2.99 0.84
8
2.12 -0.03 -1 3.19 1.04
9
2.42 0.27
4
3.37 1.22 10
2.52 0.37
5
4.57 2.42 11
1. 建立假设 H0:差值总体中位数为0 H1:差值总体中位数不为0;
α=0.05 2. 计算统计量: T+=62.5,T-=3.5
B组:1
2
4.5 4.5 4.5
+
8.5
++
++
++
+++
+++
6 8 9 10 11 12
4.5 8.5 8.5 8.5 11.5 11.5
秩和
A组: - 、、+、+、+、 ++ 秩和: 1 2 4.5 4.5 4.5 8.5
TA=25
B组: +、++、++、++、+++、+++ 秩和: 4.5 8.5 8.5 8.5 11.5 11.5
(4)将秩次冠以正负号,计算正、负秩和(T+,T-); T++T- =n(n+1)/2
(5)用不为“0”的对子数n及T(取绝对值小的秩和作为统
计量T)查T界值表,得到P值作出判断。
编秩
A组: - 、、+、+、+、++ B组: +、++、++、++、+++、+++
医学统计学总结2
九、非参数秩和检验1、非参数统计:有许多资料不符合参数统计的要求,分布是未知,不能用参数统计的方法进行检验,而需要一种不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验,而是对总体的分布或分布位置进行检验,成为非参数检验2、参数检验与非参数检验的比较3、秩和检验:是非参数统计中一种常用的检验方法,其中“秩”又称等级、即按数据大小排定的次序号,上述次序号的和称“秩和”,秩和检验就是用秩和作为统计量进行假设检验的方法4、配对资料符号的秩和检验(1)基本思想假定两种处理效应相同,则差值的总体分布对称,总体中位数为0,也就是说样本的正负秩和绝对值应相近;反之,若两种处理效应不同,则差值总体中位数不为0,中位数偏离0越明显,样本的正负秩和绝对值就会相差越大,原假设H0成立的可能性越小(2)适用条件:1)配对设计的计量资料,但不服从正态分布或分布未知2)配对设计的等级资料(3)一般步骤:1)建立检验假设,确定检验水准H0:差值的总体中位数为0H1:差值的总体中位数不为0a=0.052)编秩次并求秩和统计量先算出各对值的代数差,根据差值绝对值的大小编秩,将秩次冠以正负号;若差值为“0”,舍去不计,总的对子数也要减去此对子数(记为n);若遇到相同数值在不同组,要取平均秩次;最后分别计算正负秩次之和T+和T-,任取其中一个作为检验统计量T(习惯取较小者)3)确定P值,作出推断①当5<n≦50时,可根据n和T查配对设计用的T界值表,若检验统计量T值在上下界值范围内,则P值大于表上方对应的概率值,即0.05;若T值在上下界值外,则P值小于表上方对应的概率值②当n>50时,无法查表,可利用秩和分布的近似正态分布法进行检验;当相同秩次较多时,应采用校正公式进行校正(公式不用记)5、两独立样本比较的秩和检验(1)基本思想如果H0成立,在两样本来自分布相同的总体,两样本的平均秩次应相等或很接近,与总的平均秩次(N+1)/2相差较小;含量为n1的样本的秩和T1应在n1(N+1)/2的左右变化;若T 值偏离此值太远,H0发生的可能性就很小;若偏离出给定的a值所确定的范围内,即P<a,拒绝H0(2)适用条件:完全随机设计的两个样本比较,若不满足参数检验的应用条件,则用本法;两个等级资料比较(3)查表法1)建立假设检验,确定检验水准H0:两总体分布相同H1:两总体分布不同a=0.052)确定秩和检验统计量T首先编秩号,排序时若有相同数据,取平均秩次,进而将两组数据的秩次分别求和,若两组例数相同,则任取一组的秩和作为统计量;若两组秩次不同,则以例数较小者对应的秩和作为统计量3)确定P值,作出推断结论当n1≦10,n2-n1≦10时,查两样本比较的T界值表,将检验统计量T值与T的临界值作为比较,如果T在界值范围内,则P值大于表上方的概率值(0.05),;若T等于界值或在界值范围外,则P值等于或小于表上方的概率值(4)正态近似法当n1或n2-n1超过10时,可用正态近似法计算z值进行z检验;当相同秩次较多时(尤其等级资料),z值需进行校正(公式不用记)6、多个独立样本比较的秩和检验(1)基本思想:如果总体分布位置相同,各组的秩和应该相差不大(2)适用条件:不满足参数检验的应用条件的完全随机设计的多个样本比较;多个等级资料比较(3)一般步骤:1)建立假设,确定检验水准H0:多个总体分布相同H1:多个总体分布不全相同2)计算检验统计量H将多组数据从小到大混合编秩,如有相等数值则取平均秩次;然后分别计算各组的秩和;最后计算H如果相同秩次较多,使用校正公式更加准确3)确定P值,作出推断结论①当k=3,每组例数≦5,查H界值表②k>3,ni>5,近似服从v=k-1的X2分布,查X2界值表7、参数统计和非参数统计的优缺点十、线性相关与回归1、相关:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关;两个变量有共变现象,称为有相关关系;相关关系不一定是因果关系,有可能是伴随关系2、直线相关的资料要求:双变量正态分布3、相关系数:是指衡量两个连续变量之间关联的强度的指标,样本的相关系数用r表示,总体的相关系数用表示;取值范围:-1≦相关系数≦1(1)正相关:0<r≦1,散点云图是斜向上的,这时一个变量增加,另一个变量将增加(2)负相关:-1≦r<0,散点云图是斜向下的,这时一个变量增加,另一个变量将减少(3)相关系数的绝对值越接近1,两变量的关联程度越强;相关系数的绝对值越接近0,两变量的关联程度越弱4、相关系数的显著性检验(1)查表法:当n≦52,v=n-2,查r界值表得到P值1)建立检验假设,确定检验水准H0:=0,XX与XX之间不存在相关关系H1:≠0,XX与XX之间存在相关关系a=0.052)计算统计量3)确定P值,作出结论查r界值表(2)t检验法:当n>52,计算检验统计量tr,查t界值表得到P值1)建立检验假设,确定检验水准2)计算统计量3)确定P值,作出结论查t界值表5、相关注意事项(1)线性相关的前提条件是X、Y都服从正态分布(双变量正态分布)(2)必须在假设检验认为相关的前提下才能以r的大小判断相关程度(3)相关关系并不一定是因果关系,有可能是伴随关系6、自变量(X):原因、容易得到的、变化小的7、因变量(Y):结果、不容易得到的、变化大的8、线性回归:当两个变量存在准确、严格的直线关系时,可以用Y=a+bX,表示两者的函数关系,但在实际生活当中,由于其他因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归——Y^=a+bX(1)式中的Y^是由自变量X推算因变量Y的估计值,a是回归直线在Y轴上的截距,即X=0时的Y值;b为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y 平均变动b个单位(2)计算原理:最小二乘法,该方法的原则是保证各实测点到回归直线的纵向距离的平方和最小,从而使计算出的回归直线最能代表实测数据所反映出的直线趋势9、回归方程的假设检验:总体的回归系数一般用β表示(1)方差分析基本思想:如果X与Y之间无线性回归关系,则SS回归与SS残差都只包含随机因素对Y的影响,因此其均方MS回归与MS残差应近似相等,如果两者差别较大,并超出能够用随机波动解释的程度,则认为回归方程具有统计学意义1)建立检验假设,确定检验水准H0:β=0,即XX与XX间无线性回归关系H1:β≠0,即XX与XX间有线性回归关系a=0.052)计算统计量3)确定P值,得出统计结论查F界值表(2)t检验1)建立检验假设,确定检验水准2)计算统计量Sb是样本回归系数b的标准误,反映样本回归系数与总体回归系数之间的抽样误差Sy|x是剩余标准差,表示因变量Y对于回归直线的离散程度3)确定P值,作出结论10、线性回归分析的注意事项(1)只有将两个内在有联系的变量放在一起进行回归分析才是有意义的(2)作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X,以“果“的变量为Y;如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X(3)在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量都应该服从正态分布),也可以是给定的量(I型回归模型,在X取值固定时Y服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换(4)回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义(5)使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围外11、线性相关和回归的区别和联系(1)相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量都应该服从正态分布),也可以是给定的量(I型回归模型,在X取值固定时Y服从正态分布)(2)线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系是单向的(3)如果对同一资料进行相关与回归分析,则得到的相关系数r与回归方程中的b正负号是相同的(4)无论是相关分析还是回归分析,求出r或b后都要进行假设检验;实际上,对同一样本可以得出r与b互化的公式,同一样本的两种假设检验也是等价的r与b的符号一致,检验等价——t r=t b=(5)相关回归可以相互解释R的平方称为确定系数;R2=r2=SS回归/SS总;R2表示回归平方和在总平方和中所占的比重,即R2越接近1,说明回归效果越好十一、统计表与统计图1、统计表:是把统计资料和统计分析结果用表格的形式进行表达,其目的是简洁、清晰和直观,方便对比和阅读2、统计表的编制原则(1)重点突出,简单明了(2)主谓分明,层次清楚(3)格式规范3、统计表的结构(1)外形上包括:标题、标目、线条、数字及备注(注释)(2)内容上包括:1)主语:被研究的事物,在表的左边作为横标目2)宾语:说明主语的各项指标,在表的右侧3)定语:在标题内4、制作统计表的基本要求(1)标题:是统计表的总名称,放在表的上方中间位置,简明扼要地说明表的主要内容,包括时间、地点和研究内容(2)标目:用来说明表内数据涵义的文字;横标目位于表的左侧;纵标目位于表头右侧;总标目主要是对纵标目内容的概况,在需要时才设置;标目要尽可能简单、明了,指标的单位标示需清楚(3)线条:一般采用“三线表”的格式;表的顶线和底线把表的主要内容与标题分隔开,中间一条线把纵标目与数据分隔开,不宜使用竖线和斜线;如果某些标目或数据需要分层显示,可用短横线分隔(4)数字:用阿拉伯数字表示,位数对齐,小数位数一致;表内不留空格,无数字用“-”表示,缺失数字用“...”表示,并最好以备注的形式进行说明;若数字是“0”,则填写“0”(5)备注:位于表的下方,不列入表内5、统计图:是把数据资料以图示的形式表达,使数据对比更加形象、直观、一目了然6、统计图的制作原则(1)必须根据资料的性质、分析目的及表达效果选用适当的统计图(2)一个图通常只表达一个中心内容和一个主题,即一个统计学指标(3)绘制图形应注意准确、美观,图线粗细适当,定点准确,不同事物用不同线条或颜色表示,给人以清晰的印象7、绘制统计图的基本要求(1)标题:其作用是简明扼要地说明统计资料的内容、时间和地点,一般位于图的下方中央位置并编号,便于引用和说明(2)图域:一般用直角坐标系第一象限的位置表示图域,或者用长方形框架表示;纵横轴长度比例为5:7(3)标目:分为纵标目和横标目,分别表示纵轴和横轴数字刻度的意义,如有度衡量单位则要标出(4)图例:对图中不同颜色或图案代表的指标注释;通常放在横标目与标题之间(5)刻度:刻度可在内侧或外侧,其数值一般按从小到大的顺序,纵轴由下向上,横轴由左向右8、直方图:用直条矩形面积代表各组频数,各矩形面积总和代表频数的总和;主要用于表示连续变量频数分布情况9、线图:是通过线段的上升或下降来表示指标(变量)的连续变化过程,适用于描述一个变量随另一个变量变化的趋势和波动情况;通常纵坐标是统计指标,横坐标是时间变量10、半对数线图:是一种特殊的线图,纵坐标按对数尺度(通常采用常用对数)给出,横坐标仍按算术尺度,适用于描述研究指标变化的速度,比较事物之间相对的变化速度11、箱式图:用于比较两组或多组数据的平均水平和变异程度,各组数据均可呈现其平均水平、四分位间距、最小值和最大值,主要适用于描述偏态分布的资料;中间的横线表示中位数,箱体的长度表示四分位间距,两端分别是P75和P2512、散点图:用点的密集程度和变化趋势表示两指标之间的直线或曲线关系;适用于双变量资料13、直条图:又称条图,即用等宽直条的长短来表示相互独立的统计指标数值大小和它们之间的对比关系,统计指标既可以是绝对数也可以是相对数;纵轴坐标刻度必须从“0”开始;适用于各组统计指标的比较14、误差条图:用于比较多组资料的均值和标准差(或标准误、可信区间)15、百分条图:适用于描述一个计数资料的构成比或比较多个计数资料的构成比;以长条面积为100%,用长条内各段面积所占的百分比来表示各部分在全体中所占的比例16、圆图:把圆的总面积作为100%,表示事物的全部,而圆内各扇形面积用来表示全体中各部分所占的比例;适用于构成比资料十二、研究设计1、实验设计:是指研究者根据研究目的和条件,结合统计学要求,合理安排各种实验因素,严格控制实验误差,最大限度地获得丰富而可靠的数据;周密的研究设计,可以节省人力、物力、财力和时间,使研究因素的效应得以充分体现2、实验设计三要素(1)研究对象:是指根据研究目的而确定的观察总体,也称为受试对象/受试者或实验对象在实验开始前应对研究对象的条件做出严格的规定,以保证其同质性:1)研究对象应具有明确的纳入标准和排除标准2)选择对处理因素敏感的研究对象3)选择依从性好的受试者作为研究对象4)注意医学伦理学问题(2)处理因素:又称研究因素,是指根据研究目的施加于研究对象的干预措施处理水平:处理因素在实验中所处的状态称为因素的水平混杂因素:在实验过程中,除处理因素外也能使受试对象产生效应的因素(非处理因素),它可能干扰处理因素与效应间的关系在确定处理因素时,需注意以下两点:1)处理因素要标准化:处理因素在整个实验过程中应始终保持不变,有利于分析处理因素与实验结果之间的关系2)明确处理因素和非处理因素(3)实验效应:是处理因素作用于受试对象产生的反应和结果,通过具体的观察指标来表达1)主观指标和客观指标:选用的指标要尽量客观,客观指标不易受主观因素影响2)选择灵敏度和特异度高的指标①灵敏度:是指某处理因素存在时,所选指标能够反映处理因素的效应程度,即反映指标检出真阳性的能力②特异度:是指某处理因素不存在时所选指标不显示处理效应的程度,即反映指标鉴别真阴性的能力3)观察指标的准确度和精密度①准确度:是指研究结果与相应测定事物真实情况符合或接近的程度,主要受系统误差的影响②精密度:是指相同条件下对同一对象的某项指标进行重复测量时,观测值与其均值的接近程度,主要受随机因素的影响3、实验设计四原则(1)对照原则:对照是指在实验中应设立对照组,其目的是通过与对照组效应对比鉴别出实验组的效应大小;只有设立了对照组,才能消除非处理因素对实验结果的影响,使处理因素的效应得以体现1)空白对照:指对照组不给予任何处理;临床上一般不宜使用2)安慰剂对照:指对照组使用一种不含药物有效成分的“伪药物”,即安慰剂,其外观、气味、剂型和处置上均与实验药物相同,不能为受试对象所识别,常用于临床试验3)标准对照:对照组采用现有标准方法或常规方法,或不专门设立对照组,而以标准值或正常值作为对照,即为标准对照4)实验对照:对照组不施加处理因素,但施加某种有关的实验因素,其目的是使两组受试对象所受到的刺激、损伤相同,以避免施加处理的方式可能对其产生的影响5)自身对照:是指对照与实验在同一受试对象身上进行,可以是同一受试对象处理前后,也可以是同一受试对象同期接受不同处理6)相互对照:指各实验组之间互为对照7)历史对照(2)随机化原则:随机化是指每个受试对象有相同的概率或机会被分配到不同的处理组;随机化分组可以使各处理组的受试对象具有相近的特征,可比性好,避免研究者的主观因素对实验效应的影响(3)重复原则:重复是指在相同实验条件下重复进行多次观察;重复是消除非处理因素影响的重要方法,表现为样本量的大小和重复次数的多少为了保证研究结论具有一定可靠性,需要在设计阶段估算所需的最少实验单位数,即样本含量(4)均衡原则:均衡是指某因素各水平组中的受试对象所受到的非实验因素的影响是完全平衡的,即这些组之间的差别完全是由于该因素采取了不同水平所致,而并非其他因素取值不同所造成的影响。
【统计分析】非参数检验
3. 查表与结论 查T界值表,T0.05(11)=10~56,T=3.5,在界 值范围外,P<0.05,拒绝H0。
符号检验(Sign test)
z n n 1 n
二、两样本比较的秩和检验 (Wilcoxon法)
适用条件:完全随机设计的两个样本比较,若不满足参数 检验的应用条件,则用本法;两个等级资料比较。
-0.45
-1
13
15.20
5.50
9.70
11
14
16.50
9.00
7.50
8.5
步骤
1. 建立假设:H0:差值的总体中位数=0, H1:差值的总体中位数0;
=0.05 2. 计算统计量
计算差值d,由小到大的顺序编秩次,并冠以原d 的正负号,然后分别求正负秩和,得到T+=73, T-=5,取秩和较小者作为检验统计量T=5 3. 查表及结论
1.0
2.5
4
17.00
6.50
10.50
12
5
13.00
5.50
7.50
8.5
6
18.00
13.50
4.50
5
7
17.50
10.00
7.50
8.5
8
10.20
10.20
0.00
-
9
10.00
10.00
0.00
-
10
10.50
9.50
1.00
2.5
11
13.80
6.80
7.00
6
12
3.03
3.48
医学统计学-第9章 关联性分析
线性?程度如何?是正相关还是负相关? ⑵统计推断:两者的关系是否有统计学意
义?根据专业知识下结论。
9.2.2 相关系数的统计推断
r是样本相关系数,是总体相关系数ρ的估计
值,要想判断X、Y间是否有相关关系,就要检
验r是否来自总体相关系数ρ为零的总体。方法
本例 ν=n对-2=15-2=13,r0.05,13=0.514, 得到: p<0.05,即相关系数有统计学意义。
tr =
− 0.926 = −8.874,
1 − (0.926)2
ν = 15 − 2 = 13
15 − 2
可按公式(9-2) 计算
查附表C2(教材560),t 0.05,13=2.160;t> t 0.05,13,按α=0.05水准,拒绝H0,接受H1,故 可以认为凝血酶浓度与凝血时间呈负相关关系。
9.2.3 Spearman 秩相关
一、秩相关的概念及其统计描述 前面指出:Pearson积矩相关的假设检验要求
X和Y均服从正态分布。对那些不服从正态 分布或等级资料、总体分布未知的资料,因 难以进行分析,所以就不宜用积矩相关系数 来描述相关性。
此时,可采用等级相关(rank correlation), 或称秩相关来描述两个变量间相关的程度与方 向。该法是利用两变量的秩次大小作线性相关 分析,对原变量的分布不作要求,属非参数统 计方法。
例 某地研究2-7岁急性白血病患儿的血小
板数与出血症状程度之间的相关性,结果见下 表:试用秩相关进行分析。
首先先将实测原始数据由小到大排序 编秩,以pi表示Xi秩次;qi表示Yi的
次,见上表所示。
观察值相同的取平均秩次;将pi、qi直接 替换(9-1)中的X和Y的均数,直接得 到如下算式:
《医学统计学》第十章+非参数秩和检验
0.05
,即两个不同部位IL-6水平差值的总体中位数不为零
医学统计学(第7版)
符号秩和检验方法
(2)编秩次并求秩和统计量
首先求出各对数据的差值,见表的第(4)列;然后编秩次,按照差值绝
对值由小到大编秩,并按差值的正负给秩次加上正负号;若差值为“0”,舍
去不计,总的对子数也要减去此对子数(记为 n);若差值的绝对值相等,取
➢ 查表法:查 T 界值表(附表8),
T0.05(23) 73 ~ 203
,
T T 91 73
T 在此范围内,P >0.05, 按 α=0.05水准无理由拒绝 H0 ,即实行良好
的口腔卫生6个月后,尚不能说明此项干预对牙周改善有显著效果。
,
医学统计学(第7版)
(3) 确定P 值,做出推断
检测结果如下表(书中表10-1所示) 。
白癜风病人的不同部位白介素指标(pg/ml)
病人号
(1)
白斑部位
(2)
正常部位
(3)
d=(3)-(2)
秩次
(5)
1
2
3
4
5
6
7
8
合计
40.03
97.13
80.32
25.32
19.61
14.50
49.63
44.56
88.57
88.00
123.72
39.03
24.37
上表中第(1)列按第(2)与(3)列数据统一编秩号,第(5)列为各等级的平均秩次,
第(6)列则是较小样本的秩和,本例中 T=T1=560.5, 将其代入公式得出:
zc
| T n1 ( N 1) / 2 | 0.5
医学统计学精品教学第十章-非参数检验精品文档
1
第十章 非参数秩和检验
吴库生 汕头大学医学院预防医学教研室
参数统计与非参数统计
1、参数统计(parametric statistics) 样本所来自的总体分布具有某个已知
的函数形式(如正态分布),而其中有 的参数是未知的,统计分析的目的是对 这些未知的参数进行估计或检验。
2019/10/13
28
符号秩和检验的SPSS实现
2019/10/13
秩和检验
29
Wilcoxon Signed Ranks Test
结 果
Ranks
N Mean RankSum of Ranks
光 电 比 色 法 -Negative Ranks
5a
氰 化 高 铁 法 Positive Ranks
5b
4.60 6.40
X
41.00±29.81
14.75±11.73
方差齐性检验:
F
S12(大) S22(小)
864.94816.2863 137.5929
F F0.05,(7,7) 4.99
P<0.05
两样本方差不齐,不能应用t检验
2019/10/13
医学统计学-秩和检验
31
采用Wilcoxon两独立样本秩和检验
10
Contents
第一节 配对资料的符号秩和检验(Wilcoxon配对法) 第二节 两独立样本比较的秩和检验(Wilcoxon两样本
法) 第三节 完全随机设计多个样本比较的秩和检验
(Kruskal-Wallis检验)
2019/10/13
秩和检验
11
第一节 两配对样本差值的符号秩和检验 (Wilcoxon signed rank test)
第九章非参数统计
二、配对设计资料的符号秩和检验
用于有具体数字的配对资料,相当于配对t检验 效率较符号检验法高
例9.2 某研究中心为观察溶脲脲原体(UU)感 染对家兔精子质量的影响,分别测定10只兔子感染 UU前后的精子密度(109/L),数据见表9.2,试分 析溶脲脲原体是否影响家兔的精子密度。
H0:Md=0,即差值的总体中位数等于零。
<0.005 0.05 0.015 0.40 0.005 <0.005 0.025 <0.005 0.01
0.05
0.025 0.05 0.005 0.035 0.1 0.01 <0.005 0.015 0.02
<0.005
26
二、等级资料两样本比较的秩和检验
例9.8 某药对不同类型支气管炎的疗效见表9.8中1-3栏所 示,分析该药对两种类型的支气管炎的治疗效果是否有差 异?
医学统计学
第九章 非参数统计
上海交通大学医学院生物统计学教研室 张莉娜
分机776444 zhanglina@
参数统计
(parametric statistics)
已知总体分布类型,对 未知参数进行统计推断
非参数统计
(nonparametric statistics)
对总体的分布类 型不作任何要求
假定样本所来自的总体分布为已知的函数 形式,这类统计推断方法称为参数统计。
非参数统计是一种不依赖总体分布的具体 形式的统计方法
3
非参数统计适用情况
适用于:
(1)资料不具备参数方法所需条件,
如:未知分布类型的资料或偏态资料, 方差不齐资料的总体均数的比较。
(2)不能或未加以精确测量的资料,
如:等级资料 不能测量的过大或过小数据。
医学统计学名词解释
医学统计学1、Medical Statistics(医学统计学):是以医学理论为指导,借助统计学的原理和方法研究医学现象中的数据搜集、整理、分析和推断的一门综合性学科。
2、Variable(变量):是指观察个体的某个指标或特征,统计上习惯用大写拉丁字母表示。
3、Numerical/Quantitative/Measurement date/variable数值变量/定量变量/计量资料/定量资料:是以定量的方式来表示观察单位某项观察指标的大小,所得的资料称之为~,有度量单位。
4、Unordered categorical/Qualitative/Enumeration date/variable无序分类变量/定性变量/计数资料/定性资料:是以定性的方式来表示观察单位某项观察指标,所得的资料称之为~,无固有度量单位。
5、Ordinal categorical/Semi-quantitative/Ranked date/variable有序分类变量/半定量资料/等级资料:是以等级的方式来表示观察单位某项观察指标,所得的资料称之为~,为半定量的观察结果,有大小顺序。
6、Homogeneity(同质):是指事物的性质、影响条件或背景相同或相近。
7、Variation(变异):是指同质的个体之间的差异。
8、Population(总体):是根据研究目的所确定的同质观察单位的全体或集合,分为有限总体和无限总体。
9、Sample(样本):是从总体中随机抽取的一部分观察单位所组成的集合。
10、Random variable(随机变量):是指取值不能事先确定的观察结果。
11、Parameter(参数):是总体特征的统计指标,采用小写的希腊字母,为固定的常数。
12、Statistic(统计量):是样本特征的统计指标,采用拉丁字母表示,由样本信息推算而得,是参数附近波动的随机变量。
13、Random Sampling(随机抽样):为了保证样本的可靠性和代表性,需要采用随机的抽样方法,使总体中每个个体均有相同的机会被抽到。
医学非参数统计
例 6-5 研究离子交换法和蒸馏法的差别 取 12 名在医用仪表厂工作的工人尿液, 分成两份,一份用离子交换法,另一份 用蒸馏法测得尿汞值,如表,问两种方 法测得尿汞值含量有无差别?P102
编号 离子法 (1) (2)
蒸馏法 (3)
差值 (4)
(4)绝对值 带符号 的秩次 的秩次
1 2 3 4 5 6 7 8 9 10 11 12
实例分析
例 6-3 某医师为研究血铁蛋白与肺炎的关 系,随机抽查了肺炎患者和正常人若干人, 并测得血铁蛋白含量(ug/L),
问肺炎患者与正常人平均血铁蛋白含量有 无差异? P98
肺炎患者血铁蛋白
秩号
正常人血铁蛋白
秩号
31 68
1 11.5
177 172
17 15
237
174 457 492 199 515 599
0.200 0.020 0.010 0.382 0.723 0.876 0.035 0.023 0.940 1.201 0.408 1.256
0.320 0.015 0.030 0.424 0.789 0.721 0.014 0.020 0.051 1.115 0.612 1.078
-0.120 0.005 -0.020 -0.042 -0.066 0.155 0.021 0.003 0.889 0.086 -0.204 0.178
科研设计的投入约占整个试验的5% [投入] 一项好的科研设计预示着该项试验至少完成 了75% 。 [产出]
---摘自 <生物医学统计学> 董时富主编 科学出版社
试验设计的三要素 1)、试验因素 2)、试验对象 3)、试验效应
1、试验因素
试验因素是研究者希望着重考察的某些试验条件。
医学统计学-课后答案
1.参数检验:已知总体分布类型,对未知的总体参数做推断的假设检验方法。
故参数检验依赖于特定的分布类型,比较的是总体参数2.非参数检验:不依赖于总体分布类型、不针对总体参数的检验方法。
故非参数检验对总体的分布类型不做任何要求,不受总体参数的影响,比较的是分布或分布位置。
适用范围广,可适用于任何类型资料参数检验优点:资料信息利用充分;检验效能较高缺点:对资料的要求高;适用范围有限2.非参数检验优点:适用范围广,可适用于任何类型的资料缺点:检验效能低,易犯Ⅱ型错误凡适合参数检验的资料,应首选参数检验对于符合参数检验条件者,采用非参数检验,其检验效能低,易犯Ⅱ型错误第一章绪论1.举例说明总体和样本的概念。
研究人员通常需要了解和研究某一类个体,这个类就是总体。
总体是根据研究目的所确定的所有同质观察单位某种观察值(即变量值)的集合,通常有无限总体和有限总体之分,前者指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体是有限的,它是指特定时间、空间中有限个研究个体。
但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。
例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中,该地2007年全部正常成年男子的红细胞数就构成一个总体,从此总体中随即抽取2000人,分别测的其红细胞数,组成样本,其样本含量为2000人。
2.简述误差的概念。
误差泛指实测值与真实值之差,一般分为随机误差和非随机误差。
随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差;非随机误差中最常见的为系统误差,系统误差也叫偏倚,是使实际观测值系统的偏离真实值的误差。
3.举例说明参数和统计量的概念。
某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。
根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病。
医学统计学-非参数检验秩和检验
正态近似法 当n>50,可采用正态近似法,计
算u值。
T -n(n+1)/4-0.5 u=
n(n+1)(2n+1)/24
正态近似法
若相同秩次较多,应作校正计算。
T-n(n+1)/4-0.5
检验
诊断试验ROC曲线分析
配对设计差值比较的符号秩和检验 由Wilcoxon1945年提出,又称 Wilcoxon符号秩和检验,常用于检验 差值的总体中位数是否等于零。
分析步骤:
(1)建立检验假设,确定检验水准 Ho:差值总体中位数Md=0 H1:差值总体中位数Md≠0 α=0.05
(2)编秩:
依赖于特定分布类 型,比较的是参数
不受分布类型的影响,比 较的是总体分布位置
优点:方法简便、易学易用,易于推广使用、 应用范围广;可用于参数检验难以处理的资料 (如等级资料,或含数值“>50mg”等 )
缺点:方法比较粗糙,对于符合参数检验条件者,采用 非参数检验会损失部分信息,其检验效能较低;样本含 量较大时,两者结论常相同
例2 9名 肺炎病人的治疗结果:
疗效
治愈 治愈 死亡 无效 治愈 有效 治愈 有效 无效
秩次
12 9 7 3 5 4 6 8
平均秩次 2.5 2.5 9 7.5 2.5 5.5 2.5 5.5 7.5
SPSS中的菜单位置
基于秩次的非参数检验
• 两个独立样本比较的非参数检验 • 多个独立样本比较的非参数检验 • 配对样本比较的非参数检验 • 随机区组设计多个样本比较的非参数
医学统计学(非参数检验)
【例8-5】计算H
计算检验统计量H值:统一编秩,计算各秩和
632 382 192 12 H 15(15 1) 5
3(15 1) 9.74
哪些组间有差异?两两比较
多组秩和的两两比较
1. 建立假设,确定检验水准
H0 第i组与第j组所代表的总体分布位置相同
【例8-1】比较健康人与铅作业工人的尿 铅值是否存在差异?
表8-1 健康人与铅作业工人的尿铅值(mg/L)
参数检验和非参数检验
参数:总体的统计指标.( 、、)
统计量:样本的统计指标.( x 、s、p)
参数检验:有些方法,通常要求样本来自正态总 体,或方差齐等,在这些假设的基础上,对总体 参数进行估计和假设检验,称为参数检验。 非参数检验:一种不依赖于总体分布类型,也不 对总体参数进行统计推断的假设检验,称为非参 数检验。
2)当k或b较大时,N=kb较大,M的分布近似df =k-1的2分布。故当附表17查不到M界值时,可 用2近似法,按式8-7或8-8计算2值,按2分布规 律作出推断结论。 df=k-1 2<20.05,P >0.05
计算统计量H值
查表确定P值
作出结论
2.计算统计量H值
定量资料编秩时,将各组数据从小到大统一 编秩次,相同数据取平均秩次。计算H统计 量,在相同秩次较多时校正,即(8-3)
Ti 2 12 H 3( N 1) N ( N 1) ni
H Hc 1 (ti3 ti ) /( N 3 N )
一般步骤
处理组间差异分析 1. 建立假设
2. 计算统计量
编秩:按配伍组编秩,相同数据取平均秩次。 计算(k、b不大时计算M统计量,查统计表17 确定P值 (8-6) i 1 2 k、b较大时,进一步计算 统计量 (8-7) 在相同秩次太多时,计算校正 2
非参数检验——【北大 医学统计学】
SPSS结果
SPSS结果
Z=-0.474, P=0.635>0.05,尚不能认为两 种测量方法测得尿汞值有差异。
第二节 两样本比较的秩和检验 (Wilconxon两样本法)
• 两独立样本不满足正态、等方差等要求时,可以采用 秩和检验。
• H0 : 差值总体中位数Md=0 H1 : 差值总体中位数Md0 α= 0.05 • 求差值 • 求秩和并确定检验统计量T • 当n≤50时,可查附表; n>50正态近似。
T n(n 1) / 4 0.5 z
n(n 1)(2n 1) / 24
SPSS操作
Analyze NonparametricTest 2 Related Samples Test
• Z=-3.63, P=0.000<0.05,拒绝H0,可认为实验组生存日数
较对照组长。
等级资料的两个样本比较
• 例3 研究慢性支气管炎病人痰液中某一类型 的白细胞数是否高于正常人,选择24名正常 人和44名慢性支气管炎病人的痰液标本作 白细胞检查,见下表。
结果
(1)
+ ++ +++ 合计
SPSS结果
SPSS结果
• Z= 3.628,P=0.000<0.05,按α= 0.05水平,拒绝H0,认为 正常人和慢性支气管炎病人痰液此类白细胞的检查结果 不相同。
第三节 多个样本比较秩和检验 (Kruskal-Wallis法)
• 多样本比较当资料不满足参数检验的条件时,可以采用秩 和检验的分析方法。
非参数检验
• 参数检验:假定样本来自某种已知分布的总体,如 t检验、
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
公共生学院 沈敏
主要内容
基本概念 非参数检验适用的范围 非参数检验的优缺点 几种常用的非参数检验方法 小结
基本概念
参数检验:(parametric test):假定随机样本来自可用 有限个实参数刻画的总体(如正态分布),并对总体参数(如 总体均数或率)进行的检验。
Nonparametric methods generally specify the hypothesis in terms of the population distribution rather than parameters such as the means and the standard deviations. Parametric assumptions are replaced by more general assumptions about the population distribution, and the ranks of the observations are often used in place of the actual measurement.
Assumption and Hypotheses
The purpose is to test the null hypothesis that a particular population has a hypothesized median M0
Assumption:
The continuous random variable X is symmetric about a median X.
非参数检验(nonparametric test)
不符合参数检验的适用条件,样本所代表总体的分布类型 未知,对总体的分布或分布位置进行检验,而不是针对总 体参数进行统计推断的方法,称为非参数检验,又称为任 意分布检验(distribution-free test)。
不考虑总体分布型,也不针对总体的参数进行检验。
配对设计和单样本资料的符号秩和检验
(Wilcoxon Signed Rank Sum Test)
完全随机化设计两组独立样本资料和秩和检验
(Wilcoxon Rank Sum Test) 两组连续变量资料的秩和检验 两组有序变量资料的秩和检验
几种常用非参数假设检验(2)
完全随机化设计多组独立样本的秩和检验
X1,X2,…Xn denotes a random sample of size n from the distribution of X.
M0 denotes an hypothesized median for X.
Hypotheses: H0:M=M0 versus H1: M≠M0
非参检验的适用范围
在数据分析过程中,由于种种原因,人们往往无法对总 体分布形态作简单假定,此时参数检验的方法就不再适 用了。非参数检验正是一类基于这种考虑,在总体方差 未知或知道甚少的情况下,利用样本数据对总体分布形 态等进行推断的方法。由于非参数检验方法在推断过程 中不涉及有关总体分布的参数,因而得名为“非参数” 检验(Nonparametric tests) 。
秩次
Ri (6) 3 7 -1.5 -4 5.5 --10 -1.5 -5.5 9 -8 -11
1、方法步骤:
❖ (1) 建立检验假设,确定检验水准 假设:H0: Md= 0 即差值的总体中位数等于零 H1:Md≠0 即差值的总体中位数不等于零
❖ (2)求差值 求各对数据Xi Yi的差值 di=Xi-Yi, ❖ (3)编秩:
表 1 12 对双胞胎兄弟心理测试结果
先出生者得分
xi (2) 86 71 77 68 91 72 77 91 70 71 88 87
后出生者得分 差 值
yi
di =yi -xi
(3)
(4)
88
2
77
6
76
-1
64
-4
96
5
72
0
65
-12
90
-1
65
-5
80
9
81
-7
72
-15
绝对差值秩次 |Ri | (5) 3 7 1.5 4 5.5 -10 1.5 5.5 9 8 11
用于推断配对资料的差值是否来自中位数 为零的总体
H0: Md=0
即假定两种处理的效应相同
则差值的总体分布是对称的,总体中位数为0
H1: Md≠0
例1 为研究孪生兄弟出生先后对智力是否存在差 异, 对12对双胞胎兄弟进行某项心理测试, 其测试 得分结果见表。
对子号
i
(1) 1 2 3 4 5 6 7 8 9 10 11 12
a. 差值按绝对值从小到大排序,编以秩次,根据差值的正 负号冠以正负号。 b. 编秩次时遇零舍去不计,遇有差值绝对值相等(称为相 持),编以平均秩次,如果符号相同可以不取平均秩次。
❖ (4)求秩和,并确定检验统计量T
❖ 求正负差值秩次之和,分别用T+或T-表示 ❖ 任取T+或T-作为检验统计量T*(有的书上要求小的秩和,
(Kruskal-Wallis test) 多组连续变量资料的秩和检验 多组有序变量资料的秩和检验
随机化区组设计资料的秩和检验(friedman test) 多个样本间的多重比较
一、配对设计资料的符号秩和检验 (Wilcoxon Signed Rank test)
Wilcoxon符号秩号检验又称Wilcoxon配对法
非参数检验(Nonparametric tests)是统计分析方 法的重要组成部分,它与参数检验共同构成统计推断 的基本内容。 总体分布为非正态(偏态)或分布类型不明的计量资料 等级(有序)资料 数据两端无确定数值 相互比较的各组变异程度相差悬殊,即各总体方差不齐 的计量资料
非参数检验的主要优缺点
优点:a. 是在于它不受总体分布的限制,适用范围广;b. 资料可用“等级”或“符号”来评定,收集资料方便。c.简 便易学 缺点:对于适合用参数检验的资料,如用非参数检验会造 成信息的丢失,导致检验效能下降。犯第二类错误的概率 要比参数检验法为大。(H0不真时,不能灵敏地拒绝H0)
几种常用非参数假设检验(1)