无序分类资料的统计推断
《中医统计学》习题及答案
《中医统计学》练习题第一部分绪论一、最佳选择题1.抽样研究是一种科学、高效的方法,目的是研究( B )A.样本B.总体C.抽样误差D.概率2.由样本推断总体,样本应该是( D )A.总体中的典型部分B.总体中有意义的部分C.总体中有价值的部分D.总体中有代表性的部分3.统计上所说的系统误差、过失误差、测量误差和抽样误差四种误差,在实际工作中( C )A.四种误差都不可避免B.过失误差和测量误差不可避免C.测量误差和抽样误差不可避免D.系统误差和抽样误差不可避免4.统计描述是指( C )A.比较指标的差别有无显著性B.估计参数C.用统计指标描述事物的特征D.判断无效假设是否成立5.统计推断是指( D )A.从总体推断样本特征B.从总体推断总体特征C.从样本推断样本特征D.从样本推断总体特征6.对某样品进行测量时,由于仪器事先未校正,造成测量结果普遍偏高,这种误差属于( A )A.系统误差B.随机测量误差C.抽样误差D.过失误差7.随机抽样的目的是( D )A.消除系统误差B.消除测量误差C.消除抽样误差D.减小样本偏性8.对某地200名16岁中学生口腔检查,发现患龋齿的人数为54人,该资料属于( B )A.数值变量资料B.无序分类变量资料C.有序分类变量资料D.三个都不是9.数值变量资料是( C )A.用仪器测量出来的资料B.按观察单位的类别,清点各类观察单位数的资料C.用定量方法测定观察单位某个变量的大小的资料D.按观察单位的等级,清点各等级观察单位数的资料10.无序分类变量资料是( B )A.用仪器测量出来的资料B.按观察单位的类别,清点各类观察单位数的资料C.用定量方法测定观察单位某个变量的大小的资料D.按观察单位的等级,清点各等级观察单位数的资料11.有序分类变量资料是( D )A.用仪器测量出来的资料B.按观察单位的类别,清点各类观察单位数的资料C.用定量方法测定观察单位某个变量的大小的资料D.按观察单位的等级,清点各等级观察单位数的资料12.下列哪种不属于数值变量资料( C )A.红细胞数B.血钙浓度C.阳性人数D.脉搏13.下列哪种属于有序分类变量资料( A )A.治疗痊愈、有效、无效人数B.各血型人数C.白细胞分类百分比D.贫血和不贫血人数二、判断题1.统计工作的主要内容是对资料进行统计分析。
医学统计学-名词解释-精心整理(带英文)(7)
1.总体(p o p u l a t i o n):根据研究目的确定的同质观察单位的全体。
2.样本(s a mp l e):3.抽样(s a mp l i n g):从总体中抽取部分观察样本的过程。
4.计量资料(m e a s u r e m e n t d a t a):又称定量资料或数值变量。
观测每个观察单位某项指标大小而获得的资料。
变量值是定量的。
一般有度量单位,可分为连续型或离散型。
5.计数资料(e n u m e r a t i o n d a t a):又称定性资料或无序分类变量资料,名义变量资料。
观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。
变量值是定性的,表现为互不兼容的属性或类别:●二分类:药物疗效:治愈未治愈;●多分类:人群血型分布,AB OA B互不兼容。
6.等级资料(r a n k e d d a t a):半定量资料或有序分类变量资料。
变量值具有半定量性质,表现为等级大小或属性程度。
7.同质(H o m o g e n e i t y):医学研究对象具有的某种共性。
8.变异(V a r i a t i o n):同质研究对象变量值之间的差异。
9.总体(P o p u l a t i o n):根据研究目的确定的所有同质的观察单位某项观测值的全体称为总体。
10.样本(S a m p l e):来自于总体的部分观察单位的观测值称为样本。
11.参数(P a r a m e t e r):由总体中全部观测值所计算出的反映总体特征的统计指标。
12.统计量(S t a t i s t i c):由样本观测值所计算出的反映样本特征的统计指标。
13.变量(V a r i a b l e):指观察单位的某项特征。
它能表现观察单位的变异性。
14.概率(P r o b a b i l i t y):是随机事件发生可能性大小,用P表示,其取值为[0,1]。
15.频率(F r e q u e n c y):在相同的条件下,独立地重复做n次试验,随机事件A出现m次,则比值m/n为随机事件A出现的频率。
SPSS 无序分类变量的统计推断 卡方检验
5.分层卡方检验 6.SPSS 软件部分
6.1.‘统计量’子对话框界面说明
打开方式:点击工具栏‘分析’->‘描述’-》 ‘交叉表’ ,点击选项‘统计 量’ 。项。
‘卡方’复选框:进行卡方检验。
‘Kappa’复选框:计算 Kappa 值,即内部一致性系数。原假设 H0 是无一 致性;Kappa≥0.75 表明两者一致性较好,介于 0.4 至 0.75 表明一致性一般,小 于 0.4 表明两者一致性较差。 ‘风险’复选框:计算 OR 值(比数比)和 RR 值(相对危险度) ,这些指 标用于反映交叉表的行、列变量之间的关联强度。 ‘McNemar’复选框:进行 McNemar 检验,即常用的配对卡方检验。 ‘Cochran’s and Mantel-Haenszel 统计量’复选框:为两个二分类变量进 行分层卡方检验,即层间的独立性检验和同质性(齐性)检验,同时可进行分层 因素的调整。
4.一致性检验与配对卡方检验
你得首先理解配对设计,这里略。
4.1.Kappa 一致性检验
Pearson 卡方检验并不适用于配对设计的数据, 它无法明确说明结果的一致 程度。 更准确地说, Pearson 卡方只能告诉用户两种测量结果之间是否存在关联, 但不能判断其是否具有一致性。
4.2.配对卡方检验
3.1.相对危险度
RR 值是一个概率的壁纸,是指实验组人群反应阳性概率与对照组人群反应 阳性概率的壁纸。RR=1,表明实验因子与反应阳性无关联。
3.2.优势比
OR 值是一个比值的比,是反应阳性人群中实验因素有无的比例与反应阴性 人群中实验因素有无的比例之比。OR=1,表明实验因素与反应阳性无关联。 由于优势比是两个比值的比值,因此它不太好解释,而解释相对危险度则要 容易得多, 因此在大多数情况下人们希望能够按照相对危险度的含义来解释优势 比。 当所关注的事件发生概率比较小时(<0.1), 优势比可作为相对危险度的近似。
常见的几种统计方法分解
2检验的适用资料
两组样本率的比较;
多组样本率的比较;
两组或多组构成比的比较;
配对设计下两分类资料检验。
一、四格表资料的检验
四格表资料的检验主要用于两个样本 率(或构成比)的假设检验,一般制 成表 6-2 的计算格式(以阳性和阴性 为例)。
表6-2
四格表资料检验计算表
组 别 甲 组
阳性数
阴性数
(二)收集资料
(二)资料要求 1.完整:观察单位及观察项目完整。 观察单位:最基本的获取数据的单元。可以是一 个体,亦可以是一个单位、家庭、地区,一批样品, 一个采样点。 2.准确:即真实、可靠。真实是统计学的灵魂。 3.及时:即时限性。如人口普查规定调查开始日期 和截止日期。
(三)整理资料
整理资料即原始数据的条理化、 系统化的过程。所采取的手段→合 理化分组,目的→实现专业目标。 质分组:按事物的属性或性质分组 →分类变量; 量分组:按数据的大小→数值变量。
伪造统计数据违反科学道德
1976年New Science 杂志关于科研舞弊 行为的调查
(1)74%的调查表反映有不正当修改数据 的情况 (2)17%拼凑实验结果 (3)7%凭空捏造数据 (4)2%故意曲解结果
二、统计工作的基本步骤
设计 收集资料 整理资料 分析资料
(一)设计
1.专业设计:选题、建立假说、确定 研究对象 设类型、
60 年代到 80年代,国外医学杂志调查表明: 20%~72%的论文有 统计错误。 1984 年对《中华医学杂志》、《中华内科杂志》、《中华外科 杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查 结果为: 相对数误用占 11.2%,抽样方法误用占 15.9%,统计图表误用占 11.7% 1996年对4586篇论文统计(中华医学会系列杂志占 6.9%),数 据分析方法误用达55.7%。 2001年《中华预防医学杂志》:中华医学会系列杂志误用约54% (1995)。
第三节 分类变量资料的统计分析-统计推断
σp =
π (1 − π )
n
如果总体率π未知,用样本率 估计 如果总体率 未知,用样本率p估计 未知
sp =
p(1− p) n
19:46
率的标准误的计算
例 观察某医院产妇 106 人, 其中行剖腹产者 62 人, 剖腹产率为 58.5%,试估计剖腹产率的标准误。 ,试估计剖腹产率的标准误。 解: 已知 n=106,p=0.585,其标准误为: , ,其标准误为:
19:46
小 结
1.样本率也有抽样误差,率的抽样误差的大小用σp或Sp .样本率也有抽样误差,率的抽样误差的大小用 来衡量。 来衡量。 2.率的分布服从二项分布。当n足够大,π和1-π均不太小 .率的分布服从二项分布。 足够大, 和 均不太小 足够大 ,有nπ≥5和n(1-π)≥5时,近似正态分布。 和 ( ) 时 近似正态分布。 3. 总体率的可信区间是用样本率估计总体率的可能范围 . 分布近似正态分布时, 。当p分布近似正态分布时,可用正态近似法估计率的可信区 分布近似正态分布时 间。 4. 根据正态近似原理 , 可进行样本率与总体率以及两样 . 根据正态近似原理, 本率比较的u检验。 本率比较的 检验。 检验
19:46
T11= (a+b)×pc= (a+b)×[(a+c.)/ n]=R1C1/n =21.3 = × × T12 = (a+b)×(1-pc)= (a+b)×[(b+d.)/ n] =R1C2/n =182.7 × × T21 = (c+d)×pc= (c+d)×[(a+c)/ n] =R2C1/n =6.7 × × T22 = (c+d)×(1-pc)= (c+d)×[(b+d.)/ n] =R2C2/n =57.3 × × 行 row)合 ×列 column)合 ( 计 ( 计 nRnC T= = n 总 数 例
实验三 分类资料的统计描述与统计推断
实验三分类资料的统计描述与统计推断一、下表为一抽样研究资料,试:(1)填补空白处数据;(2)根据最后三栏结果作简要分析。
(3)试估计该地死亡率、0~恶性肿瘤死亡率的置信区间。
某地各年龄组恶性肿瘤死亡情况出高血压病人775人,试估计该市中年男性高血压患病率的95%置信区间。
三、一般而言,对某疾病采用常规治疗,其治愈率约为45%。
现改用新的治疗方法,并随机抽取180名该疾病患者进行了新疗法的治疗,治愈117人。
问新治疗方法是否比常规疗法的效果好?四、一般人群先天性心脏病的发病率为千分之八,某研究者为探讨母亲吸烟是否会增大其小孩的先天性心脏病的发病危险,对一群20~25岁有吸烟嗜好的孕妇进行了生育观察,在她们生育的120名小孩中,经筛查有4人患了先天性心脏病。
请作统计分析。
五、某院康复科用共鸣火花治疗癔症患者56例,有效者42例;心理辅导法治疗癔症患者40例,有效者21例。
问两种疗法治疗癔症的有效率有无差别?六、用兰芩口服液治疗慢性咽炎患者34例,有效者31例;用银黄口服液治疗慢性咽炎患者26例,有效者18例。
问两药治疗慢性咽炎的有效率有无差别?七、用甲乙两种方法检查已确诊的乳腺癌患者120名。
甲法的检出率为60%,乙法的检出率为50%,甲乙两法一致的检出率为35%,问甲、乙两法的检出率有无差别?八、某研究者将腰椎间盘突出症患者1184例,随机分为三组,分别用快速牵引法、物理疗法和骶裂孔药物注射法治疗,结果如下表。
问三种疗法的有效率有无不同?三种疗法治疗腰椎间盘突出有效率的比较疗法有效无效合计快速牵引法444 30 474物理疗法323 91 414骶裂孔药物注射法222 74 296合计989 195 1184九、思考题:1、常用的相对数有哪些?应用相对数时应注意的事项?2、率的标准误与率的抽样误差3、简述二项分布、Poisson分布和正态分布的区别与联系。
4、总体率的区间估计方法5、2x卡方检验的用途与基本思想6、行⨯列表资料2x检验的注意事项7、普通四格表资料2x检验的应用条件及其表格、检验公式、步骤等8、配对四格表资料2x检验的应用条件及其表格、检验公式、步骤等χ检验有何异同?9、两样本率比较的z检验与210、对于四格表资料,如何正确选用检验方法?11、资料的对比应注意其可比性,可比性指的是什么?试举两例说明。
统计软件spss操作3_常用假设检验与相关分析
例:
二、连续变量的统计推断:t-检验
例: 以张文彤《SPSS统计分析基础教程》261页 案例数据做配对检验。(文件:配对样本t检 验(治疗前后舒张压拘束比较:张文彤261页 案例).sps)
二、连续变量的统计推断:t-检验
结果解读: 输出结果中”均值“”标准差“”标准误“和” 可信区间“等都是针对配对差值的统计量。由 结果可见,差值均值为10,相应的 P=0.027>0.025,故可以认为该药物对血压治 疗有影响。由于治疗前-治疗后的差值均值为 正,故可推断是使得病人血压下降。
例5:在轿车拥有率案例中,控制城市影响条 件下,更准确研究收入与轿车拥有率的关系。
三、无序分类变量的统计推断:卡方检验
五)分层卡方检验 (控制某些分类因素) 操作: “分析”—“描述统计”—“交叉表” (“层”框中选入城市变量S0) (“统计量”选中“风险”、 “Cochran‟s…”)
三、无序分类变量的统计推断:卡方检验
功能:比较两个总体样本的均值是否相等。实际功 能可以理解为判断是一个总体的样本还是两个总体 的样本,又称为成组设计两样本均数比较。(通常 数据中有一个变量显示分组情况) 也有前面说的两种情况,SPSS只做一种。 操作:“分析”—“比较均值”—“独立样本 t 检验”
例:
比较“均值比较”数据中男女生“自信心”的均值 是否有差异。(即,是同属于一个总体还是分属两 个不同总体)
用p-p图检验CCSS的年龄S3是否符合正态分布。
“分析”—“描述统计”—“p-p图”
一、分布类型检验
三)用p-p图直观数据分布形状 例3:
用茎叶图比较index和S3分布形状。
分类资料的统计描述
结果:城区肺癌死亡率为郊区的194.1%或1.94倍
三、应用相对数时的注意事项 1.计算相对数时,分母不宜过少
如:用某药治疗某病患者,5例中有3例治愈,计算治愈率为 3/5×100%=60.0%,如果有4例治愈,则其治愈率为80%。显然,这个结果 是不稳定的。 在分母例数很少的情况下,个别的偶然因素会导致结果的变化,只有分 母例数较大时,计算的相对数才比较稳定。在例数较少时,通常直接用绝对 数表示。如果要用相对数表示,则需列出其总体率的臵信区间。 又如:某医生用组织埋藏法治疗了2例视网膜炎患者,1例有效, 即报道有效率为50%。这显然是不可靠的,不能正确反映事实真相。
例: 某地2003-2005年不同性别新生儿数见下表,
试计算该地不同年份新生儿性别比。
表 表11-5 3-5 年 份 2003 2004 2005 某地 2003-2005 年新生儿性别比 新生儿数 90919 109671 125513 男性 48636 58908 66814 女性 42283 50763 58699 性别比
3.关于“死亡率”与“病死率”
这是 2 个不同含义的指标, 在进行人群研究时, 它们的 分子可能相同, 但分母不同。死亡率的分母是同期人口数, 是观察人群中某病的死亡频率, 反映了观察人口因某病的死 亡水平, 是一个人口学指标, 一般以 10 万分率表示; 而病 死率的分母是患某病的患者总数, 是某病患者中因该病而死
下面各率中那个率最能反映疾病对人群的威胁程度
发病率 n年生存率 生存率
患病率
治愈率 有效率 死亡率 病死率
?
感染率
常见的几种统计方法
注意:
(1)不同类型的资料采用的统计分 析方法不同;
(2)三类资料类型可以相互转化。
例:某地调查高血压的患病情况。
每人的血压:以mmHg计
计量资料
以舒张压≥90mmHg为高血压,结果在1000
人中有10名高血压患者,990名非高血压患
者,整理后的资料
计数
按低血压、正常、高血压分
资料
组所得资料。
等级资料
60年代到80年代,国外医学杂志调查表明:20%~72%的论文有 统计错误。
1984年对《中华医学杂志》、《中华内科杂志》、《中华外科 杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查 结果为:
相对数误用占 11.2%,抽样方法误用占15.9%,统计图表误用占 11.7%
1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数 据分析方法误用达55.7%。
2001年《中华预防医学杂志》:中华医学会系列杂志误用约54% (1995)。
伪造统计数据违反科学道德
➢ 1976年New Science 杂志关于科研舞弊 行为的调查
(1)74%的调查表反映有不正当修改数据 的情况
(2)17%拼凑实验结果 (3)7%凭空捏造数据 (4)2%故意曲解结果
二、统计工作的基本步骤
四、统计学中的基本概念
(一)总体与样本
1、总体(population)
根据研究目的所确定的同质的所有
观察单位某项变量值的集合。
有关总体的三个要点:
研究目的、同质的、全体
例如:了解某地2002年正常成人白细胞数 目的:了解某地2002年正常成人白细胞数 观察对象:该地2002年全部正常成人 观察单位:每个人
2
12无序分类资料的统计分析
与这个地区人群的血型分布是否一致?53.计算χ统计量及自由度22()20.38A T Tχ−==∑10与消咳喘治疗慢性支气管炎的疗效是否相同?11数据,其余数据均由此派生。
13•一般地,R 行C 列的理论频数n :总频数n R :第R 行频数合计n C :第C 列频数合计•两个独立样本率的比较可用基本公式•亦可用上述基本公式的展开式n n n T CR =∑−=TT A 22)(χ)1(22−=∑CR n n A n χ14•四格表专用公式•在此,式(11-1)、(11-3)及(11-4)等价。
•由于受到“行频数合计等于n ,且列频数合计等于n ”条件的约束,自由度为•对于两独立样本四格表资料,自由度22()()()()()ad bc na b c d a c b d χ−=++++)(列数)行数11(−×−=ν11212(=−×−=)()ν151.建立检验假设,确定检验水准H 0:π1=π2,即两种药物治疗慢性支气管炎的疗效相同H 1:π1≠π2,即两种药物治疗慢性支气管炎的疗效不同α=0.05162.求检验统计量χ2值和自由度v•首先,计算a 、b 、c 、d 对应的理论频数。
•当然,在计算T 11基础上,其余三个理论数也可以按以下方式计算。
253.100237/19812011=×=T 747.19237/3912012=×=T 747.97237/19811721=×=T 253.19237/3911722=×=T 747.19253.10012012=−=T 747.97253.10019821=−=T 253.19747.9711722=−=T 17然后,计算检验统计量χ2值和自由度v•四个表专用公式:45.30 253.19)253.1935(747.97)747.9782(747.19)747.194(253.100)253.100116( )(222222=−+−+−+−=−=∑TT A χ1ν=×(2-1)(2-1)=222()()()()()(11635482)23730.44631(1164)(8235)(11682)(435)ad bc na b c d a c b d −=++++×−××==+×+×+×+χ183.确定P 值,下结论•查附表8,χ20.05,1=3.84,χ2=30.45>χ20.05,1,P<0.05,按α=0.05水准拒绝H 0,差别有统计学意义,可认为慢支口服液II 号治疗慢性支气管炎有效率高于消咳喘。
医学统计知识点整理
医学统计学知识点整理第一节统计学中基本概念一、同质与变异同质:统计研究中,给观察单位规定一些相同的因素情况。
如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。
变异:同质的基础上个体间的差异。
“同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的μ.δ.πX.S.p1.2.变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。
一、数值变量资料又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。
表现为数值大小,带有度、量、衡单位。
如身高(cm)、体重(kg)、血红蛋白(g)等。
二、无序分类变量资料又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。
分类:二分类:+ -;有效,无效;多分类:ABO血型系统特点:没有度量衡单位,多为间断性资料【例题单选】某地A、B、O、AB血型人数分布的数据资料是( )A.定量资料B.计量资料C.计数资料D.等级资料分组统计描述:是利用统计指标、统计表和统计图相结合来描述样本资料的数量特征及分布规律。
统计推断:是使用样本信息来推断总体特征。
统计推断包括区间估计和假设检验。
第四节统计表与统计图★一、统计表统计表的基本结构与要求标题:高度概括表的主要内容,时间、地点、研究内容,位于表的上方,居中摆放,左侧加表的序号。
标目:横标目和纵标目。
线条:通常采用三线表和四线表的形式。
没有竖线或斜线。
数字:表内数字一律用阿拉伯数字。
同一指标,小数位数应一致,位次对齐。
无数字用“—”表示。
暂缺用“…”表示。
“0”为确切值。
备注:位于表的下面,通常是对表内数字的注解和说明,必要时可以用“*”等标出。
一张统计表的备注不宜太多。
二、制表原则1.(7理分布。
【例题填空】描述某地十年间结核病死亡率的变化趋势宜绘制_________图。
医学统计学重点要点
医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合.总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计.用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3。
资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料.是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位.(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容.多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析.第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2。
误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3。
实验设计的三个基本原则:对照原则、随机化分组原则、重复原则.4。
医学统计学复习思考题及参考答案
预防医学第三篇复习思考题及参考答案第十三章医学统计学方法的基本概念和基本步骤1.举例说明总体与样本的关系。
总体是根据研究目的确定的同质的所有观察单位某项观察值(变量值)的集合。
例如研究某地2002年正常成人白细胞数,观察对象是该地2002年全部正常成人,观察单位是每个人,观察值是每人测得的白细胞数,则该地2002年全部正常成人的白细胞数就构成了一个总体;从总体中随机抽取部分观察单位其某项指标的实测值组成样本。
从上述的某地2002年正常成人中随机抽取150人,这150正常成人的白细胞数就是样本。
抽取样本的目的是用样本的信息推论总体特征。
2.简述3种变量类型的特征。
(1)数值变量的变量值是用定量方法测量的,表现为数值的大小,一般有计量单位;(2)无序分类变量的变量值是用定性方法得到的,表现为互不相容的类别或属性,但各类别间无程度上的差别,包括二项分类和多项分类;(3)有序分类变量的变量值也是用定性方法得到的,也表现为互不相容的类别或属性,但各类别之间有程度上的差别。
第十四章数值变量的统计描述1.均数、几何均数和中位数的适用范围是什么?(1)均数适用于描述对称分布,特别是正态分布的数值变量资料的平均水平;(2)几何均数适用于描述原始数据呈偏态分布,但经过对数变换后呈正态分布或近似正态分布的数值变量资料的平均水平;(3)中位数适用于描述呈明显偏态分布(正偏态或负偏态),或分布情况不明,或分布的末端有不确切数值的数值变量资料的平均水平。
2.全距、四分位数间距、方差、标准差、变异系数各有何特点?(1)全距是一组观察值中最大值与最小值之差,计算简单,意义明了,但全距的不能反映组内其他观察值之间的离散情况,并且容易受个别特大值或特小值的影响,稳定性较差;(2)四分位数间距内包括了全部观察值的一半,可看作为中间一半观察值的全距,它比全距稳定,但仍未考虑每个观察值的离散度,它适用于描述偏态分布资料,特别是分布末端无确定数据资料的离散度;(3)方差是离均差平方和的均数,克服了全距和四分位数间距不能反映组内每个观察值离散度的缺点,但方差把观察值的原度量单位变成了平方单位,导致计算结果难于解释;(4)方差开方,即为标准差,它适宜于描述对称分布,特别是正态分布的数值变量资料的离散程度;(5)变异系数是标准差与均数之比,它适宜于描述度量单位不同的观察值的离散程度和度量单位相同但均数相差悬殊的观察值的离散程度。
卫生统计学名词解释
1.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本.2。
随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。
随机抽样是样本具有代表性的保证。
3。
变异:在自然状态下,个体间测量结果的差异称为变异(variation)。
变异是生物医学研究领域普遍存在的现象。
严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
4。
计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料..其变量值是定量的,表现为数值大小,一般有度量衡单位.如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。
计数资料亦称定性资料或分类资料。
其观察值是定性的,表现为互不相容的类别或属性。
如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。
等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。
等级资料又称有序变量.如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为 +、++、+++等.等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。
5. 实验性研究统计分析策略(分类变量)
医学统计技术—卡方检验
配对卡方检验
在Pearson卡方检验中,对行列变量的相关性作了检验,
其中的行列变量是一个事物的两个不同属性。
实际应用中,还有一种列联表,其中的行列变量反映 的是一个事物的同一属性。例如把每一份标本分为两份, 分别用两种方法进行化验,比较两种化验方法的结果是否 有本质不同;或分别采用甲、乙两种方法对同一批病人进 行检查,比较此两种方法的结果是否有本质不同,此时要 用配对卡方检验。
可通过 2 检验的基本公式来理解。
卡方分布: 若k个随机变量,z1,z2,…zk,相互独立且服从标
准正态分布,则随机卡变方量值x是=一z12定+z自22由+…度+的zK卡2被方称分布函 为服从自由度为k的数卡的方一分个布值,,记正作常:情x况下2该(k)值较小
理论知识点—卡方检验
2 分布图形
卡方检验案例2
举例 某种药物加化疗与单用某种药物治疗的两
种处理方法,观察对某种癌症的疗效,结果见下表。
(数据见cancer.sav)
两种治疗方法的疗效比较
处理 药物加化疗 单用药物
合计
有效 42 48 90
疗效
无效 13 3 16
合计 55 51 106
医学统计技术—卡方检验
卡方检验案例2
首先建立数据文件,如下。
理论知识点—卡方检验
2 值的大小还取决于 A T 2 个数的多少(严格
T
地说是自由度ν的大小)。自由度ν愈大, 2 值也会愈 大;所以只有考虑了自由度ν的影响, 2 值才能正确 地反映实际频数A和理论频数T 的吻合程度。
检验的自由度取决于可以自由取值的格子数目, 而不是样本含量n。四格表资料只有两行两列,ν =1, 即在周边合计数固定的情况下,4个基本数据当中只 有一个可以自由取值。
最新 分类资料统计描述与推断
P( X x)
k! e
k 0
x
k
(9.10)
4.Poisson分布具有可加性 如果相互独立的 k 个随机 变量都服从Poisson分布,则它们之和仍服从Poisson 分布,且均数为 k 个随机变量的均数之和。如果以较 小的度量单位观察某一现象的发生数呈 Poisson分布时, 把若干个小单位合并为一个大单位后,总计数亦呈 Poisson分布,其均数等于以较小的度量单位时的均数 之和。例如已知某放射性物质每10分钟放射脉冲数呈 Poisson分布,5次测量的结果分别为35,34,36,38, 34次,那么50分钟的脉冲数Σx = 35 + 34 + 36 + 38 + 34 =177次,亦呈Poisson分布。Poisson分布资料常利 用可加性原理使均数μ=λ≥20,以便用正态近似法处 理。
1
C310.6 1×0.4 2=0.288 C320.6 2×0.4 1=0.432
0.352
0.936
2
0.784
0.648
3
C330.6 3×0.4 0=0.216
1.000
0.216
注:*三例患者中治愈x例的概率函数为P3(x); **P(X≤x)为分布函数
3.二项分布的均数和标准差 记二项分布的总体阳 性率为π,π未知时,用大样本率 p 来估计π。 由式(9.1)推导出二项分布变量X的均数用绝对数表示 时的计算公式为:总体均数μ= E (X) Sp
p(1 p) / n
(9.8)
二、 Poisson分布 Poisson分布(Poisson distribution)是一种重要的离散 型分布。适用条件:① 两分类的资料;② 所考察的事 件发生率π(一般用大样本率p来估计π)很小,n很大, nπ(或np)为一不大的常数;③ 事件的发生是独立的, 如各病人的患病与否与他人无关。如人群中,对某种 物质中过敏的人数,遗传缺陷、癌症等非传染性疾病 的发病例数;又如大量产品中不合格品出现的次数; 用显微镜观察片子上每一格子内的细菌数;细胞发生 某种变化或细菌死亡的数目等等,都服从或近似服从 Poisson分布。Poisson分布可视为二项分布的特例。 Poisson分布常用于研究单位容积(或面积、时间)内稀 有事件发生数的规律。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
85
28.75 15.29
36
129
165
21.82
23 57 13 72
ab cd
[ 案例分析 ]
✓ 资料类型:四格表资料(定性资料) ✓ 设计类型:两样本率的比较,目的是推
断两样本所来自的总体率是否相等,即 π1= π2 。 ✓ 分析方法:两样本率比较χ2检验
一、χ2检验的基本思想
1、 实际频数(actual frequency)。 2、 两个样本率不相同的原因有两种可能:
步骤: 建立假设,确定检验水准
计算检验统计量
P≤α
确定p值 作推断结论
P>α
拒绝H0,接受H1
不拒绝H0
公式 实际频数
理论频数
2 (AT)2(T5)
T
校正 2 公 (A 式 T T 0.5 )2(T5 )
根据某地区的血型普查结果可知,该地区 人群中血型为O 的占30%,血型为A 的占 25%,血型为B 的占35%,血型为AB 的 占10%。研究者在邻近该地区的一个山区 人群中进行一个血型的流行病调查,在该 山区人群中随机抽样调查了200 人,检测 这些对象的血型,问该山区人群与这个地 区人群的血型分布是否一致?
一种是抽样误差所致;另一种是总体率确 有所不同。 3、 通过假设检验对两种原因进行判断:为 了判别这两种情况,先作出“无效假设”, 即假设这两个率相同,差别仅是抽样误差 所致。
性别 男生 女生 合计
表 1 某山区小学男生和女生的肺吸虫感染率
感染人数
未感染人数
合计
感染率(%)
23(17.45) 57(62.55)
1
.057
1
.036
.040
.028
1
.037
N of Valid Cases
165
a. Comput ed only for a 2x2 t able
例1 在某山区小学随机抽取男生80人,其 中肺吸虫感染23人;随机抽取女生85人, 其中肺吸虫感染13人。问该山区小学男生 和女生的肺吸虫感染率有无差别?
性别 男生 女生 合计
表 1 某山区小学男生和女生的肺吸虫感染率
感染人数
未感染人数
合计
感染率(%)
23(17.45) 57(62.55)
80
13(18.55) 72(66.45)
Likelihoo d Ratio
4.411
Fisher's Exact Test
Lin e ar-b y-Lin e ar Associat ion
4.348
Asymp. Sig. Exact Sig. Exact Sig.
df
(2 -sided) (2 -sided) (1 -sided)
1
.036
适用条件;配对四格表检验的基本公式及各公 式的适用条件;掌握四格表的确切概率法的适 用条件。
一、χ2分布(chi-square distribution)
χ2分布是一种连续型随机变量的概率分布 如果Z服从标准正态分布,那么Z2服从自由
度为1的χ2分布 设有k个相互独立的标准正态分布随机变量
Z1,Z2,……Zν ,Z12+Z22 + ……+ Zν 2服 从自由度为ν的χ2分布
纵高
0.5 0.4 0.3 0.2 0.1 0.0
0
f(2)2(1/2)22(/21)e2/2
自由度=1 自由度=2 自由度=3 自由度=6 P=0.05的临界值
3 3.84 6 7.81 9
1122.59 15
18
卡方值
二、拟和优度检验
概念:根据样本的频率分布检验其 总体分布是否等于某给定的理论分 布或检验一个因素多项分类的实际 观察数与某理论频数是否有差别。
无序分类资料的统计分析
【教学内容】
第一节 χ2 分布和拟合优度检验 第二节 四格表资料的χ2检验
第三节 行×列表资料的χ2检验
【教学目的和要求】
✓ ①了解四格表的概念及四格表中4个基本数据的 含义;了解配对四格表的概念以及配对四格表 与一般四格表在设计上的不同。
✓ ②熟悉χ2检验的基本思想。 ✓ ③掌握四格表资料χ2检验的基本公式及各公式的
对例1用四格表专用公式计算。
式中a,b,c,d分别为四格表的四个实际数,总 例数n= a+b+c+d。
表 2 某山区小学男生和女生的肺吸虫感染率
性别
感染人数
未感染人数
合计
男生 女生
23(a) 13(c)
57(b) 72(d)
80(a+b) 85(c+d)
合计
36(a+c)
129(b+d)
165(n)
80
13(18.55) 72(66.45)
85
28.75 15.29
36
129
165
21.82
23 57 13 72
ab cd
图2 x2分布的临界值示意图
二、四格表资料的χ2检验的基本步骤
H0: π1=π2 H1: π1≠π2 α=0.05
n=165>40,最小理论值为T11=(80×36)/165=17.45>5
根据专用公式求χ2值
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
(23 72 5713)2 165 80 85 36129
4.37
结果与基本公式相同
[ 电脑实验 ]
例1 数 据 录 入
SPSS运算过程
此步骤的目的是 对频数进行加权
SPSS运算过程
SPSS结果输出
1.建立检验假设,确定检验水准
H0 :该山区人群与这个地区人群的血型分布是一致的 H1 :该山区人群与这个地区人群的血型分布不一致 α=0.05
2.求出H0为真时各组的理论频数
3.计算χ2统计量及自由度 ν=4-1=3
表8 Χ2界值表(部分)
第二节 四格表资料的χ2检验
[ 典型案例 ]
2 (AT)2 T
(2317 .45 )2(5762 .55 )2(1318 .55 )2(7266 .45 )2
17 .45
62 .55
18 .55
66 .45
4.38
表10 Χ2界值表(部分)
υ=1,查附表10,χ2界值表得:P<0.05。按 α=0.05水准拒绝H0,接受H1,可认为该山区 小学男生和女生的肺吸虫感染率不等,男生 高于女生。
性 别 * 感 染 状 况 Crosst abu lat io n
Co unt
性别 1 2
T otal
感 染状 况
1
2
23
57
13
Байду номын сангаас
72
36
12 9
T otal 80 85
16 5
Ch i-Sq uare Tests
V alu e Pearson Chi-Square 4.374b Cont inuity Correcation 3.621