医学统计学-3-定性资料统计描述
医学统计学复习资料
医学统计学第一章绪论第一节医学统计学的定义和内容1.医学统计学的主要内容 :统计推断、统计描述第二节统计工作的基本步骤1.医学统计工作可分为四个步骤:统计设计搜集资料整理资料分析资料第三节统计资料的类型医学统计资料按研究指标的性质一般分为:定量资料、定性资料、等级资料一、定量资料(计量资料)定量资料(quantitative data)是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料。
如身高(㎝)、体重(㎏)、脉搏(次/分)、血压(kPa,mmHg)等为数值变量,其组成的资料为定量资料。
二、定性资料(计数资料)定性资料(qualitative data)是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料。
亦称无序分类资料。
如:男-女分组;中医的虚、实,阴、阳等分组;按生存-死亡分组;A、B、O、AB分组。
三、等级资料等级资料(ranked data)是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。
亦称有序分类资料。
如治疗结果分为治愈、显效、好转、无效四个等级。
:疾病的严重程度可以分为,轻、中、重;中医辨证中舌象的颜色有,淡、红、暗、紫。
♦根据需要,各类变量可以互相转化。
♦若按贫血的诊断标准将血红蛋白分为四个等级:重度贫血、中度贫血、轻度贫血、正常,可按等级资料处理。
有时亦可将定性资料或等级资料数量化,如将等级资料的治疗结果赋以分值,分别用0、1、2…等表示,则可按定量资料处理。
第四节统计学中的几个基本概念一、同质与变异同质(homogeneity)是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同。
如研究儿童的生长发育,同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。
变异(variation)由于生物个体的各种指标所受影响因素极为复杂,同质的个体间各种指标存在差异,这种差异称为变异。
如同质的儿童身高、体重、血压、脉搏等指标会有一定的差别。
卫生统计学 定性资料的统计描述
度。速率具有量纲,取值范围是[0, +∞),计算公式如
下:
观察时期内某现象的发生数 强度 = K 可能发生某现象的观察人时数
公式中的比例基数K同频率计算公式。
例3 某企业2003年有2839名职工,该企业每年都对
职工进行体检,这一年新发生高血压病人5例,2003 年的高血压发病率为:
新发生高血压病人数 1000 1000 可能发生高血压的人数1年 5人 = 1000 1000 2839 1年 =1.76人 /1000人年
两个比较指标可以性质相同或不同。
相对比分为:
关系指标:
指两个有关的非同类事物的指标,如医护人员与病
床数之比,住院日数与床位数之比等。 对比指标: 指同类事物的两个指标之比,以达到比较的目的。 如2000年我国出生性别比为116.9。
例8 某市乙型脑炎的发病率1990年为4.48/10万, 2000年为0.88/10万,试计算相对比。
在时间概念上,“时点”没有明确的时间长度,通 根据具体的目的不同,类似患病率的指标还有检出 患病率适用于病程较长的疾病或发病时间不易确定 在一定的人群和时间内,发病率与患病率有着密切 常应该在一个较短的观察时间内,一般不超过一个 率、感染率、带菌率、阳性率等。 的疾病的统计研究,反映疾病在人群中的流行规模 的关系。两者与病程的关系是: 月为宜。而期间患病率是指特定的一段时间,多超 和水平,如慢性病的研究。 患病率=发病率X 病程 过一个月。
一项重要指标。
④ 孕产妇死亡率
该年由于妊娠和分娩及并发症造成的 孕产妇 孕产妇死亡数 = ×10万/10万 某年活产总数 死亡率
国际疾病分类第 10版(ICD-10)对孕产妇死亡定义 该指标不仅可以评价妇女保健工作,而且间接反 2 、间接产科原因:妊娠之前已存在的疾病,由 “与妊娠有关的原因”分为两类: 为:妇女在妊娠期至产后 42天以内,由于任何与 映一个国家的卫生水平。据卫生部公布的资料, 1、直接产科原因:包括对妊娠合并症 (妊娠期、 于妊娠使病情恶化引起的死亡。 分娩期及产褥期 )的疏忽、治疗不正确。 妊娠有关的原因所致的死亡称为孕产妇死亡。 我国孕产妇死亡率已由 2003年的51.3/10万下降到 2007年的36.6/10万。
医学研究生医学统计学定性资料的统计描述
百分比(%) 33.33 20.00 13.33 26.67 6.67 100.00
针刺合谷治疗胃痛的效果
疗效 治愈
例数 59
百分 比
(%)
60.82
有效
23
23.71
无效
15
合计
97
15.46
100.0 0
治愈 有效 无效
二、定性资料的描述指标 ——相对数(Relative number)
相对数:两个有联系的指标(数值)之比
相对比 A B
A和B可以是绝对数、平均数,也可以是相对数 A和B的量纲可以相同,也可以不同 A和B彼此分离,互不重叠或包含
如:人口出生性别比;每千人口的医生数、每千 人口的病床数、每医生的门诊工作量、变异系 数等。
人口出生性别比国际上一般以每出生100个女
性人口相对应出生的男性人口的数值来表示。 一般在102~107之间。
频率型指标
某 病 病 死 率 = 同 同 年 年 某 患 病 该 死 病 亡 总 人 数 数 100 %频率型指标
发病率(incidence rate,IR)表示一定时期 内,在可能发生某病的一定人群中新发生某病 的强度。
患病率(prevalence rate, PR)又称为现患 率,指某时点上受检人数中现患某种疾病的频 率,患病率分为时点患病率(point prevalence rate)和期间患病率(period prevalence rate)。
医学研究生医学统计学定性资 料的统计描述
相关概念
定性资料是指将观察单位按照某种属性或类
别进行分组,然后计数各组的观察单位个数 所收集的资料。
根据变量类别之间是否有顺序、等级、大小 关系,分为无序分类变量资料和有序分类变 量资料。
医学统计学重点总结
综合练习
三类资料
(1) 定量资料(quantitative data) 以定量值表达每个观察单位的某项观察指标, 如血脂、心率等。 特点:
① 各观察单位间只有量的差别; ② 数据间有连续性。
三类资料
(2) 定性资料(qualitative data) 以定性方式表达每个观察单位的某项观察指标, 如血型、性别等。 特点:
举例 血型(A、B、O、AB) 人群中某病发生与否(发生、不发生)
描述指标: 相对数
率 构成比 相对比
常用相对数(1)
率(rate),又称频率指标,说明某现 象发生的频率和强度。(强度相对数)
率 = 可 实 能 际 发 发 生 生 某 某 现 现 象 象 的 的 观 观 察 察 单 单 位 位 总 数 数 比 例 基 数
比 A B
四格表(fourfold table)的概念
a
b
c
d
这四个格子的频数是整个表的基本数据,其 余数据都是从这四个基本数据推算出来的,这 种资料称为四格表资料。
2检验的基本思想
如果H0假设成立,则实际频数( actual
frequency)与理论频数应该比较接近。
如果实际频数与理论频数相差较大,超出了
区别
r 没有单位,b有单位;所以,相关系数与单位无 关,回归系数与单位有关;
相关表示相互关系;回归表示依存关系; 对资料的要求不同:
当X和Y都是随机的,可以进行相关和回归分析; 当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析
;
实验研究的基本要素
处理因素:作用于受试对象,要求在实验过 程中观察其处理的因素
两样本比较的秩和检验(基本原理) Wilcoxon符号秩和检验(基本原理)
定性资料统计描述
P1为病例组的暴露比例或在暴露状态下的发病率 P0为对照组的暴露比例或在非暴露状态下的发病率
Odds ratio
例4-4 母亲围孕期是否有发热或感冒病史与婴儿 神经血管畸形关系的病例对照研究的资料如下表 所示。试计算母亲围孕期是否有发热或感冒病史 引起婴儿神经血管畸形的比数比。
率某某 事事 物物 或或 现现 象 有 象 际 发 可 发 数 生 能 生 比 的 数 的 例 所实 基数
Rate
公式中的“比例基数”通常依据习惯而定。
需要注意的是,率在更多情况下是一个具有时间 概念的指标,即用于说明在某一段时间内某现象 发生的强度或频率,如出生率、死亡率、发病率 、患病率等,这些指标通常是指在1年时间内发 生的频率。
R R P1 P0
P1为暴露组的发病率;P0非暴露组的发病率。
Relative risk
例4-3 某地市区非吸烟女性饮酒者和不饮酒者 的肺癌发病资料如下表所示,试计算其相对危 险度。
表4-2 某地市区非吸烟女性饮酒者和不饮酒者的肺癌发病资料
饮酒与否
发病数 观察人年数 发病率(1/10万人年)
是
Odds ratio
四、标准化率
标准化率( standardization rate ):比较两个不 同人群的患病率、发病率、死亡率等资料时,为 消除其内部构成(如年龄、性别、工龄、病程长 短、病情轻重等)对率的影响,可以使用标准化 率。
Standardization rate
例4-5 试对下表资料计算甲乙两个医院的标准化
P0
b
b
d
1
P0
b
d
d
由OR计算公式可以得出
定性资料的统计描述
25
三、相对比
相对比是互不包含的两个有联系指标之比。 对比的两个指标可以性质相同,也可以性质 不同。 公式为:相对比型指标=A指标 / B指标
注意:在计算相对比中,甲、乙两个指标可 以是绝对数,也可以是相对数或平均数,可 以有不同的量纲,但是互不包含。
27
例: 某年某医院出生婴儿中,男性婴儿为 370人, 女性婴儿为358人,则出生婴儿的 性别比为多少? 性别比为:370 / 358 ×100﹪=103﹪ 说明该医院年每出生100名女婴儿,就有103 名男婴儿出生。
30
2.相对危险度(relative risk,RR)表示在两种相同 条件下某疾病发生的概率之比。即暴露组发病率 与非暴露组发病率的比值。 某地某年男性吸烟和非吸烟的冠心病死亡资料 分组 死亡人数 观察人年数 死亡率 (1/10万人年) 43248 10673 240.5 112.4
吸烟组 104 非吸烟组 12
36
某医院某年住院病人中胃癌患者占5%,则() A 5%是强度指标 B 5%是频率指标 C 5%是相对比指标 D 5%说明胃癌在住院病人 中的比重
37
2.使用相对数时分母不宜过小 某药物 甲治疗100人,50人有效,有效 率为50﹪。药物乙治疗5人,3人有效, 我们能否说乙药有效率为60 ﹪?能否说 乙药比甲药治疗效果好。
9
分娩方式 顺产 助产 顺产 顺产 顺产 剖宫产 顺产 剖宫产 顺产 顺产
妊娠结局 足月 足月 足月 早产 足月 足月 死产 足月 足月 足月
按年龄(2岁一组)与职业整理
年龄 18 20 22 24 26 28 30 32 34 36 38 40 合计 工人 2 9 28 50 50 34 11 14 4 2 3 0 207 管理人员 0 2 7 34 43 35 14 2 2 1 1 0 141 农民 0 6 10 28 25 10 11 3 5 1 1 2 102 商业服务 0 10 24 52 45 34 22 14 3 4 0 0 208
医学统计学:定性数据统计描述、统计图表
表1 某社区不同性别人群肺癌情况
性别
检查人 有病人 死亡人 死亡率 发病率
数
数
数
(%) (%)
男
1050
6
3
50.0
0.6
女
950
3
2
66.7
0.3
合计
2000
9
5
58.4 0.45
▪ 请讨论: ▪ 1)该医生所选择的统计指标正确吗? ▪ 2)该医生对指标的计算方法恰当吗? ▪ 3)应该如何作适当的统计分析?
25.73
(1.35)
172
42
(24.42)
(149.14) (6.11)
(342)
32
(9.36)
(341.48) (36.50)
715
90
12.59
(53.86)
(4.28)
▪ 根据最后三栏结果作简要分析。
▪ 由第⑸栏:40~岁组恶性肿瘤死亡占总死亡比重最高,近1/4; 20~岁组次之,占19.05%;60~岁组恶性肿瘤死亡人数虽多, 但仅占总死亡的9.36%;0~岁组恶性肿瘤死亡占总死亡比重 最低,仅占2.90%。
3.常用统计图的适用资料及实施方法
图 形 适用资料
实施方法
直条图 组间数量对比 用直条高度表示数量大小
直方图
百分条 图
饼图
线图
散点图
箱式图
定量资料的分 布 构成比
构成比
定量资料演变 水平 双变量间的关 联 定量资料取值 范围
用直条的面积表示各组段的频数或频率
用直条分段的长度表示全体中各部分的构 成比 用圆饼的扇形面积表示全体中各部分的构 成比 线条位于横、纵坐标均为算术尺度的坐标 系 点的密集程度和形成的趋势,表示两现象 间的相关关系 用箱体、线条标志四分位数间距及中位数、 全距的位置
《医学统计学》第四章定性资料的统计描述
1、不要把构成比与率相混淆。即分析时不能以构成 比代率;这是常见的错误。
某文章作者根据上述资料认为,沙眼在20~组的患病率最高,以后随年 龄增大而减少。该作者把构成比当作率进行分析,犯了以比代率的错误。
2、使用相对数时分母不宜过小。分母过小时相对数 不稳定。
3、注意资料的可比性;
不同时期、不同地区、不同条件下的资料比较时应注意具有 可比性。
12965.2
46.3
否
265
660291.4
40.1
说明该地市区非吸烟女性饮酒者的肺癌发病率是
非吸烟女性不饮酒者的1.15倍。
3.比数比
比数比( Odds ratio ,OR) : 常用于流行病学
中病例-对照研究资料,表示病例组和对照组中的 暴露比例与非暴露比例的比值之比,是反映疾病 与暴露之间关联强度的指标。其计算公式为
一般的,两个地方的出生率、死亡率、发病率、不同级别 医院某病的治愈率等不能直接比较。
无可比性的实例:
由表2-7可见,无论有无腋下淋巴结转移,省医院的5年生存 率均高于市医院,但从总生存率看,省医院的5年生存率低于市 医院。这不符合常理。因此,省医院与市医院的总生存率就不能 直接比较(标准化后再比)。
感谢聆听
率
某事物或现象发生的实 际数 某事物或现象发生的所 有可能数
比例基数
公式中的“比例基数”通常依据习惯而定。
需要注意的是,率在更多情况下是一个具有时间 概念的指标,即用于说明在某一段时间内某现象 发生的强度或频率,如出生率、死亡率、发病率 、患病率等,这些指标通常是指在1年时间内发 生的频率。
例4-1 某单位在2009年有3128名职工,该单位 每年对职工进行体检,在这一年新发生高血压 病人12例,则
04-医学统计学定性数据的统计描述
人年发病率(/10万) 278.36 12.34 24.23
RR=278.36/12.34=22.56,说明EB病毒抗体阳性鼻咽癌发病率是抗体 阴性发病率的22.56倍。
相对比 比数比(odds ratio,OR),用于流行病学中病例对 照研究资料。
病例组的暴露比数 a / b ad OR 对照组的暴露比数 c / d bc
概 述
标准化率(standardization rate),是为了在比较两 个不同人群的患病率、发病率、死亡率等资料时,消 除内部构成(如年龄、性别、工龄、病程长短等)不 同而不能直接比较所产生的影响。 标准化率仅用于相互比较,不代表实际水平;当标 准构成不同时,标准化率一般也不相同。
标准化直接法的计算步骤 a、标准化直接法的计算方法
治愈率(cure rate),表示接受治疗的病人中治愈的频 率。
治愈病人数 治愈率 100% 接受治疗病人数
相对数的使用注意
a、区别构成比和频率 ★频率,强度相对数;构成比,结构相对数。 b、使用相对数时分母不宜过小 ★如分母太小,用绝对数表示,如“3例中死亡1例”。 c、注意相对数的可比性 ★研究对象要同质,方法要相同,观察时期要一致等。 d、考虑存在抽样误差 ★对总体进行推断应作统计学检验。
率的标准化
构成比 构成比(constituent ratio),表示某事物内部各组成 部分在整体中所占的比重。
构成比 某一组成部分的观察单位 数 100% 同一事物各组成部分的 观察单位总数
【例】
某医院某月各科室住院病人数及死亡人数 因病死亡人 死亡构成 科室 病人数 病死率(‰) 数 (%) 内科 350 25 31.25 71.43 外科 650 30 37.50 46.15 肿瘤科 120 20 25.00 166.67 妇产科 300 5 6.25 16.67 合计 1420 80 100.00 56.34
医学统计学第3版 第5章_定性资料的统计描述讲解
1 甲县
经济困难
1 乙县
没有必要
2 甲县
经济困难
2 乙县
经济困难
3 甲县
经济困难
3 乙县
经济困难
4 甲县
没有必要
4 乙县
经济困难
5 甲县
经济困难
5 乙县
没有时间
6 甲县
Байду номын сангаас经济困难
6 乙县
经济困难
7 甲县 8 甲县 9 甲县 10 甲县
经济困难 没有时间 没有时间 其它
7 乙县 8 乙县 9 乙县 10 乙县
[0,1]
常见率的实质
• 频率(frequency)
– 发生比例,即发生某事件的对象所占的比重 – 说明某事件在群体中的发生频度
• 速率(rate)
– 是单位时间内事件的发生频率 – 说明事件在群体中某时期内的发生强度
相对数的分类
• 根据含义或用途不同可以分为:
– 构成比(Proportion) –率
333
6
306
19
639
• 将观察对象按两个定性变量的类别交叉分 组,统计相应的频数形成的频数表,也叫 R×C表
– 行变量,有R个类别,一般存放处理因素 – 列变量,有C个类别,一般存放观测指标
绝对数
• 该变量某个类别在群体中的发生次数
– 与基数有关:观察总次数(或观察对象数)
• 不便于相互比较分析
– 构成比:将事物每个部分的构成比结合在一起, 说明事物的内部构成情况
–率
• 频率(发生比例):说明事物发生频度 • 速率:说明事物单位时间的发生强度或速度
– 比:说明事物间的对比关系或密度情况
应用相对数应注意的问题
医学统计学定性资料统计描述思考与练习带答案
医学统计学定性资料统计描述思考与练习带答案第五章定性资料的统计描述【思考与练习】⼀、思考题1.应⽤相对数时需要注意哪些问题?2. 为什么不能以构成⽐代替率?3. 标准化率计算的直接法和间接法的应⽤有何区别?4. 常⽤动态数列分析指标有哪⼏种?各有何⽤途?5. 率的标准化需要注意哪些问题?⼆、案例辨析题某医⽣对98例⼥性⽣殖器溃疡患者的⾎清进⾏检测,发现杜克雷⽒链杆菌、梅毒螺旋体和⼈类单纯疱疹病毒2型病原体感染患者分别是30、51、17例,于是该医⽣得出结论:⼥性⽣殖器溃疡患者3种病原体的感染率分别为30.6%(30/98)、52.0%(51/98)和17.4%(17/98)。
该结论是否正确?为什么?三、最佳选择题1. 某地2006年肝炎发病⼈数占当年传染病发病⼈数的10.1%,该指标为BA. 率B. 构成⽐C. 发病率D. 相对⽐E. 时点患病率2. 标准化死亡⽐SMR是指AA. 实际死亡数/预期死亡数B. 预期死亡数/实际死亡数C. 实际发病数/预期发病数D. 预期发病数/实际发病数E. 预期发病数/预期死亡数3. 某地⼈⼝数:男性13,697,600⼈,⼥性13,194,142⼈;五种⼼⾎管疾病的死亡⼈数:男性16774⼈,⼥性23334⼈;其中肺⼼病死亡⼈数:男性13952⼈,⼥性19369⼈。
可计算出这样⼀些相对数:11395283.18%16774p ==, 2139521936983.08%1677423334p +==+,313952101.86/1013697600p ==万, 416774122.46/1013697600p ==万,523334176.85/1013194142p ==万, 645p p p =+71395219369123.91/101369760013194142p +==+万81677423334149.15/101369760013194142p +==+万该地男性居民五种⼼⾎管疾病的死亡率为D A. 1p B. 2p C. 3pD. 4pE. 5p4. 根据第3题资料,该地居民五种⼼⾎管病的总死亡率为E A. 1p B. 2p C. 5pD. 6pE. 8p5. 根据第3题资料,该地男、⼥性居民肺⼼病的合计死亡率为D A. 2p B. 5pC. 6pD. 7pE. 8p6. 某地区2000~2005年结核病的发病⼈数为015,,,a a a ?,则该地区结核病在此期间的平均增长速度是DA .0156a a a ?+++B.C.D.1-E.7. 经调查得知甲、⼄两地的恶性肿瘤的粗死亡率均为89.94/10万,但经过标准化后甲地恶性肿瘤的死亡率为82.74/10万,⽽⼄地为93.52/10万,发⽣此现象最有可能的原因是CA. 甲地的诊断技术⽔平更⾼B. ⼄地的恶性肿瘤防治⼯作做得⽐甲地更好C. 甲地的⽼年⼈⼝在总⼈⼝中所占⽐例⽐⼄地多D. ⼄地的⽼年⼈⼝在总⼈⼝中所占⽐例⽐甲地多E. 甲地的男性⼈⼝在总⼈⼝中所占⽐例⽐⼄地多 8. 下列不属于相对⽐的指标是 C A. 相对危险度RR B. ⽐值⽐ORC. 病死率D. 变异系数CVE. 性别⽐9. 计算标准化率时,宜采⽤间接法的情况是BA.已知被标准化组的年龄别死亡率与年龄别⼈⼝数B.已知被标准化组的死亡总数与年龄别⼈⼝数C.已知标准组年龄构成与死亡总数D.已知标准组的⼈⼝总数与年龄别⼈⼝数E.被标化组各年龄段⼈⼝基数较⼤四、综合分析题1. 为研究经常吸烟与慢性阻塞性肺病(COPD)的关系,1998~2000年间,某医⽣收集了356例COPD患者的吸烟史,经常吸烟(⽇平均1⽀以上,30年)的COPD 患者有231例;⽽同时期同年龄段的479名⾮COPD患者中,经常吸烟的有183例。
定性资料的统计描述.
性别 频数(N) 百分比(%)
男
54
42.5
女
73
57.5
合计
127
100.00
绝对数
相对数
定性资料的统计描述
频数图 80
频数
70
60
50
40
30
20
10
0
男
女
图1 卫检班同学性别分布情况
频数表
表7 卫检班同学血型的分布情况
血型 频数(N) 百分比(%)
A型
33
26.00
B型
27
21.30
AB型
适用资料:连续型变量资料
纵轴:对数尺度;
横轴:算术尺度,连续性变量(时间、年龄 等)
表2-9 某地1975-1990年痢疾与百日咳死亡率
年度
痢疾
百日咳
1975
1.45
0.22
1980
0.82
0.05
1985
0.23
0.02
1990
0.14
0.01
1.6
死 1.4
痢疾:1.45-0.14=1.31
亡 1.2 率1
强度型指标
随访资料:如计算发病率,死亡率
发病 失访
观察开始时间
观察结束时间
相对比型指标(ratio)
指两个有关联的指标A与B之比 ,简称比。 A和B可以性质相同,也可以性质不同。 如性别比,师生比,变异系数,OR值,RR 值等。
比= A 100% B
相对数指标类型辨析
相对数指标类型辨析
图例:在图外要附图例说明。 多组比较:若要比较的事物不止一个时,
可以画几个平行的百分条图,以示比较。 各条图的排列顺序相同,图例相同。
医学统计学定性资料的统计描述
卡方检验在医学领域应用
疾病与基因型关联分析
01
通过比较不同基因型在疾病组和对照组中的分布差异,判断基
因型与疾病是否有关联。
临床试验效果评价
02
比较不同治疗方法在患者中的疗效差异,如药物疗效、手术效
果等。
医学影像学诊断准确性评估
03
通过比较影像学诊断结果与金标准诊断结果的一致性,评估影
像学诊断方法的准确性。
非数值性
定性资料不以数值形式表示,而是用 文字、符号等描述。
类别性
定性资料通常按照不同的类别或属性 进行分类。
主观性
定性资料的收集和分析往往涉及主观 判断和解释。
常见定性资料类型
分类资料
按照某种特征或属性将数据分成不同的组别,如性别、 血型等。
顺序资料
除了分类外,还具有一定程度的顺序或等级关系,如 病情严重程度、治疗效果评价等。
数分布表。
图表展示技巧与规范
选择合适的图表类型
根据数据的性质和特点,选择合适的图表类 型,如直方图、条形图等。
数据点标识
在图表中标识出重要的数据点,如最大值、 最小值、平均值等。
图表标题和坐标轴标签
为图表添加标题和坐标轴标签,以便读者理 解图表内容。
图例和颜色使用
使用图例说明不同数据系列的含义,并合理 运用颜色以增强图表的可读性。
整性。
02
Fisher确切概率法计算
根据研究目的和假设,选择合适的统计软件或编程语言实现Fisher确切
概率法的计算过程。
03
结果解读与报告
对计算结果进行解读和分析,将结果以图表或文字形式呈现,并结合专
业知识对结果进行解释和讨论。同时,需要注意结果的可靠性和可重复
医学统计学
一、名词解释:定量数据:用仪器、工具等方法获得的数据。
定性数据:按某种属性分类,然后清点每类的数据。
有序分类资料:半定性或半定量的观察结果,有大小顺序。
统计学:是收集、分析、解释与呈现数据资料的一门科学。
同质:指事物的性质、影响条件或背景相同或非常相近。
变异:指同质的个体之间的差异。
参数:总体的统计指标。
统计量:样本的统计指标。
总体:根据研究目的而确定的同质单位。
样本:从总体中随机抽取部分观察单位某变量值的集合。
变量:是观测单位的某种特征或属性,变量的观测值就是变量值。
概率:是度量随机事件发生可能性大小的数值。
分类变量:其变量值是用定性方法得到的,通常将观察单位按某种属性或类别分组然后汇总各组个数所得到的数值。
数值变量:其变量值是用定量方法测得的,变量值有大小之分,一般有度量衡单位,所得资料称为计量资料。
普查:就是全面调查,即调查目标总体中全部观察对象。
抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查。
极差:及全距,是全部数据中最低值与最小值之差。
上下限:每个组段的起点称为该组的下限,终点称为该组的上限。
平均数:反映资料的集中趋势的指标。
几何均数:变量对数值的算术平均数的反对数。
中位数:是一个位置指标,它是将一组观察值按大小顺序排列后位次居中的数值。
百分位数:是指将观察值从小到大排列后处于第X百分位置上的数值。
方差:样本观察值的离均差平方和的均值,表示一组数据的平均离散情况。
标准差:将方差开方即得到标准差。
变异系数:是极差和方差一样都是反映数据离散程度的绝对值。
正态分布:就是一种重要的连续型随机变量的分布类型。
率:是指某种现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。
构成比:即比例,是指事物内部某一组成部分观察单位数与同一事物各组成分的观察单位总数之比。
相对比:简称比,是两个有关联的指标之比值,用以说明一个指标是另一个指标的几倍或几分之几。
医学统计学4. 定性数据的统计描述
已知健康男童体重近似服从正态分布,某年某地 150名12岁健康男童体重的均数为35kg,标准差为 6kg,试估计
1)该地12岁健康男童体重在50kg以上者占该地12岁健康男 童总数的百分比;
2)该地12岁健康男童体重30-40公斤占该地12岁健康男童的 百分比;
3)该地80%的12岁健康男童集中在哪个范围;
应用相对数的注意事项
例如,某医师对口腔门诊不同年龄龋齿患病情况 (表5-3)进行了分析,得出40~49岁组患病率高, 0~9岁组和70岁及以上组患病率低的错误结论。
年龄组(岁)
0~ 10~ 20~ 30~ 40~ 50~ 60~ 70~ 合计
表 5-3 口腔门诊龋齿患者年龄构成
患者人数
患者构成比(%)
一、统计学指标
绝对数:反应实际水平 相对数----两个数值的比,包括: 率 构成比 相对比
(一)率
率:
说明某现象或某事物在它可能发生的范围内实际发 生的频率或强度,又称频率指标或强度指标。
常以百分率(%)、千分率(‰)、万分率(1/ 万)、十万分率(1/10万)等表示,计算公式为:
率
某时期内实际发生某现象的观察单位数 同时期可能发生某现象的观察单位总数
比例基数
需要注意的是,分母中所规定的平均人口是指可 能会发生该病的人群。
2.患病率: 也称现患率,表示某一时点某人群人口 中患某病的频率,通常用来表示病程较长的慢性
病的发生或流行情况,其计算公式为
某病患病率
某地某时点某病患病例数 该地同期内平均人口数
比例基数
以上比例基数可为100%、1000‰、10000/万、 100000/10万,实际中患病率的分母通常为调查 的总人数,分子为患病的人数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解决办法
分层比较 率的标准化法 多元统计分析方法
相对数比较时应注意其可比性(二)
在同一地区不同时期资料的相对数比较时,还 应注意其条件有无变化。 例如,不同时期的发病率比较时,应注意不同 时期疾病的登记制度、诊断水平以及平均人口 数的变化。
5、样本率或构成比进行比较时应作假设检验 由于样本率或构成比是样本指标,同样存 在着抽样误差。 在实际工作中,不能根据样本率或构成比 等相对数的数值大小轻易作出结论,应进 行样本率或构成比差异比较的假设检验。
一、相对数的概念
Question:
通过调查得到某年甲地区的小学生中流脑 发病63例,乙地区的小学生中流脑发病35 例。能否认为甲地流脑的发病严重程度高 于乙地? 绝对数63例和35例表示甲地发病比乙地多 28例,能否说明两地发病的严重程度呢?
假设甲地有小学生50051人,乙地有小学生 14338人,求出两地的发病率: 甲地发病率: 63/50051=1.26‰ 乙地发病率: 35/14388=2.44‰ 乙地区的发病率是甲地区的两倍多。 以上两个发病率为通过绝对数求得的相对 数,用来表示事物出现的频率或强度,便 于比较。
分类资料的统计描述
用率、构成比和相对比等指标来对分类资 料进行统计描述。 由两个有联系的指标之比组成,统称为相 对数。 常用相对数包括率、构成比和相对比。
二、常用相对数
1、率(rate)
又称频率指标。 某现象实际发生数与可能发生总数之比。 说明某现象发生的频率与强度:
某时期内实际发生某现象的观察单位数 率= ×比例基数(K) 同时期可能发生该现象的观察单位总数
三、标准组的选择
标准组应选择有代表性的、较稳定的、来自数 量较大的人群的指标作为标准。
例如世界的、全国的、全省的、本地区的或本 单位历年累计的数据等;
也可选择相互比较的人群之一或比较人群的合 并人群作为标准。
如比较甲乙两组资料时,可用甲乙两组合并的 数据作标准,也可用其中一组作为标准组。
例、选择甲、乙厂各年龄组合并人口数作为标 准人口数,用直接法计算标准化患病率。
比例基数(K) 可以是100%、1000‰、…… 常用的频率指标有发病率、患病率、死亡率、 病死率、有效率、治愈率等。
注意点
分母为同时期可能发生某现象的观察单位 总数
子宫癌患病率? 麻疹、腮腺炎的发病率?
例、某地区2000年60岁以上男性居民年中 平均人口数为13760人,恶性肿瘤死亡人数 为54人,则该地区2000年60岁以上男性居 民恶性肿瘤死亡率为:
4、相对数比较时应注意其可比性(一)
同质性 除了欲对比的研究因素外,其余的影 响因素应尽可能的相同或相近,以确保资料的 可比性。 观察对象要同质,影响研究结果的一些因素在 要比较的各个组内部构成应该相同。 比如,常要考虑性别、年龄、病情轻重、病程 长短等方面的同质性。
例、某病两种治疗方法治愈率比较。
不同时期率的动态比较
例、某地1990年和2000年5种慢性疾病的发病 情况。能否认为脑血管疾病发病上升而心血管 疾病发病下降?
疾 病 脑血管疾病 心血管疾病 恶性肿瘤 意外伤害 呼吸系统疾病 合 计 1990 年 病例数 2100 1150 927 812 584 5573 构成比 (%) 37.68 20.64 16.63 14.57 10.48 100.00 病例数 3805 1365 1067 931 728 7896 2000 年 构成比(%) 48.19 17.29 13.51 11.79 9.22 100.00
3、应分别将分子和分母合计求平均率
对观察单位数不等的几个率计算合计率或 平均率时: 把各组率相加求其平均值(错误)。 分别将分子和分母合计求出合计率或平均 率。
例、2000年某地区不同年龄组恶性肿瘤死 亡资料。
年龄组(岁) 平均人口数 (1) (2) 0~ 20~ 40~ 60~ 合 计 112994 56022 34900 13760 217676 恶性肿瘤死亡人数 死亡构成比(%) 死亡率 (1/10 万) (3) (4) (5) 6 16 58 54 134 4.48 11.94 43.28 40.30 100.00 5.31 28.56 166.19 392.44 61.56
例、对某大学学生吸烟状况进行调查,结 果显示该校男性大学生吸烟率为35.12%, 女性大学生吸烟率为1.58%,则该校男女学 生吸烟率之比为:
35.12% = 22.23 1.58%
即该校男大学生吸烟率是女大学生吸烟率 的22.23倍。
例、体质指数(BMI) 体重/身高2(kg/m2) 低体重 正常 超重 肥胖 <18.0 18.0 ~ 24.0 ~ 28.0 ~
疑问:两厂各年龄组的患病率与两厂的总患病 率所反映的情况截然相反。 原因:两厂人口的年龄构成不同,甲厂以中年 人为主;而乙厂以年轻人为主。 解决:要比较甲、乙两厂的糖尿病患病率情况, 关键在于调整两厂由于年龄构成不同对患病率 造成的影响。即对甲、乙两厂的年龄构成进行 标准化。
为解决因内部构成不同而造成的影响,可选择 一个共同的标准人口数(或标准人口构成), 分别计算两比较组的标准化率。 率的标准化法指选用统一的标准人口或标准人 口构成作为参照,消除内部人口年龄、性别等 混杂因素构成不同对总率产生的影响,以增强 可比性。 标准化法不但可以用于率的标准化,也可以用 于均数的标准化。
甲厂标准化患病率
∑N p p' =
i
i
N
774 = × 100% = 5.79% 13357 797 = × 100% = 5.97% 13357
乙厂标准化患病率
∑N p p' =
i
i
N
经标准化后,甲厂的糖尿病患病率要低于乙厂, 与各小组率比较的结果一致。 利用标准化法解决了各年龄组患病率与总率矛 盾的情况。
54 × 100000 /10万 = 392.44 /10万 13760
2、构成比(proportion)
又称构成指标。表示某一事物内部各组成 部分所占的比重或频率,常以百分数表示。
事物内部某一组成部分 的观察单位数 构成比 = × 100% 同一事物各组成部分的 观察单位总数
例、507名傣族人血型的频数分布 血型 O A B AB 合计 频数 205 112 150 40 507 构成比(%) 40.43 22.09 29.59 7.89 100.00
2、分析时切不能以构成比代替率
构成比表示事物内部各组成部分所占的比 重或分布。 率表示某现象发生的频率或强度。 易发生混用错误的两种情况:
相同时期率的比较 不同时期率的动态比较
相同时期率的比较
例、2000年某地区不同年龄组恶性肿瘤死亡 资料。能否认为2000年该地区40~组的恶性死 亡情况最为严重?
构成比的两个特点
各个组成部分的构成比之和等于100%,分 子的总和等于分母。 事物内部各组成部分之间呈此消彼长的关 系。
3、相对比(ratio)
简称比,是两个有关指标之比。说明甲指 标是乙指标的几倍或几分之几。
甲指标 相对比= 乙指标
两个指标可以是绝对数,也可以是相对数 或平均数;性质可以相同,也可以不同; 可以是定量资料,也可以是定性资料。
例、某市某年各区急性传染病发生数及其 相对数
市区 (1) I II III IV V VI VII 合计 年平均 人口数 (2) 636723 389540 699712 328363 286967 317504 153838 2812647 急性传染 各区急性传染病 各区急性传染病 病发生数 发生数构成比(%) 发病率(1/万) (3) 2433 3033 1650 1503 1282 1853 1130 12884 (4) 18.9 23.5 12.8 11.6 10.0 14.4 8.8 100.0 (5) 38.21 77.86 23.58 45.77 44.67 58.36 73.45 45.81
二、标准化率的计算
采用统一的标准对内部构成不同的各组频率进 行调整后的率就称为标准化率,简称为标化率, 也称调整率。 标准化率实际上是一种加权平均。 已知标准组年龄别人口数或构成比时,以标准 组的年龄别人口数构成比作为权数,对被标化 组各小组率求加权平均,以消除各组内部构成 不同的影响,即为直接标准化率p'。
医学统计学
分类资料的统计描述
statistical description for categorical data
2009.9
资料的分类
定量资料(数值资料)
用均数、标准差、中位数、百分位数等描述
定性资料(无序分类)
无序分类 二项分类:男女、阳性阴性、正常异常 多项分类:血型
等级资料(有序分类):+、++、+++、 ++++
∑N p p' =
i
i
N
(式 1) (式 2)
Ni p' = ∑ pi N
公式1适用于已知标准组各小组单位数时。p’为标 准化率,Nipi为各小组的预期发生数,是指用原来的 率pi去预测在标准人口Ni中的事件发生数。总的预期 发生数除以标准组总人口就得到标准化率。 公式2适用于已知标准组各小组构成比时。标准 组的年龄构成比Ni/N乘以被标化组的组别率pi称为事 件分配发生率,分配发生率的累计就是标准化率。
年龄组(岁) 平均人口数 (1) (2) 0~ 20~ 40~ 60~ 合 计 112994 56022 34900 13760 217676 恶性肿瘤死亡人数 (3) 6 16 58 54 134 死亡构成比(%) 死亡率 (1/10 万) (4) (5) 4.48 11.94 43.28 40.30 100.00 5.31 28.56 166.19 392.44 61.56