计数资料的统计分析2013
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因此,统计推断结果的表达:P值与可 信区间相结合,同时报告。
2、数值变量资料可信区间的分类
• 单个总体均数的估计 • 两个总体均数差值的估计:
– 基于两组比较t检验的可信区间
– 基于方差分析两两比较的可信区间
两两比较及计算效应量的95%可信区间
药物因素(不同药物):两两比较的q检 验及其均数差值的95%可信区间。
一、计数资料的统计描述
(一)图表: 频数表,直条图,饼图
变量类型的识别
病例号
1
2 3
年龄 (岁)
35
44 26
性别
女
男 男
身高 血型 心电图 尿WBC (m)
1.65
1.74 1.80
职业
教师
工人 职员
RBC 1012/L
ຫໍສະໝຸດ Baidu4.67
5.21 4.10
A
B O
正常
正常 正常
-
- +
4
5 6 7 8 9
暴露人口又称危险人群,指发生研究疾病可能人群 应排除那些正在患病、曾经患病、或因年龄、免疫 等因素而不会患该病的人,如宫颈癌年发病率?前列 腺肥大发生率?
• 分母用人时—发病密度(incidence density ID)——以观察“人时”为分母计算的发病率
观察对象不稳定时用。
现患率(prevalence)
• 比较两独立事件数量大小关系指标(独立指 互不包含):a/b
–是一个静态指标,反映一特定时间(time point) 的情况。 –无时间单位
计数资料的统计描述:率与比的综合应用
例 某地中毒与损伤汇总分析
年度 1993 1994 1995 1996 1997 1998 合计 发病人数 584 571 714 748 942 1095 病死人数 8 10 12 16 21 24 91 病死率 1.37 1.75 1.68 2.14 2.23 2.19 构成比 8.8 11.0 13.2 17.6 23.0 26.4 相对比 -1.28 1.23 1.56 1.63 1.60
1、95%可信区间(置信区间)
• 定义:有95%(1-0.05())的可能性,在所计 算得到可信区间包含了总体参数(不是总体参 数落在该范围的可能性为95%)(置信区间) • 可信区间由可信上限和可信下限构成:
95% 可信区间CI
95 个 包 含 总 体 均 数 CI *5 个 CI 不 包 含 总 体 均 数
反映疾病严重程度及诊治水平,多用于急性病. 复发率 缓解率 有效率 治愈率
2、构成比 (proportion)
• 说明某一事物内部各组成部分所占的比重和分布, 常用百分数表示(0%-100%)。
结石 部位 胆囊 (%) 肝外胆管 (%) 肝内胆管 (%) 合计 胆固醇 70 59.3 12 16.0 2 7.0 84 结石类型 胆红素 16 13.6 39 52.0 20 69.0 75 其它 32 27.1 24 32.0 7 24.0 63 合计 118 100 75 100 29 100 222
Multiple Comparisons Dependent Variable: 肉 重 瘤 量 Bonferroni Mean Difference (I-J) .1800 .3000* -.1800 .1200 -.3000* -.1200
(I) 药 物 1.00 2.00 3.00
(J) 药 物 2.00 3.00 1.00 3.00 1.00 2.00
发病率(incidence)
• 是指一定时间内某人群中新发病例的频率。
某时期某人群中发生某病的新病例数 发病率 K 同期该人群平均人口数
观察时间可为年、季、月,一般为年。 K可以为100%,1000‟,100000/10万 年发病率/月发病率/季发病率
• 计算发病率时,分子确定要注意:
如评价降压疗效时,将舒张压降低值分为三类:
<5mmHg
5-10mmHg 10-20mmHg
无效
有效 显效
计量资料转化为计数资料,过程本身损失信 息,应慎重。
计数资料的分类赋值
在赋值时应考虑类型而定。
* 二分类变量: 0,1 * 有序多分类: 满足线性关系,多采用等间距赋值 如 -、+、++、+++(0、1、2、3) 不满足线性关系,采用哑变量赋值 * 无序多分类变量赋值: A、B、AB、O
第三讲
计数资料的分类
• 无序分类: 二项或二分类:对立、不相容的两类。 如疗效:病死与未愈等。 多项或多分类:互不相容的多类。 如血型、疾病分型、种族等 • 有序分类:类间不相容且有程度差别。 如疗效:痊愈、显效、好转、无效。 特点:无度量衡单位;定性测量
临床研究中计数资料来源、分类
• 本身设置为分类变量(PI/ECOS) • 计量资料转化而来:
9
女
1.62
军人
2、直条图
3.5 3 2.5 2 1.5 1 0.5 0 工人 干部 职员 军人 农民 教师
直条图(bar 条形图):分类变量资料的频数图,
条与条间独立,顺序可不固定。 与Histogram直方图不同
饼图/圆饼图/圆图/pie图
百分条图 (percent bar)
工人 干部 职员 军人 农民 教师
• 构成比是一特定时间(time point)某 特定事件在总体事件数中所占的比重。 proportion=a/(a + b + c+„„)
–是一个静态指标 –无时间单位,与时间无关。
3、相对比 (ratio)
是A、B两个指标之比。比=A/B • 两个指标可以性质相同,可以不同;绝 对数、相对数或平均数。 两个率的相对比? 两个比的相对比?
–病人的发病时间要“落入”观察期内,即必须是 新病例。 –注意病例与病人的区别。 –疾病必须确诊
新发病 新发病 新发病 已发病 新发病 发病
观察期
2009.1.1 2009.12.31
• 分母:可能发病的人口数,其范围界定很关键
某时期某人群中发生某病的新病例数 发病率 K 同期该人群暴露人口数
1
0%
50%
100%
一、计数资料的统计描述
(二)率、比 (构成比、相对比) rate, proportion, ratio
1、率 (rate, frequency)
率又包括频率指标(frequency)和强度指标 (rate),用来测量一定时期内,某人群特 定事件发生的频率或强度。
• 率=(发生某现象的观察单位数)/(某时间段 可能发生某现象的观察单位数)
某时期某人群总死亡人 数 粗死亡率 K 该人群同期平均人口数
反映人群因病伤死亡危险性总水平。 指示居民健康状况和保健水平。 为卫生决策提供依据。
病死率(case fatality rate)
表示一定时期内(一般为一年)患某病的人 群中因该病而死亡的频率。 某时期内因某病死亡人数 病死率 K 同期患该病的总人数
• 常用百分率、千分率、10万分率表示。
率是一个动态指标,在观察期内看特定人群 中某事件的变化。 率有时间单位—观察时间影响率的大小。
反应停销售量
畸形儿发生率
与临床研究相关的率
• 用于疾病负担测量及选题立题: – 发病率、患病率、死亡率(年龄别死亡率、死因 别死亡率) • 用于临床疗效与预后评价: – 病死率/生存率、复发率、治愈率/缓解率、有效率
• 也称患病率或流行率,指某特定时间某人群中 某病现患人数所占比重或比例。
特定时间某病现存病例数 现患率 K 被调查(或检查)的人数
• 计算现患率时应注意: – 分子包括新、老病例,只要调查时正处于患病 状态,均计算在内。 – 分母不考虑“暴露人口”
可分为时点现患率与期间现患率 point prevalence period prevalence 调查时应尽量缩短调查时间
Based on observed means. *. The mean difference is significant at the .05 level.
三)统计推断结果的综合评价
1、应考虑统计推断的概率性
假设检验结论的概率性,应注意I/II型 错误;在报告结论时,最好列出检验统计量 的值,尽量写出具体的P值或P值的确切范围, 而不简单写成P﹤0.05,以便读者与同类研究 比较或进行Meta分析之用。
3、应围绕研究本身全面考虑,再下 结论
从研究设计、抽样等全面评估结果。如样本代 表性,有无可能出现系统偏差等。
抽样误差
样本均数 x
系统误差
总体均数 ?
4、专业结论同样不能绝对化
• 因统计结论具有概率性质,专业结论同样不 要使用“肯定”、“一定”、“必定”等词 汇。
计数(分类变量)资料的统计分析
2. II型错误与检验效能
检验效能又称把握度、功效,用1-表示( 为II型错误概率):是指事实上当两总体确 有差异,按检验水准所能发现该差异的能 力 。检验效能为0.8,指做100次假设检验, 有80次能检验出有差别。
检验效能的影响因素
实际组间差异(效应量)的大小; 研究对象个体间的标准差大小; I型错误率大小; 样本含量大小:重点考察
第二讲 计量资料的统计分析(补 )
一)假设检验:t检验,ANOVA ,秩和检验 二)参数及可信区间估计 • 参数估计是用样本统计量估计总体参数,是 假设检验的重要补充。
– 点估计:用样本统计量直接作为总体参数的 估计值,简单但未考虑抽样误差的大小。 – 区间估计:即按预先设定的概率(1-)确定 的包含未知总体参数的可能范围。
编号 1 性别 身高 职业状况
9例患者的职业状况 职业状况 工人 干部 职员 军人 农民 教师 合计 频数 3 2 1 1 1 1 9
1.65 教师
女
2
3 4 5 6 7 8
男
男 女 男 女 女 男
1.74
1.80 1.61 1.71 1.58 1.60 1.76
工人
职员 农民 工人 工人 干部 干部
可信区间估计的优劣取决两个方面: 准确度:1,即区间包含的理论概率大小,愈 接近1愈好。 精度:区间的宽度,区间愈窄愈好。 精度:可信上限与可信下限间的宽度; 与准确度、样本量、标准差大小有关。
可信区间(CI)能提供更多的推断信息:
区间范围是否包括总体参数(总体参数差 值),若不包括,表明差别无统计学意义; 同时能显示差别的程度及临床意义; 可信区间CI不能提供确切概率,假设检验提 供P值。
原来分类
age1
1(18岁以下) 2(18-40岁) 3(40岁以上) 1 0 0
哑变量赋值
age2
0 1 0
结果18岁以下赋值为(1,0),18-40岁赋值为(0, 1),40岁以上赋值为(0,0) 无序多分类变量同样赋值: A、B、AB、O ABO血型如何赋值?bt1,bt2,bt3?
革阳菌的哑变量赋值为(1,0,0),革阴菌哑变量 赋值为(0,1,0),真菌哑变量赋值为(0,0,1)
1 2 3 4?
例如:在先天性畸形儿与产妇年龄关系研究中,将 年龄划分为三组,<18岁,18-40岁,>40岁。目的是 探讨不同怀孕年龄段的先天性畸形儿发生是否不同?
畸 形 儿 发 生 率 18岁 40岁
年 龄 采用哑变量方法:dummy variable
(年龄与先天性畸形儿发生率呈U型关系,母亲年龄 过大或过小时,畸形儿发生率高)
25
41 45 50 28 31
女
男 女 女 男 女
1.61
1.71 1.58 1.60 1.76 1.62
AB
A B O AB O
正常
异常 正常 异常 正常 正常
+
++ ++ ++ +++ +
农民
工人 工人 干部 干部 军人
3.92
3.49 5.48 6.78 7.10 5.24
1、频数表
部分原始数据
Cohort study / cross-sectional study
现患率主要应用于慢性病的调查研究。 反映某人群特定时间某病的负担程度。可作 为临床选题与立题依据,也可用于评价防治 措施效果。
死亡率(mortality )
表示一定时期内死亡发生的频率或强度。 粗死亡率(crude death rate)
Std. Error .06181 .06181 .06181 .06181 .06181 .06181
Sig . .059 .004 .059 .264 .004 .264
95% Confidence Interval Lower Bound Upper Bound -.0064 .3664 .1136 .4864 -.3664 .0064 -.0664 .3064 -.4864 -.1136 -.3064 .0664