临床研究中常用统计分析方法和选择
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
◦ 多变量分析方法 ◦ 如,线性相关,线性回归,Logistic回归,Cox回归、生存分析等
(三)资料类型
数值变量资料 无序分类变量资料 有序分类变量资料
- 计量资料 - 计数资料 - 等级资料
数值变量:每一个观察对象都有一个数值,且大小差异有意义
例如,血红蛋白(g/L),住院天数,产前检查次数,住院费用
3 43 男 A 10.93 异常 有效
4 59 女 B 14.67 异常 无效
…
…
…
108 54 男 B 16.80 正常 无效
(一)数值变量资料的描述
通过绘制直方图可以直观了解数据的分布
平均水平
平均水平
变异水平 偏态分布
近似正态分布
偏态分布形状
研究中,右偏态分布更常见,如住院时间,住院费用,病程等 左偏态分布较少见,如考生成绩有时呈左偏态分布
临床研究中,经常需要分析某些因素与疾病之间的关系,探 讨疾病的危险因素。这些通常会涉及到多变量分析。
实例7 欲研究治疗某病的改进法(传统药+辅药)与传统法(传统药)
在不同剂量下的疗效。将150例研究对象随机分成10组,每组15例; 每种剂量及每种疗法下观察15例。结果如下表:
资料特点:结果变量:是否有效,二分类(有效、无效) 两个影响因素:治疗方法、药物剂量
(一)研究设计
完全随机设计(成组设计)
--最常见,最易实施的实验设计方案 --将研究对象随机分配到几个组,然后做实验
配对设计(区组设计)
--将具有相似特征的研究对象配成对子,然后再将每个对子 的对象随机分配到两个组进行实验
--常见形式:同源配对(如样品一分为二) 异源配对(按性别、体重、年龄配对) 自身前后配对(试验前后的对比)
影响因素筛选—回归分析
统计学在医学科研中作用
统计学是进行医学科研的重要工具 满足统计学原则要求是保障医学科研科学性的前提 采用恰当的统计学方法是研究结论可靠、可信的前提 课题申报、论文撰写均有明确的统计学要求
二、合理选择统计方法的四个因素
研究设计 分析目的 资料类型 数据特征
(二)分析目的
对临床资料进行统计描述
◦ 描述性统计分析方法 ◦ 如,均数,中位数,标准差,百分比,频数分布等
估计总体参数
◦ 95%可信区间
对几组资料进行差异性检验
◦ 假设检验方法 ◦ 如,t检验,卡方检验,方差分析,秩和检验等
探讨变量之间的关系,或者自变量(影响因素) 对应变量(结果变量)的影响大小
资料特点:完全随机设计,计量资料,三组 不妥的方法:t检验 恰当的方法:方差分析
实例2 36只大鼠随机分为对照组、实验组1、实验组2三组,每组12
只,分别给予三种饲料,分别于10天、15天、20天、25天测 定大鼠体重,如下表。
资料特点:完全随机设计,计量资料,三组,重复测量 不妥的方法:每个时间点用t检验或方差分析 恰当的方法:重复测量的方差分析
实例3 72只小鼠随机分为3组,每组24只,进行实验,分别于试验
后1,3,5,7天处死小鼠6只小鼠,测定大脑中酪氨酸激酶B 的表达水平,如下表。
资料特点:计量资料,三组,重复测量? 析因设计? 不妥的方法:每个时间点用t检验,重复测量的方差分析 恰当的方法:3×4析因设计方差分析
实例4 两组手术病人,采用两种不同的镇痛方式(试验组、对照
资料特点:计数资料,两组,例数比较少 不妥的方法:卡方检验 恰当的方法:Fisher精确检验
实例6 两组病人,采用两种药物治疗,治疗疗效如下表。经卡方检 验,P=0.0570,差异无统计学意义。
资料特点:等级资料,两组 不妥的方法:卡方检验 恰当的方法:Wilcoxon秩和检验
五、变量间关系研究
假设检验及判别诊断
例子4:研究心肌梗死患者预后的影响因素,以是否发 生心性死亡作为观察结果指标,对116名心梗患者的22 个可能影响预后的因素进行观察和记录
结局指标:心性死亡 预后因素:年龄、性别、高血压病、心梗位置、心梗分级、
传导阻滞、溶栓治疗,….,等
哪些预后因素与发生心性死亡有关系? 关系的强度如何?
2、常用计数资料假设检验方法
比较目的
应用条件
统计方法
样本率与总体率 n较小时
二项分布的直接法
的比较
np>5且n(1-p)>5 二项分布的Z检验
两个率或构成比 的比较(完全随 机设计)
np>5且n(1-p)>5 n>40且T>5 n>40且1<T<5
二项分布的Z检验 卡方检验 校正卡方检验
n<40或T<1
应用条件 n较大(任意分布) n较小,差值为正态 n较小,差值为非正态
统计方法 配对设计Z检验 配对设计的t检验 配对设计的秩和检验
多组资料的比较 正态分布,方差齐 (完全随机设计) 非正态分布,方差不齐
方差分析 秩和检验(H检验)
配伍资料的比较 (配伍设计)
正态分布,方差齐 非正态分布,方差不齐
配伍设计的方差分析 配伍设计的秩和检验 (Friedman检验)
方差齐性
◦ 方差是否齐同(相等) ◦ 粗略判断
两组标准差之比在2.5倍以上,就得警惕方差不齐
描述数值变量资料的常用指标
指标名称 均数(X) 中位数(M) 几何均数(G) 标准差(s) 四分位数间距 极差(R) 变异系数(CV)
适用的资料 正态分布或近似正态分布 偏态分布、分布未知、两端无界 对数正态分布、等比资料 正态分布或近似正态分布 偏态分布、分布未知、两端无界 观察例数相近的数值变量 比较几组资料间的变异大小
Fisher精确检验
2、常用计数资料假设检验方法(续表)
比较目的
应用条件
统计方法
配对四格表比较 (配对设计)
b+c >40 np>5且n(1-p)>5
配对卡方检验 校正配对卡方检验
多个率或构成比的比较 全部格子T>5
(完全随机设计)
或1<T<5小于25%
卡方检验
T<1或1<T<5超过25% Fisher精确检验
适用条件可根据数据特征来判断
• 数据的分布特征(正态、偏态) • 方差齐性 • 理论数大小 • 样本量大小
三、数据资料的描述
108例高血压患者治疗后临床记录
编号 年龄 性别 治疗组 舒张压 心电图 疗效
NO X1 X2 X3 X4 X5 X6
1 37 男 A 11.27 正常 显效
2 45 女 B 12.53 正常 有效
的可能性大 • 一般以0.05作为临界值来判断
(二)组间比较常用的假设检验方法
根据资料类型选择
计量资料的假设检验
• t检验、F检验(方差分析)、Z检验、秩和检验 (Wilcoxon秩和检验、H检验、Friedman检验)等
计数资料的假设检验
• 卡方检验、Z检验等
等级资料的假设检验
• 秩和检验(Wilcoxon秩和检验、H检验、Friedman 检验)
3、常用等级资料假设检验方法
比较目的 两组比较(完全随机设计) 多组比较(完全随机设计) 配伍设计 配对设计
统计方法
Wilcoxon秩和检验 秩和检验(H检验) 秩和检验(Friedman检验) 符号秩和检验
几个例子
实例1 30只大鼠随机分为A、B、C三组,每组10只,分别给予三
种药物,5天后测定某指标值如下表。
组),于手术后24小时测定血清中的IL-6,结果如下表。
资料特点:计量资料,两组,标准差相差比较大(方差不齐) 不妥的方法:t检验 恰当的方法:t’检验 或者 Wilcoxon秩和检验
实例5 两组病人,采用两种药物治疗,治疗疗效如下表。经卡方
检验,P=0.0486,差异有统计学意义。因此可以认为试验组 的疗效比对照组的疗效好。
不妥的方法:卡方检验或Fisher精确检验 恰当的方法:多因素分析中的Logistic回归分析
谢谢!
(一)研究设计
析因设计
--同时研究多个实验因素对结果的影响 --例如,研究药物剂量(3mg、6mg)及给药方式(口服、肌注) 对结果的影响,每种组合均需要做试验(3mg+口服,3mg+肌 注, 6mg+口服,6mg+肌注),为2×2析因设计
重复测量设计
--同一对象在不同时间点上进行某个指标的观测,以分析该 指标在时间上的变化。 --临床上很常见的一类资料
无序分类:指类别或属性间无顺序、程度之分
例如,性别(男、女)为二分类 血型(A、B、AB、O)为多分类
有序分类:指类别间存在着次序,或程度上的差异。
例如,治疗效果:无效、好转、显效、治愈 实验室检验:–、+、++、+++
(四)数据特征
任何统计方法都有自己的适用条件,只有当某个或某些条 件满足时,统计计算公式才成立
1、常用计量资料的假设检验
比较目的
应用条件
样本与总体比较
n较大 n大小均可
两组资料的比较 (完全随机设计)
n较大
n较小,正态分布,方差齐 n较小,非正态分布,方差不齐
统计方法 Z检验 t检验 Z检验
t检验 Wilcoxon秩和检验 t’检验
1、常用计量资料的假设检验(续表)
比较目的 配对资料的比较 (配对设计)
假设检验出发点是:
• 判断样本之间差异由什么原因造成的
样本数据间的差异有两种原因所致
• 样本来自同一总体,差异因抽样误差所引起 • 样本来自不同总体,差异因不同总体所引起
假设检验以P值大小作为推断依据
• P值大,表示差异由抽样误差引起可能性大 • P值小,表示差异由抽样误差引起可能性小,即由总体不同引起
中位数
平均水平
偏态分布 变异水平
P25,P75 四分位数间距
均数
平均水平
近似正态分布
标准差
论文中最常用组合
正态分布或近似正态分布:
均数 与 标准差
偏态分布或未知分布
中位数 与 P25、P75(四分位数间距)
(二)分类变量资料的描述
通常需要描述各个类别的频数及频率(百分比)
108 名高血压患者的疗效
疗效 频数 百分比(%)
治愈 46
42.6
显效 29
26.9
有效 18
16.7
无效 15
13.9
二维频数表
A、B 两组高血压患者疗效比较
组别 治愈 显效 有效 无效 合计 A 29 17 6 4 56 B 17 12 12 11 52
研究中通常需要列出二维频数表
四、数据资料的组间比较
(一)组间比较采用技术----假设检验
例子3:为鉴别胃癌、胃炎、非胃病患者,各测定了50 名对象的铜兰蛋白等指标,其中铜兰蛋白的观察结果如 下:
胃癌 228 235 143 187 250 … 胃炎 100 153 178 143 200 … 非胃病 98 123 170 100 120 …
问:三种人的铜兰蛋白有无不同? 能否根据测定的铜兰蛋白数据对患者进行初步诊断?
临床研究中常用统计分析 方法和选择
主要内容
统计学方法有什么用? 合理选择统计方法的四个因素 数据资料的描述 数据资料的组间比较 变量间关系研究
一、统计学方法有什么用?
一张关于统计学的图 片
几个例子
例子1:一研究者宣布找到一种治疗某病的新药, 试验的结果如下:
药物 新药 安慰剂
例数 60 50
有效 42 25
有效率 70% 50%
该新药是否值得推广?
假设检验及临床优效性检验
例子2:英国某年全人口统计资料
英格兰和威尔士
Leabharlann Baidu移民
年龄 分组
人口 (千人)
发病数
发病率 (10 万)
人口 (千人)
发病数
发病率 (10 万)
0~
1900
1406
74.0
5~
3100
186
6.0
26
21
80.8
30
2
6.7
15~
9400
1786
19.0
127
27
21.3
45~
4900
7350
150.0
25
42
168.0
65~
2000
17400
870.0
5
48
960.0
合计
21300 28128
132.1
213
140
65.7
矛盾:移民组的发病率在各个年龄组均高于英格兰和威尔 士组,为什么它的合计发病率反而低?
分析中混杂因素的控制
(三)资料类型
数值变量资料 无序分类变量资料 有序分类变量资料
- 计量资料 - 计数资料 - 等级资料
数值变量:每一个观察对象都有一个数值,且大小差异有意义
例如,血红蛋白(g/L),住院天数,产前检查次数,住院费用
3 43 男 A 10.93 异常 有效
4 59 女 B 14.67 异常 无效
…
…
…
108 54 男 B 16.80 正常 无效
(一)数值变量资料的描述
通过绘制直方图可以直观了解数据的分布
平均水平
平均水平
变异水平 偏态分布
近似正态分布
偏态分布形状
研究中,右偏态分布更常见,如住院时间,住院费用,病程等 左偏态分布较少见,如考生成绩有时呈左偏态分布
临床研究中,经常需要分析某些因素与疾病之间的关系,探 讨疾病的危险因素。这些通常会涉及到多变量分析。
实例7 欲研究治疗某病的改进法(传统药+辅药)与传统法(传统药)
在不同剂量下的疗效。将150例研究对象随机分成10组,每组15例; 每种剂量及每种疗法下观察15例。结果如下表:
资料特点:结果变量:是否有效,二分类(有效、无效) 两个影响因素:治疗方法、药物剂量
(一)研究设计
完全随机设计(成组设计)
--最常见,最易实施的实验设计方案 --将研究对象随机分配到几个组,然后做实验
配对设计(区组设计)
--将具有相似特征的研究对象配成对子,然后再将每个对子 的对象随机分配到两个组进行实验
--常见形式:同源配对(如样品一分为二) 异源配对(按性别、体重、年龄配对) 自身前后配对(试验前后的对比)
影响因素筛选—回归分析
统计学在医学科研中作用
统计学是进行医学科研的重要工具 满足统计学原则要求是保障医学科研科学性的前提 采用恰当的统计学方法是研究结论可靠、可信的前提 课题申报、论文撰写均有明确的统计学要求
二、合理选择统计方法的四个因素
研究设计 分析目的 资料类型 数据特征
(二)分析目的
对临床资料进行统计描述
◦ 描述性统计分析方法 ◦ 如,均数,中位数,标准差,百分比,频数分布等
估计总体参数
◦ 95%可信区间
对几组资料进行差异性检验
◦ 假设检验方法 ◦ 如,t检验,卡方检验,方差分析,秩和检验等
探讨变量之间的关系,或者自变量(影响因素) 对应变量(结果变量)的影响大小
资料特点:完全随机设计,计量资料,三组 不妥的方法:t检验 恰当的方法:方差分析
实例2 36只大鼠随机分为对照组、实验组1、实验组2三组,每组12
只,分别给予三种饲料,分别于10天、15天、20天、25天测 定大鼠体重,如下表。
资料特点:完全随机设计,计量资料,三组,重复测量 不妥的方法:每个时间点用t检验或方差分析 恰当的方法:重复测量的方差分析
实例3 72只小鼠随机分为3组,每组24只,进行实验,分别于试验
后1,3,5,7天处死小鼠6只小鼠,测定大脑中酪氨酸激酶B 的表达水平,如下表。
资料特点:计量资料,三组,重复测量? 析因设计? 不妥的方法:每个时间点用t检验,重复测量的方差分析 恰当的方法:3×4析因设计方差分析
实例4 两组手术病人,采用两种不同的镇痛方式(试验组、对照
资料特点:计数资料,两组,例数比较少 不妥的方法:卡方检验 恰当的方法:Fisher精确检验
实例6 两组病人,采用两种药物治疗,治疗疗效如下表。经卡方检 验,P=0.0570,差异无统计学意义。
资料特点:等级资料,两组 不妥的方法:卡方检验 恰当的方法:Wilcoxon秩和检验
五、变量间关系研究
假设检验及判别诊断
例子4:研究心肌梗死患者预后的影响因素,以是否发 生心性死亡作为观察结果指标,对116名心梗患者的22 个可能影响预后的因素进行观察和记录
结局指标:心性死亡 预后因素:年龄、性别、高血压病、心梗位置、心梗分级、
传导阻滞、溶栓治疗,….,等
哪些预后因素与发生心性死亡有关系? 关系的强度如何?
2、常用计数资料假设检验方法
比较目的
应用条件
统计方法
样本率与总体率 n较小时
二项分布的直接法
的比较
np>5且n(1-p)>5 二项分布的Z检验
两个率或构成比 的比较(完全随 机设计)
np>5且n(1-p)>5 n>40且T>5 n>40且1<T<5
二项分布的Z检验 卡方检验 校正卡方检验
n<40或T<1
应用条件 n较大(任意分布) n较小,差值为正态 n较小,差值为非正态
统计方法 配对设计Z检验 配对设计的t检验 配对设计的秩和检验
多组资料的比较 正态分布,方差齐 (完全随机设计) 非正态分布,方差不齐
方差分析 秩和检验(H检验)
配伍资料的比较 (配伍设计)
正态分布,方差齐 非正态分布,方差不齐
配伍设计的方差分析 配伍设计的秩和检验 (Friedman检验)
方差齐性
◦ 方差是否齐同(相等) ◦ 粗略判断
两组标准差之比在2.5倍以上,就得警惕方差不齐
描述数值变量资料的常用指标
指标名称 均数(X) 中位数(M) 几何均数(G) 标准差(s) 四分位数间距 极差(R) 变异系数(CV)
适用的资料 正态分布或近似正态分布 偏态分布、分布未知、两端无界 对数正态分布、等比资料 正态分布或近似正态分布 偏态分布、分布未知、两端无界 观察例数相近的数值变量 比较几组资料间的变异大小
Fisher精确检验
2、常用计数资料假设检验方法(续表)
比较目的
应用条件
统计方法
配对四格表比较 (配对设计)
b+c >40 np>5且n(1-p)>5
配对卡方检验 校正配对卡方检验
多个率或构成比的比较 全部格子T>5
(完全随机设计)
或1<T<5小于25%
卡方检验
T<1或1<T<5超过25% Fisher精确检验
适用条件可根据数据特征来判断
• 数据的分布特征(正态、偏态) • 方差齐性 • 理论数大小 • 样本量大小
三、数据资料的描述
108例高血压患者治疗后临床记录
编号 年龄 性别 治疗组 舒张压 心电图 疗效
NO X1 X2 X3 X4 X5 X6
1 37 男 A 11.27 正常 显效
2 45 女 B 12.53 正常 有效
的可能性大 • 一般以0.05作为临界值来判断
(二)组间比较常用的假设检验方法
根据资料类型选择
计量资料的假设检验
• t检验、F检验(方差分析)、Z检验、秩和检验 (Wilcoxon秩和检验、H检验、Friedman检验)等
计数资料的假设检验
• 卡方检验、Z检验等
等级资料的假设检验
• 秩和检验(Wilcoxon秩和检验、H检验、Friedman 检验)
3、常用等级资料假设检验方法
比较目的 两组比较(完全随机设计) 多组比较(完全随机设计) 配伍设计 配对设计
统计方法
Wilcoxon秩和检验 秩和检验(H检验) 秩和检验(Friedman检验) 符号秩和检验
几个例子
实例1 30只大鼠随机分为A、B、C三组,每组10只,分别给予三
种药物,5天后测定某指标值如下表。
组),于手术后24小时测定血清中的IL-6,结果如下表。
资料特点:计量资料,两组,标准差相差比较大(方差不齐) 不妥的方法:t检验 恰当的方法:t’检验 或者 Wilcoxon秩和检验
实例5 两组病人,采用两种药物治疗,治疗疗效如下表。经卡方
检验,P=0.0486,差异有统计学意义。因此可以认为试验组 的疗效比对照组的疗效好。
不妥的方法:卡方检验或Fisher精确检验 恰当的方法:多因素分析中的Logistic回归分析
谢谢!
(一)研究设计
析因设计
--同时研究多个实验因素对结果的影响 --例如,研究药物剂量(3mg、6mg)及给药方式(口服、肌注) 对结果的影响,每种组合均需要做试验(3mg+口服,3mg+肌 注, 6mg+口服,6mg+肌注),为2×2析因设计
重复测量设计
--同一对象在不同时间点上进行某个指标的观测,以分析该 指标在时间上的变化。 --临床上很常见的一类资料
无序分类:指类别或属性间无顺序、程度之分
例如,性别(男、女)为二分类 血型(A、B、AB、O)为多分类
有序分类:指类别间存在着次序,或程度上的差异。
例如,治疗效果:无效、好转、显效、治愈 实验室检验:–、+、++、+++
(四)数据特征
任何统计方法都有自己的适用条件,只有当某个或某些条 件满足时,统计计算公式才成立
1、常用计量资料的假设检验
比较目的
应用条件
样本与总体比较
n较大 n大小均可
两组资料的比较 (完全随机设计)
n较大
n较小,正态分布,方差齐 n较小,非正态分布,方差不齐
统计方法 Z检验 t检验 Z检验
t检验 Wilcoxon秩和检验 t’检验
1、常用计量资料的假设检验(续表)
比较目的 配对资料的比较 (配对设计)
假设检验出发点是:
• 判断样本之间差异由什么原因造成的
样本数据间的差异有两种原因所致
• 样本来自同一总体,差异因抽样误差所引起 • 样本来自不同总体,差异因不同总体所引起
假设检验以P值大小作为推断依据
• P值大,表示差异由抽样误差引起可能性大 • P值小,表示差异由抽样误差引起可能性小,即由总体不同引起
中位数
平均水平
偏态分布 变异水平
P25,P75 四分位数间距
均数
平均水平
近似正态分布
标准差
论文中最常用组合
正态分布或近似正态分布:
均数 与 标准差
偏态分布或未知分布
中位数 与 P25、P75(四分位数间距)
(二)分类变量资料的描述
通常需要描述各个类别的频数及频率(百分比)
108 名高血压患者的疗效
疗效 频数 百分比(%)
治愈 46
42.6
显效 29
26.9
有效 18
16.7
无效 15
13.9
二维频数表
A、B 两组高血压患者疗效比较
组别 治愈 显效 有效 无效 合计 A 29 17 6 4 56 B 17 12 12 11 52
研究中通常需要列出二维频数表
四、数据资料的组间比较
(一)组间比较采用技术----假设检验
例子3:为鉴别胃癌、胃炎、非胃病患者,各测定了50 名对象的铜兰蛋白等指标,其中铜兰蛋白的观察结果如 下:
胃癌 228 235 143 187 250 … 胃炎 100 153 178 143 200 … 非胃病 98 123 170 100 120 …
问:三种人的铜兰蛋白有无不同? 能否根据测定的铜兰蛋白数据对患者进行初步诊断?
临床研究中常用统计分析 方法和选择
主要内容
统计学方法有什么用? 合理选择统计方法的四个因素 数据资料的描述 数据资料的组间比较 变量间关系研究
一、统计学方法有什么用?
一张关于统计学的图 片
几个例子
例子1:一研究者宣布找到一种治疗某病的新药, 试验的结果如下:
药物 新药 安慰剂
例数 60 50
有效 42 25
有效率 70% 50%
该新药是否值得推广?
假设检验及临床优效性检验
例子2:英国某年全人口统计资料
英格兰和威尔士
Leabharlann Baidu移民
年龄 分组
人口 (千人)
发病数
发病率 (10 万)
人口 (千人)
发病数
发病率 (10 万)
0~
1900
1406
74.0
5~
3100
186
6.0
26
21
80.8
30
2
6.7
15~
9400
1786
19.0
127
27
21.3
45~
4900
7350
150.0
25
42
168.0
65~
2000
17400
870.0
5
48
960.0
合计
21300 28128
132.1
213
140
65.7
矛盾:移民组的发病率在各个年龄组均高于英格兰和威尔 士组,为什么它的合计发病率反而低?
分析中混杂因素的控制