医学论文中的常见统计学错误
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
没有看到过
0
0
0
看到过,是关于反对吸烟的
1
0
0
看wk.baidu.com过,是关于赞成吸烟的
0
1
0
看到过,反对与赞成的都有
0
0
1
—————————————————————————————
精品课件
三、 Logistic 回归中的主要统计学错误
2. 比数比与相对危险度的关系:
队列研究中暴露与患病的关系
—————————————————————————————
精品课件
表1 高血压患者治疗2周后的效果
序号
001 002
性别 年龄 职业 治疗 分组
男 23 工人 A
男 32 农民 B
收缩压 舒张压 心电图
(mmHg) (mmHg)
156
120
…
132
89
…
疗效
有效 显效
精品课件
表2 人群危险因素调查的数据格式
序号 ID
性 年 民 婚姻状 。。。 。。。 当前
= exp(b1)。 其他各组与对照组的OR可以仿照计算。即, OR(三水平:一水平) = exp(b2), OR(四水平:一水平) = exp(b3)。
精品课件
三、 Logistic 回归中的主要统计学错误
3. 用哑变量表示的自变量各个水平之间的比数比的估计
设置为哑变量后各水平之间的比数比
—————————————————————————————————————
2. 比数比与相对危险度的关系:
相对危险度: RR = {a÷(a+b)} /{c÷(c+d)} = a (c+d) / {c (a+b)}
比数比: OR = {[a÷(a+b)] / [b÷(a+b)]} / {[c÷(c+d)] / [d÷(c+d)]} = (ad) /(bc)
当, a << (a+b), c<<(c+d)时,可以有 a÷(a+b)≈a÷b 及 c÷(c+d)≈c÷d
对照(一水平) 1
1.56 3.56
0.86
二水平
0.64
1
0.44
1.81
三水平
0.28
2.28
1
4.14
四水平
1.16
精品课件
0.55 0.24
三、 Logistic 回归中的主要统计学错误
4. 比数比及相对危险度的正确解释 某文献在研究影响妇女产前检查的可能因素时,拟合了
一个Logistic回归模型。在进行分析后,认为‘由于 量纲相同’,可以由回归系数的绝对值‘直接判定’ 它们与产前检查关联强弱。其结论为:孕产期卫生知 识〉妇女文化程度〉妇女年龄〉丈夫文化程度〉丈夫 职业〉家庭距卫生院距离。
精品课件
三、 Logistic 回归中的主要统计学错误
4. 比数比及相对危险度的正确解释
某文献对一些自变量的设置
——————————————————————
变量名
分组
——————————————————————
年龄
1:15-
2:20-45
妇女受教育程度 1:初中以下 2:初中及以上
丈夫的职业
1:农业
一、计数资料分析中的常见错误举例
1.率与构成比 2.某研究想了解筛查与自查相比发现的肝癌病例分期是 否存在差异,是否筛查更能发现早期肝癌病人。
精品课件
一、计数资料分析中的常见错误举例
1. 率与构成比(续)
精品课件
一、计数资料分析中的错误举例
2. 样本量/阳性例数较少时的统计分析
年龄别 123451015合计
精品课件
统计表的正确表达格式
组别 甲
指标1 指标2 指标3 指标4
乙
丙
丁
精品课件
主谓语颠倒的例子
精品课件
正确的表达方式
精品课件
二、统计图表的错误使用
2. 统计图的误用:
1)线图的误用:线图只能用于描述某个指标 (如吸烟率)随定量指标(如时间、身高)发生 变化的情况。而不能用来描述某个指标(如吸烟 率)在某个定性/分类指标不同取值/分类(如地 区)之间的差异。因为分类指标中的各个分类值 之间没有大小的关系。 2)图的滥用:在PPT中用图比较清晰,而在论文 中除非表示趋势,一般不建议用图。
进行比较的指标是OR。因此要估计不同情况下的OR大小。 自变量第一个水平,B1=0, B2=0, B3=0,其比数为: P0/(1-P0) = exp[b0 + b4 (SEX) + b5(AGE)]。 第二水平:B1=1, B2=0, B3 =0, P2/(1-P2) =exp[b0 + b1 +b4 (SEX)+ b5(AGE)]。 第三水平:B1=0, B2=1, B3 =0, P3/(1-P3) =exp[b0 + b2 +b4 (SEX)+ b5(AGE)]。 第四水平:B1=0, B2=0, B3 =1, P4/(1-P4) =exp[b0 + b3 +b4 (SEX)+ b5(AGE)]。
三、 Logistic 回归中的主要统计学错误
3. 用哑变量表示的自变量各个水平之间的比数比的估计
设置为哑变量后各水平之间的比数比
—————————————————————————————————————
变量水平
一水平 二水平
三水平
四水平
—————————————————————————————————————
2.这些数据的属性:是定性还是定量资料。 确定了所关心的研究产出后,其它的变量就都可以解释为是这
类变量的属性。 研究者要做的工作是: 1. 分析这些产出的基本情况 2. 研究这些属性是否对于他所关心的产出存在关联,或叫有影
响。 3. 这就是统计的几件基本工作: 4. 定水平,作比较,找关系。
精品课件
三、 Logistic 回归中的主要统计学错误
1. 哑变量设置中的错误
2. 下例是一个有关分类变量赋值的例子:
某个吸烟调查中一些自变量的意义及赋值
—————————————————————————————————————
变量名 变量意义
变量可能取值
研究者对变
量的赋值
—————————————————————————————————————
变量水平
一水平
二水平 三水平
四水平
—————————————————————————————————————
对照(一水平) 1
exp(-b1)
exp(-b2)
exp(-b3)
二水平
exp( b1)
1
exp(b1-b2)
exp(b1-b3)
三水平
exp( b2)
exp(b2-b1)
1
exp(b2-b精3品)课件
别龄族况
吸烟
状况
001 1101 男 23 汉 未婚 。。 。。。 不吸
002 1102 男 32 汉 已婚 。。 。。。 吸
吸烟量
。。。
(支/日)
——
。。。
12
。。。
精品课件
从统计学的角度,我们并不关心数据是来自临床还是 实验室还是现场,我们首先关心的是:
1.数据中那些属于研究者所关心的“产出”?即所谓的因变 量/反应变量?这些往往是研究者的研究设计假设中的产出。
阳性人数 40 53 14 8 2 8 1
阳性率(%) 36.0 21.3 8.4 5.5 3.2 15.4 7.4
Χ2=58.16 P<0.0000 精品课件
一、计数资料分析中的错误举例
类似这样的错误不仅存在于计数资料的统计分析中,经常还发现于 Logistic回归的结果分析中。 不同职业对于某种职业肿瘤的危险度分析
职业类型 OR
甲
1
乙
2.31
丙
0.58
丁
3.24
精品课件
二、统计图表的错误使用
1. 统计表的误用:
主要是不符合主谓语要求。 在统计表中,要突出研究者所要分析的指标,要将其 准确的描述清楚,例如在不同条件下该指标的变化、 差异等。 因此一般,要将不同条件作为主语,指标作为谓语。 统计制表要符合主谓语的原则。
3
4
5-
10- 15-
精品课件
某市乙肝表面抗原检测结果
年龄组 样本量
阳性数
阳性率(%)
1- 169
1
0.59
5- 292
7
2.40
10- 248
13
5.24
15- 130
11
8.46
精品课件
某市各区的乙肝表面抗原阳性率(%)
年龄组 东城 西城 南城 北城
1-
3.03 0.00 0.00 0.00
5-
0.00 7.14 4.76 3.08
10-
2.38 0.00 4.55 6.78
15-
0.00 18.18 9.52 0.00
精品课件
一、计数资料分析中的错误举例
3. 一般的χ2检验只能得到总的是否存在差异的结论。 某病不同月份检出率
月份 3 4 5 6 7 8 9
样本量 1111 2491 1673 1463 623 521 136
此时,才可以有:RR≈OR
因此要分析什么时候存在这种关系,什么时候不存在。
精品课件
三、 Logistic 回归中的主要统计学错误
3. 用哑变量表示的自变量各个水平之间的比数比的估计
假设在研究吸烟与一些因素的关系时,拟合了下列形式 的Logistic回归方程:
Logit (P|y=1) = b0 + b1 B1+ b2 B2+ b3 B3 + b4 (SEX) + b5(AGE)
精品课件
三、 Logistic 回归中的主要统计学错误
3. 用哑变量表示的自变量各个水平之间的比数比的估计 自变量的第二水平(看到过关于反对吸烟广告的组)与
对照组(没有看到过任何吸烟广告组)的OR为: OR(二水平:一水平)
= exp[b0 + b1 +b4 (SEX)+ b5(AGE)] / exp[b0 + b4 (SEX) + b5(AGE)]
暴露情况
患病情况
合计
—————————————
患病 未得病
—————————————————————————————
暴露组
a
b
a+b
未暴露组
c
d
c+d
——
合计
———————————————————
a+c
b+d
a+b+c+d
—————————————————————————————
精品课件
三、 Logistic 回归中的主要统计学错误
医学论文中 的常见统计学错误
中国疾病预防控制中心 金水高
精品课件
正确的统计学方法必须贯 穿于从课题的统计设计 到论文撰写的全过程。
精品课件
不管是实验室研究、临床研究还是现场调查, 其数据的归纳整理,都要列成一定的标准格 式,以便于进行计算机的录入及统计分析。 其基本要求为: 1. 横为记录,纵为变量 2. 对每个变量要起合适的变量名 3. 对分类变量中用字符表示的取值在进行计 算机录入时必须按照一定的规矩将其转换为 数值。
A
如果想要烟,你认为 非常容易;
1
你能容易得到吗? 有点容易;
2
有点困难;
3
非常困难。
4
B
在过去的一个月里, 没有看到过;
1
你是否在电视里看到
看到过,是关于反对吸烟的;
2
过有关吸烟的任何内容? 看到过,是关于赞成吸烟的; 3
看到过,反对与赞成的都有。
4
C
你的祖母是否吸烟?
不吸;
1
不知道;
2
吸烟。
3
—————————————————精—品课—件——————————————————
2:非农业
——————————————————————
精品课件
三、 Logistic 回归中的主要统计学错误
4. 比数比及相对危险度的正确解释
设置为哑变量后各水平之间的比数比
—————————————————————————————————————
变量水平
一水平 二水平
某地区乙肝表面抗原阳性率
样本人数 阳性人数 阳性率(%)
38
2
2.94
56
4
4.26
25
2
2.27
87
5
5.75
321
25
4.20
1245
60
4.82
1453
85
5.85
3531
精品课件
178
5.04
某地区乙肝表面抗原阳性率(%)
7.00
6.00
5.00
4.00
3.00
2.00
1.00
0.00
1
2
y=1为吸烟,y=0 为不吸烟。 AGE为年龄(岁)。 SEX为性别,SEX =1为男性,SEX =0为女性。 B1, B2, B3的定义同前。 b0为截距,b1- b5分别为各自变量的偏回归系数。
精品课件
三、 Logistic 回归中的主要统计学错误
3. 用哑变量表示的自变量各个水平之间的比数比的估计 我们的研究设想是比较看到过烟草广告不同情况对于吸烟的影响。
精品课件
二、统计图表的错误使用
错误的横坐标表示
正确的横坐标表示
精品课件
三、 Logistic 回归中的主要统计学错误
1. 哑变量设置中的错误 2. 比数比与相对危险度的关系 3. 用哑变量表示的自变量各个水平之间的比数比的估计 4. 比数比与相对危险度的正确解释(因素之间作用大小
的比较)
精品课件
三、 Logistic 回归中的主要统计学错误
1.哑变量设置中的错误: 存在的主要问题剖析: 变量A、B、C均为分类变量,而分类变量的各个分类值之间是没有大
小的。 解决的办法:设置哑变量。
用哑变量表示变量B的取值可能
—————————————————————————————
可能回答
B1
B2
B3
—————————————————————————————