常见统计学错误共32页文档
医学科研中常见统计学错误(朱继民)总论
第十五章医学科研中常见的统计学错误第一节科研设计中的常见错误一、抽样设计二、实验设计中的随机原则三、实验设计中的对照原则四、实验设计中的重复原则五、实验设计中的均衡原则第二节科研数据描述中的常见错误一、统计指标的选取二、统计图表第三节医学科研统计推断中的错误一、t检验二、方差分析三、卡方( 2)检验四、相关与回归分析五、结论表达不当第十五章医学科研中常见的统计学错误医学科研中,研究者关心的研究对象的特征往往具有变异性;如年龄、性别皆相同的人其身高不尽相同、体重、血型等也都存在类似的现象。
同时,由于研究对象往往很多,或者不知到底有多少,或者研究对象不宜全部拿来做研究;所以人们往往借助抽样研究,即从总体中抽取部分个体组成样本,依据对样本的研究结果推断总体的情况。
恰恰是这种变异的存在,以及如何用样本准确推断总体的需求,使得统计学有了用武之地和发展的机遇。
诚然,合理恰当地选用统计学方法,有助于人们发现变异背后隐藏的真面目,即一般规律。
但是,如果采用的统计学方法不当,不但找不到真正的规律,反而可能得出错误的结论,进而影响研究的科学性,甚至会使错误的结论蔓延,造成不良影响。
作为医学工作者,尤其是科研工作者,必须了解当前医学科研中常见的统计学错误,以便更好地开展科研和利用科研成果。
本章借助科研中统计学误用实例,介绍常见的错用情况,以帮助读者避免类似错误的发生。
第一节科研设计中的常见错误统计学是一门重要的方法学,是一门研究数据的收集、整理和分析,从而发现变幻莫测的表面现象之后隐含的一般规律的科学。
医学科研是研究医学现象中隐含规律的科学,包括基础医学研究、临床医学研究和预防医学研究等,不管哪类医学科研都离不开统计学的支持。
要想做好医学科研,必须掌握一定的统计学知识,如总体与样本、小概率原理、资料的类型和分布、科研设计类型、统计分析的主要工作、常用统计方法以及方法的种类和应用条件等,尤其要了解当前医学科研中常见的统计学错误。
医学论文中常用统计分析方法错误大全
医学论文中常用统计分析方法错误大全在医学研究领域,统计分析方法的正确应用对于得出科学、可靠的结论至关重要。
然而,在实际的医学论文中,我们常常能发现各种各样的统计分析方法错误,这些错误不仅影响了研究结果的准确性和可信度,还可能导致错误的临床决策。
下面,我们就来详细梳理一下医学论文中常见的统计分析方法错误。
一、样本量不足样本量的大小直接关系到研究结果的可靠性和普遍性。
如果样本量过小,可能无法准确反映总体的特征,导致统计效能不足,从而得出错误的结论。
例如,在比较两种治疗方法的疗效时,如果每组的样本量只有十几例,那么很可能因为偶然因素而得出错误的差异结论。
二、数据类型错误医学研究中数据类型多种多样,包括计量数据(如身高、体重、血压等)、计数数据(如治愈人数、死亡人数等)和等级数据(如病情的轻、中、重)。
如果对数据类型的判断错误,就会选择错误的统计分析方法。
例如,将本来应该是计数数据的治愈率当作计量数据进行 t 检验,这是不正确的。
三、忽视数据分布许多统计方法都有其适用的数据分布条件。
例如,t 检验和方差分析要求数据服从正态分布。
如果数据不服从正态分布而强行使用这些方法,就会得出错误的结果。
在这种情况下,应该先对数据进行正态性检验,如果不满足正态分布,可以考虑使用非参数检验方法,如秩和检验。
四、多重比较问题在医学研究中,常常需要进行多个组之间的比较。
如果不注意控制多重比较带来的误差,就会增加得出错误阳性结果的概率。
例如,在比较多个药物剂量组的疗效时,如果不进行适当的校正(如 Bonferroni 校正),就可能因为多次比较而错误地认为存在显著差异。
五、相关与回归分析的错误相关分析用于研究两个变量之间的线性关系,但不能得出因果关系。
在医学论文中,有时会错误地将相关关系解释为因果关系。
回归分析中,自变量的选择、模型的拟合度评估等方面也容易出现错误。
例如,没有考虑自变量之间的共线性问题,导致回归结果不准确。
六、生存分析的错误生存分析常用于研究疾病的发生、发展和预后。
常见统计学错误
不恰当做法: 视纵向4列为4组数据,进行4组间比较。
多次t检验 ?!
分别作两组比较的t检验,得
A与B t值 P值 3.30 0.02 A与C 2.60 0.03 A与D 3.61 0.01 B与C 0.96 0.37 B与D 0.51 0.63 C与D 1.43 0.19
认为:A与B,A与C,A与D 差异具有统计学意义; B与C,B与D,C与D 差异无统计学意义。
结论:B因素(培养天数)的效应具有统计学意义。
检验 A的主效应:F=1.37,P=0.26 ; B的主效应: F=47.13,P=0.00 A与B的交互效应:F=0.03,P=0.87 结论:B因素(培养天数)的效应具有统计学 意义。
3.剂量-反应关系 不能用单因素方差分析
例3 有人分析蛇毒因子(CVF)的剂量对血液白细 胞噬菌率的影响,得表3的数据,欲讨论剂量-反应 关系。
为什麽不对?
这是典型的两因素2水平的析因设计! i) 有负初衷——分析各因素的效应! ii)直接比较四组资料,组间变异大,不敏感!
正确作法:析因设计的方差分析
i) 主效应:某一因素各水平间的平均差别。 A因素的主效应 =[(第三组均数+第四组均数)(第一组均数+第二组均数)] / 2 =[(2.2+1.9)(2.5+1.8)]/2 = 0.1 ii) 交互效应:若某因素的单独效应随另一因素水平的变化而 有较大变化,则称这两个因素间存在交互效应。
正确作法:随机区组资料的方差分析
将处理间的差别与扣除区组间变异后的随机误差 进行比较,识别差异的能力大大提高。 本例, 处理组间 F=8.23, P=0.003 差别有统计学意义 区组间 F=1.21,P=0.36 差别无统计学意义
常见统计学错误
常见统计学错误在人类社会发展的过程中,数据的重要性越来越被人们所重视。
统计学作为一门应用于数据处理、分析和解释的学科,被广泛运用于各个领域。
然而,由于统计学的复杂性和数据的多样性,常常会出现一些常见的统计学错误。
本文将会从统计学的角度对一些常见的错误进行分析。
错误一:关联误解许多人将相关性错误地解释为因果性,这是一个常见的误解。
例如,某个人认为他成功的原因是他经常使用的运动饮料,因为他发现当他使用该饮料时,他通常表现出更好的成绩。
然而,这种关联并不代表因果性。
在这种情况下,运动饮料与优秀的表现可能只是因为二者之间存在其他因素的原因。
错误二:回归分析回归分析是一种非常有用的分析方法,可以用来探索变量之间的关系。
但是,如果分析方法不正确,就可能会导致错误的结论。
例如,如果回归模型中使用了错误的自变量或母体数据,甚至丢失了一些因素,那么得到的结果就可能是不准确的。
错误三:样本选择偏差样本选择偏差是指样本失去代表性,不符合总体规律的现象。
这种情况可能会导致结果的不准确,因为样本无法代表总体。
例如,在研究城市居民身体健康的研究中,如果仅仅选择某一小部分正常体型、有规律的情况,而忽略了任何超出这个范围的人,那么这个研究的结果将忽略其他身体健康状况的可能性。
错误四:误差概率统计分析必须包括在结果中发现的误差概率。
虽然有时误差会被忽略,但没考虑误差的影响会导致结果的不确定性和不准确性的增加。
例如,考虑一个零件生产厂家使用的质量控制方法。
如果该厂家仅仅进行一次样本检查,而没有考虑样本选取的偶然性,那么可能无法获得正确的结果。
错误五:推断推断通常用于从一个样本中推广一个总体结论。
但是,如果样本不够大或者不够代表性,那么结果就不能代表总体。
例如,在某一工厂中,如果只从少数员工中调查了病假的问题,那么结果可能并不具有代表性,不能推广到整个员工群体。
总之,正确的统计分析至关重要,结果的准确性直接影响到实际应用的结果。
因此,在进行统计分析时,务必要注意常见的统计学错误,避免这些错误并提高数据分析和结论推断的准确性。
医学论文中常用统计分析方法错误大全
医学论文中常用统计分析方法错误大全在医学研究领域,准确合理地运用统计分析方法对于得出可靠的研究结论至关重要。
然而,在实际的医学论文中,却存在着各种各样的统计分析方法错误,这些错误可能会导致研究结果的偏差,甚至得出错误的结论。
下面,我们就来详细探讨一下医学论文中常见的统计分析方法错误。
一、数据类型判断错误数据类型的正确判断是选择合适统计分析方法的基础。
医学研究中常见的数据类型包括计量资料、计数资料和等级资料。
然而,很多研究者在数据类型判断上出现失误。
例如,将原本应该是计数资料的数据(如疾病的治愈、好转、无效等)当成计量资料进行分析,错误地使用了均值和标准差等统计指标,而应该使用频率和百分比等指标,并采用卡方检验等方法。
二、样本量计算不合理样本量的大小直接影响到研究结果的可靠性和准确性。
一些医学论文在研究设计阶段没有充分考虑样本量的计算,导致样本量过小或过大。
样本量过小,可能会使研究结果缺乏统计学意义,无法检测出真实存在的差异;样本量过大,则会造成资源的浪费,同时增加研究的难度和成本。
正确的样本量计算应该综合考虑研究的设计类型、预期效应大小、检验水准和检验效能等因素。
三、选择错误的统计方法这是医学论文中常见的错误之一。
例如,对于两组独立样本的均数比较,应该使用 t 检验,但如果两组数据的方差不齐,就需要使用校正的 t 检验或者非参数检验方法(如 Wilcoxon 秩和检验)。
然而,很多研究者在这种情况下仍然使用了普通的 t 检验,导致结果不准确。
再比如,对于多组均数的比较,如果方差分析结果有统计学意义,还需要进一步进行多重比较。
但有些研究在这一步没有进行恰当的多重比较方法选择,导致结论不够准确。
四、忽视数据的正态性检验在进行某些统计分析(如 t 检验、方差分析等)时,要求数据服从正态分布。
然而,很多研究者在使用这些方法之前,没有对数据进行正态性检验。
如果数据不服从正态分布,却仍然使用基于正态分布假设的统计方法,就会得出错误的结论。
医学论文中的常见统计学错误
中国疾病预防控制中心 金水高
精品课件
正确的统计学方法必须贯 穿于从课题的统计设计 到论文撰写的全过程。
精品课件
不管是实验室研究、临床研究还是现场调查, 其数据的归纳整理,都要列成一定的标准格 式,以便于进行计算机的录入及统计分析。 其基本要求为: 1. 横为记录,纵为变量 2. 对每个变量要起合适的变量名 3. 对分类变量中用字符表示的取值在进行计 算机录入时必须按照一定的规矩将其转换为 数值。
一、计数资料分析中的常见错误举例
1.率与构成比 2.某研究想了解筛查与自查相比发现的肝癌病例分期是 否存在差异,是否筛查更能发现早期肝癌病人。
精品课件
一、计数资料分析中的常见错误举例
1. 率与构成比(续)
精品课件
一、计数资料分析中的错误举例
2. 样本量/阳性例数较少时的统计分析
年龄别 123451015合计
对照(一水平) 1
1.56 3.56
0.86
二水平
0.64
1
0.44
1.81
三水平
0.28
2.28
1
4.14
四水平
1.16
精品课件
0.55 0.24
三、 Logistic 回归中的主要统计学错误
4. 比数比及相对危险度的正确解释 某文献在研究影响妇女产前检查的可能因素时,拟合了
一个Logistic回归模型。在进行分析后,认为‘由于 量纲相同’,可以由回归系数的绝对值‘直接判定’ 它们与产前检查关联强弱。其结论为:孕产期卫生知 识〉妇女文化程度〉妇女年龄〉丈夫文化程度〉丈夫 职业〉家庭距卫生院距离。
2.这些数据的属性:是定性还是定量资料。 确定了所关心的研究产出后,其它的变量就都可以解释为是这
医学期刊论文中常见统计学错误
c r n r c l in i P te t t ne me it ibii o o a o cuso n a ins wi i tr d ae v a l— y h t y:v le o o d s d b tm ie a d c nr s—nh n e au flw— o e o u a n n o ta te a c d 3一 RIi r dc igf ncin lr c v r n P te t - TM n P e itn u to a e o e i a insun y d r on ru a e usrv s u a iai nwihdr —l tn e g ig Pec t n o e a c l rs to t ug eui g
gn n me i s h mi a d o 0 ah . a d - i g i n w t ic e c c r i my P ty Am J C r i h
o , 0 4, l 2 0 93: 461 1 64. 1 —4
F o c i F,S u a F,DiGio a , t a . Ch o i o a ic h g r r l mo A e 1 r nc ttl
l to a i n,2 0 1 0 4, 09: 7 21 4. 21 2— 7
[ 3 赵蕾 , 1] 张兆 琪 . 血 管 分 子影 像 学 成 像 对 比 剂 的 新 进 心
展 . 肺血 管 病 杂 志 ,0 9 2 :3 —3 . 心 2 0 ,8 17 1 9
(0 9—0 2 20 7— 8收 稿 ; 0 9—0 0 20 9— 7修 回)
活 的研 究 [ 4 附 7例 分 析 ] 中华 放射 学 杂 志 ,0 28 . 20 ,:
常见统计学错误
资料表达与描述中存在的统计学错误
• 误用正态分布法描述呈偏态分布的资料 • 以“比”代“率”或以“率”代“比” • 计算相对数时分母太小
• 统计表不规范:纵、横标目颠倒,统计表中数据含义不清、 同一表中表达不同的内容
• 统计图不规范:同一个复式条图表达多个指标、用复式条 图表达适合用线图表达的资料、用线图表达适合用复式条 图表达的资料、统计图坐标轴上的刻度不符合验科 张家明
• 常见的错误涉及到统计研究设计、统计
资料的收集与整理、统计描述、定量资
料统计分析、定性资料统计分析、直线
相关与回归分析、统计资料综合分析和
统计分析结果解释等。
设计、收集和整理方面的统计学错误
• 缺乏完善的实验设计方案 • 设计时未遵循实验设计的基本原则: -对照:缺乏对照组、重复设置对照组、对照不全、 对照组的设立与研究目的不符 -随机:以随意代替随机 -重复:样本含量过小、仅测量一个样品即做出结论 -均衡:组间的均衡性差 • 缺乏与设计类型相匹配的收集实验数据的表格 • 未按照实验数据类型的要求进行实验和收集数据
定量资料分析中存在的统计学错误
• • • • • • 应用参数统计分析方法分析非参数资料 2 用 检验分析定量资料 用成组设计资料的 t 检验分析配对设计的资料 用 t 检验分析多样本均数的资料 用 t检验和一般方差分析处理带有协变量的资料 用单因素多水平设计资料的方差分析处理析因设 计资料或具有一个重复测量的两因素设计资料
定性资料分析中存在的统计学错误
• 误用定量资料统计分析方法,如:误用 t 检验分 析四格表资料、双向无序列联表资料、单向有序 列联表资料
2 • 用 检验分析单向有序的列联表资料
• 用 2检验分析双向有序且属性相同的列联表资料 • 用一般 2检验分析三维列联表资料
医学期刊论文中常见统计学错误
察并结合 临床及辅 助检查做 出鉴别诊 断 。本组 病例 1 T r E误
肺血管病杂志 2 0 1 3年 7月第 3 2卷第 4期
J o u na r l o f C a r d i 0 v a s c u l a r&P u l mo n a r y D i s e a s e s , J u l y 2 0 1 3, V o 1 . 3 2, N o . 4
则不易被发 现。本组 2例为假 阴性 患者 , 但 血培 养 为 阳性 ,
随访经食道超声 分别发现 2 . 8 mm及 3 mm细小赘生 物。主
要 由于 m
分辨 力受 限 , 使 检 出率 降低 。而且赘 生 物越 大
活动度越好 , 较小 的赘生物呈疣状 附着 , 无 明显 自身运 动 , 故
感 但经食道超 声 检查 需要 充分 准备 , 而且存 在 对禁 忌症
的限制 。所 以当临床怀疑感染性 心内膜炎 , r I T r E未 发现赘生 物, 也不 能排 除 I E, 这可能是赘 生物较 小或位 置发生 在不易 被超声束探及处有关 , 可 通过观察 瓣膜 是否有 脱垂 、 关 闭不 全、 瓣周漏 、 化 脓 病 灶 及瓣 膜 穿 孔 等做 出 间接 提 示 。本 组 1 T I 1 E虽未发现 明确 赘生物的 2例患者 , 但发 现的 阳性 表现为
患者诊 2例 , 均 有发 热 病史 , 1 T r E诊 断 : 1例 为 主 动脉 瓣 增 厚, 无 冠瓣 脱垂伴关 闭不全 ( 中一 重度 ) 感 染性 心 内膜 炎可 能
医学期刊论文中常见统计学错误
[7] 王 亚 冰 , 力 群 , 锋 . 救 系 统 对 北 京 市 急 性 脑 卒 焦 凌 急 中患者 院前延 迟 时间 的影 响. 中华全科 医学 ,09, 20
1 8 4— 76. 2: 7 8
[ 周永 , 8] 王伊 龙 , 迪 , . 中 患 者 院 前 转 运 与 延 误 现 吴 等 卒 况 调 查 .中 华 全 科 医 学 ,0 9 1 :69 . 20 ,2 9 -8
[1] 吴英恺 , 吴兆 苏 .世 界卫 生组 织关 于 人群 心血 管病 动态监测 的初步方案. 心肺血管学报 ,9 2 1 1. 18 , :1
(0 0— 3—1 21 0 9收 看 ; 0 0— 4—0 21 0 2修 回 )
作 者 ・读 者 ・编 者
医学 期 刊论 文 中常 见统 计 学错 误
[ 6]
一
方 . 三 好 ” 人 的 理 想 与 现 实 . 华 医 学 信 息 导 “ 病 中
报 ,06 2 :4 2 0 ,1 2 .
强对 社 区居 民使 用 急 救 系 统 的认 知教 育 , 发 生 急 在 性疾病 时 能首先 选用 E MS系统 救 助 , 疑 是 降低 心 无 脑血管 病病 死率 的重 要措 施之 一 。
轴或纵轴上的第一个刻度值 ; 其二 , 用条 图或复式条图表达连续性变 量的变化 趋势 ; 3 运用相 对数时 , () 经常混淆 “ 百分 比” 与 “ 百分率”;4 在表达多组定量资料 时 , () 即使定量资料偏离正态分 布很远 , 仍采用“ s 表达 ( ± ” 标准差 S> , ) 特别 当表 中采用 标准误 s取代标准差 时 , 前述 的错误很难 被察 觉出来。 2 定 量资料统计分 析方面存在的错误 : 1 当定量资料不满足参 数检验 的前提条件 时 , 目套用参数 检验方法 ;2 不管 . () 盲 () 定量资料 对应的实验设 计类型是什么 , 一律套用单因素 2水平 ( 叫成组 ) 计定量资料的 t 或 设 检验或单因素多水平设计定量资
统计工作中常见错误及其解决方法
统计工作中常见错误及其解决方法统计工作是在各个领域中都非常重要的一项工作。
为了能够准确地发现数据中隐藏的规律和信息,统计工作需要严谨的思维和高水平的技能。
然而,统计工作中常见的错误也让许多人头疼。
在2023年,我们希望通过本文来总结和解决统计工作中常见的错误,以便数据分析人员能够更好地处理数据和做出更准确的决策。
一、数据收集错误数据收集是所有其它统计工作的基础。
如果数据存在错误,那么所有后续的统计工作都可能受到影响。
以下是可能会出现的数据收集错误及其解决方法:1.1 数据来源不清晰如果数据来源不清楚,那么无法确定数据的可靠性和有效性。
在确定数据来源时,必须确保来源合法和可靠。
如果数据来源存在问题,那么可能会导致数据的严重偏差。
解决方法:在数据收集时,必须清楚数据来源并对其进行验证。
1.2 数据重复在数据收集过程中,如果数据重复,那么可能会导致数据分析的结果不准确。
同时,如果数据重复严重,那么数据的采样率也会降低。
因此,在数据收集过程中需要尽量避免数据重复。
解决方法:在数据收集过程中,需要有有效的数据去重方法。
例如,可以使用数字指纹等技术来确保数据的唯一性。
1.3 数据缺失在数据收集过程中,可能会出现数据缺失的情况。
如果数据缺失太多,那么可能会导致数据分析的结果不准确,甚至可能导致分析失败。
因此,必须尽量避免数据缺失。
解决方法:在数据收集过程中,必须对缺失的数据进行补充。
例如,可以使用差值法或者统计方法等来处理缺失数据。
二、样本分析错误在统计分析的过程中,经常会使用随机抽样技术来取得样本。
然而,在样本分析过程中,也会有一些错误出现。
以下是可能会出现的样本分析错误及其解决方法:2.1 样本偏差在进行样本分析的过程中,可能会出现样本偏差的情况。
如果样本偏差很大,那么可能会导致分析结果的错误。
解决方法:在进行样本抽取的过程中,需要采用恰当的抽样技术,并确保样本的有效性和充分性。
2.2 样本误差在进行样本分析的过程中,也可能会出现样本误差的情况。
医学论文中常见统计学错误案例分析
医学论文中常见统计学错误案例分析一、概述在医学研究领域,统计学方法的应用至关重要,它有助于科研人员对复杂数据进行深入的分析与解读,从而得出科学的结论。
由于统计学知识的复杂性和多样性,医学论文中常常会出现各种统计学错误。
这些错误不仅可能影响研究结果的准确性和可靠性,还可能误导读者对研究的理解和评价。
本文旨在通过分析医学论文中常见的统计学错误案例,揭示其产生原因和可能带来的后果,以提高医学科研人员和论文作者在统计学应用方面的准确性和规范性。
常见的医学论文统计学错误包括但不限于样本量计算不当、数据分布误判、统计方法选择错误、假设检验理解偏差、多重共线性问题以及P值解读不当等。
这些错误往往源于对统计学基本概念和方法理解不深入,或是忽视了对数据特征和实际研究问题的综合考量。
通过案例分析,我们可以更直观地了解这些错误在实际研究中的表现形式和潜在影响。
每个案例都将详细剖析错误发生的具体原因,并指出正确的处理方法或避免策略。
这将有助于医学科研人员和论文作者在今后的研究中更加谨慎地应用统计学方法,提高研究质量和学术水平。
本文还将强调加强统计学知识和技能的培训在医学科研中的重要性。
只有具备扎实的统计学基础,才能更好地理解和运用各种统计方法,避免或减少统计学错误的发生。
医学科研人员和论文作者应不断学习和更新统计学知识,提高自己在统计学应用方面的能力和素养。
1. 医学论文中统计学的重要性在医学研究中,统计学扮演着至关重要的角色。
它是确保研究设计合理性、数据收集和分析准确性以及结论可靠性的基石。
通过运用统计学方法,医学研究人员能够系统地评估治疗方法的疗效、疾病的发病机制和预后因素,从而为临床实践和政策制定提供科学依据。
统计学在医学论文中有助于确保研究的内部和外部有效性。
通过运用适当的统计学方法,研究人员可以控制潜在的混杂变量和偏倚,从而提高研究的准确性和可靠性。
这有助于避免由于研究设计不当或数据分析错误而导致的误导性结论。
医学统计中的典型错误
:这是一个典型的看到“百 分比”就套用χ2检验的例子。 在资料的表达上,原作者采 用定量资料的表达方式,但 在统计处理上采用χ2检验, 而χ2检验是处理定性资料的 统计方法。显然存在着矛盾。
断资料的性质是合理选择统 计分析方法的重要前提,本 资料的实验对象是硬皮病患 者或正常对照,每个测试对 象都在三个不同的细胞增殖 周期中分别测得纤维母细胞 所占的百分比,这个百分比 是一个具体的数值,并不代 表某种性质,因而此资料应 判断为定量资料。
分析:本资料数据成对出现,每对数据测自同一个病例,因而为 自身配对设计。对于此类资料,一般计算每对数据的差值,用其 差值的大小,反映两种处理之间效应之差的大小。原作者把治疗 前后的数据当成是相互独立的数据,直接将治疗前与治疗后的数 据按成组设计资料的t检验进行比较,这种处理方法与设计类型并 不相符。另外,原作者注意到原始数据不满足t检验的前提条件之 一—正态性,因而对其进行对数变量变换,这种思想是正确的, 但是变量变换的目的还是使数据满足正态性,同样还要对变换后 的数据进行正态性检验,本资料取对数后,资料仍然不满足正态 性的条件,故不适合进行t检验。
202X
医学统计中的 典型错误
单击此处添加文本具体内容,简明扼要地 阐述你的观点
• 误将定量资料判为定性资料从而误用χ2检验 • 用χ2检验分析定量资料 • 误用χ2检验处理具有一个重复测量的两因素设计定量
资料 • 忽视t检验、方差分析的前提条件 • 误用成组设计资料的t检验分析配对设计的资料 • 误用一般t检验分析配伍组设计的资料 • 误用t检验处理析因设计的定量资料 • 误用t检验分析具有一个重复测量的单因素设计资料 • 误用t检验处理具有一个重复测量的三因素设计资料 • 误用t检验分析具有两个重复测量的三因素设计资料 • 误用t检验处理具有三个重复测量的四因素设计资料
医学统计中的典型错误
释疑:若资料不满足参数检验的前提条件,可选用适合分析偏态分布资料的非参数检验(如秩和检验)进行分析,或找到满足前述两个前提条件的相应变量变换方法后,再用相应的参数检验法,因为试验设计类型为单因素3水平设计,可选用相应的设计资料的方差分析进行处理。
文题目:《盆腔动脉插管灌注化疗及栓塞治疗恶性滋养细胞肿瘤》,用改良的Seldinger’s插管技术对8例经临床及病理证实的恶性滋养细胞肿瘤进行选择性盆腔动脉插管灌注化疗。治疗前后测血hCG放免测定值。结果见表4.5。采用一般t检验进行分析,治疗前后血hCG值经统计学处理有显著性差异(P<0.05)。
文题目:《格列本脲对糖尿病及正常大鼠心肌磺脲类药物受体mRNA的影响》,为研究长期格列本脲治疗对正常与糖尿病大鼠心肌SUR1、SUR2和kir6.2的影响,将大鼠随机分为4组,结果见表4.7,原作者采用t检验进行了统计分析。
分析:本资料有四个实验组,实际上涉及到两个实验因素,一个因素是“是否患有糖尿病”,其有两个水平:是、否;另一个因素是“是否服用格列本脲”,其有两个水平:是、否。两个因素各有两个水平,它们互相组合,得到四个实验组,见表4.8。而本例单用组别来表示,掩盖了因素间各水平的组合关系,使人容易误认为是单因素四水平设计的定量资料。原作者采用t检验进行统计分析,同样是错误的,因为t检验只能分析单组设计、配对设计和成组设计的资料,其只涉及一个因素,且这个因素最多只有两个水平。
分析:同一个病人在吸入地氟醚前、调整地氟醚浓度至0.5MAC、1.0 MAC、1.5 MAC、2.0 MAC5个不同条件下,重复测量了若干血液动力学指标,地氟醚浓度是与“重复测量”有关的因素,因而此资料属于具有一个重复测量的单因素设计资料,原作者采用t检验进行两两比较,因t检验仅适合分析单因素设计且因素的水平数最多为2的定量资料,并不适合分析此类资料。
统计学中常见的错误
Chapter2What Can Go Wrong?■ Don’t label a variable as categorical or quantitative without thinkingabout the question you want it to answer. The same variable cansometimes take on different roles.■ Just because your variable’s values are numbers, don’t assume that it’s quantitative. Categories are often given numerical labels. Don’t let that fool you into thinking they have quantitative meaning. Look at thecontext.■ Always be skeptical. One reason to analyze data is to discover the truth.Even when you are told a context for the data, it may turn out that thetruth is a bit (or even a lot) different. The context colors our interpretationof the data, so those who want to influence what you think may slant thecontext. A survey that seems to be about all students mayin fact reportjust the opinions of those who visited a fan website. The question that respondentsanswered may have been posed in a way that influenced their responses.Chapter3Displaying and Summarizing Quantitative DataWhat Can Go Wrong?■ Don’t violate the area principle. This is probably the most common mistake in a graphical display. It is often made in the cause of artistic presentation.Here, for example, are two displays of the pie chart of the Titanicpassengers by clas、A’\‘GN;’{s:Crew Third ClassFirst Class Second Class First Class325Second Class285Third ClassCrew 70688550.0%31.5%26.7%UseMarijuanaUseAlcoholHeavyDrinkingThe one on the left looks pretty, doesn’t it? But showing the pie on a slantviolates the area principle and makes it much more difficult to comparefractions of the whole made up of each class—the principal feature that apie chart ought to show.■ Keep it honest. Here’s a pie chart that displays data on the percentage ofhigh school students who engage in specified dangerous behaviors as reportedby the Centers for Disease Control and Prevention. What’s wrongwith this plot?Try adding up the percentages. Or look at the 50% slice. Does it look right?Then think: What are these percentages of? Is there a “whole” that hasbeen sliced up? In a pie chart, the proportions shown by each slice of thepie must add up to 100% and each individual must fall into only one category.Of course, showing the pie on a slant makes it even harder to detectthe error.A data display should tell a story about the data. To do that, it must speak ina clear language, making plain what variable is displayed, what any axisshows, and what the values of the data are. And it must be consistent in thosedecisions.A display of quantitative data can go wrong in many ways. The most commonfailures arise from only a few basic errors:■ Don’t make a histogram of a categorical variable. Just because thevariable contains numbers doesn’t mean that it’s quantitative. Here’sa histogram of the insurance policy numbers of some workers.It’s not very informative because the policy numbers are just labels.A histogram or stem-and-leaf display of a categoricalvariable makesno sense. A bar chart or pie chart would be more appropriate.■ Don’t look for shape, center, and spread of a bar chart.A bar chart showingthe sizes of the piles displays the distribution of a categorical variable,but the bars could be arranged in any order left to right. Concepts likesymmetry, center, and spread make sense only for quantitative variables.■ Don’t use bars in every display—save them for histograms and barcharts. In a bar chart, the bars indicate how many cases of a categoricalvariable are piled in each category. Bars in a histogram indicate thenumber of cases piled in each interval of a quantitative variable. In bothbar charts and histograms, the bars represent counts of data values. Somepeople create other displays that use bars to representindividual data values.Beware: Such graphs are neither bar charts nor histograms. For example,a student was asked to make a histogram from data showing thenumber of juvenile bald eagles seen during each of the 13 weeks in thewinter of 2003–2004 at a site in Rock Island, IL. Instead, he made this plot:1 2 3 4 5 6 7的方差等于21 2 3 4 5 6的方差等于2.92。
常见的统计错误共31页文档
28、目标的坚定是性格中最必要的力 量泉源 之一, 也是成 功的利 器之一 。没有 它,天 才也会 在矛盾 无定的 迷径中 ,徒劳 无功。- -查士 德斐尔 爵士。 29、困难就是机遇。--温斯顿.丘吉 尔。 30、我奋斗,所以我快乐。--格林斯 潘。
61、奢侈是舒适的,否则就不是奢侈 。——CocoCha nel 62、少而好学,如日出之阳;壮而好学 ,如日 中之光 ;志而 好学, 如炳烛 之光。 ——刘 向 63、三军可夺帅也,匹夫不可夺志也。 ——孔 丘 64、人生就是学校。在那里,与其说好 的教师 是幸福 ,不如 说好的 教师是 不幸。 ——海 贝尔 65、接受挑战,就可以享受胜利的喜悦 。——杰纳勒 尔·乔治·S·巴顿
统计错误分析
4定量资料统计分析方面存在的统计学错误4.1忽视t检验和方差分析的前提条件4.1.1忽视t检验的前提条件例16原文题目:重症急性胰腺炎并发肝功能不全的临床研究。
实验数据见表5[4]。
原文作者用t检验分析此资料。
请问:这样做正确吗?表5两组患者血清淀粉酶、肌酐和乳酸脱氢酶水平的比较(略)*P<0.05,与重症急性胰腺炎肝功能不全组比较。
对差错的辨析与释疑对表5数据进行方差齐性检验,可发现2组患者的血清淀粉酶和肌酐指标不能满足方差齐性的要求,故不能采用t检验进行分析,须采用相应的非参数检验方法。
4.1.2忽视方差分析的前提条件例17原文题目:川芎嗪对心室快速起搏心力衰竭实验犬心房颤动及心房纤维化的影响。
原作者将健康杂种犬21只,随机分为3组:正常对照组、充血性心力衰竭模型组和川芎嗪治疗组,每组7只[1 3]。
请问:用配对设计定量资料的t检验处理此定量资料合适吗?对差错的辨析与释疑原作者用配对t检验处理此设计下的定量资料是错误的。
此实验分3组,应为单因素三水平设计定量资料,应在检查是否符合方差分析的3个前提条件“独立性”、“正态性”和“方差齐性”后,根据情况选用合适的分析方法。
根据原文陈述,原作者在进行统计分析时,将充血性心力衰竭模型组和川芎嗪治疗组在模型建立之前所测得的血液标本指标,均归入正常对照组进行统计学分析,意在增大正常对照组的样本含量,严格地说,这样做违反了方差分析的“独立”条件。
4.2误用t检验处理均数间的多重比较例18原文题目:姜黄素抑制晶状体上皮细胞增殖的信号转导机制。
原作者实验共分3组:空白对照组、模型组、姜黄素组,实验数据见表6[5]。
统计分析时计量资料均数用x±s表示,组间比较采用t检验。
请问:统计分析方法选用得正确吗?表6姜黄素对重组人表皮生长因子诱导的小牛晶状体上皮细胞增殖细胞内C a2+、c AMP和cGMP浓度的影响(略)**P<0.01,与空白对照组比较;△△P<0.01,与模型组比较。