常见统计学错误(2013)[文字可编辑]

合集下载

统计学中常见的错误

统计学中常见的错误

Chapter2What Can Go Wrong?■ Don’t label a variable as categorical or quantitative without thinkingabout the question you want it to answer. The same variable cansometimes take on different roles.■ Just because your variable’s values are numbers, don’t assume that it’s quantitative. Categories are often given numerical labels. Don’t let that fool you into thinking they have quantitative meaning. Look at thecontext.■ Always be skeptical. One reason to analyze data is to discover the truth.Even when you are told a context for the data, it may turn out that thetruth is a bit (or even a lot) different. The context colors our interpretationof the data, so those who want to influence what you think may slant thecontext. A survey that seems to be about all students mayin fact reportjust the opinions of those who visited a fan website. The question that respondentsanswered may have been posed in a way that influenced their responses.Chapter3Displaying and Summarizing Quantitative DataWhat Can Go Wrong?■ Don’t violate the area principle. This is probably the most common mistake in a graphical display. It is often made in the cause of artistic presentation.Here, for example, are two displays of the pie chart of the Titanicpassengers by clas、A’\‘GN;’{s:Crew Third ClassFirst Class Second Class First Class325Second Class285Third ClassCrew 70688550.0%31.5%26.7%UseMarijuanaUseAlcoholHeavyDrinkingThe one on the left looks pretty, doesn’t it? But showing the pie on a slantviolates the area principle and makes it much more difficult to comparefractions of the whole made up of each class—the principal feature that apie chart ought to show.■ Keep it honest. Here’s a pie chart that displays data on the percentage ofhigh school students who engage in specified dangerous behaviors as reportedby the Centers for Disease Control and Prevention. What’s wrongwith this plot?Try adding up the percentages. Or look at the 50% slice. Does it look right?Then think: What are these percentages of? Is there a “whole” that hasbeen sliced up? In a pie chart, the proportions shown by each slice of thepie must add up to 100% and each individual must fall into only one category.Of course, showing the pie on a slant makes it even harder to detectthe error.A data display should tell a story about the data. To do that, it must speak ina clear language, making plain what variable is displayed, what any axisshows, and what the values of the data are. And it must be consistent in thosedecisions.A display of quantitative data can go wrong in many ways. The most commonfailures arise from only a few basic errors:■ Don’t make a histogram of a categorical variable. Just because thevariable contains numbers doesn’t mean that it’s quantitative. Here’sa histogram of the insurance policy numbers of some workers.It’s not very informative because the policy numbers are just labels.A histogram or stem-and-leaf display of a categoricalvariable makesno sense. A bar chart or pie chart would be more appropriate.■ Don’t look for shape, center, and spread of a bar chart.A bar chart showingthe sizes of the piles displays the distribution of a categorical variable,but the bars could be arranged in any order left to right. Concepts likesymmetry, center, and spread make sense only for quantitative variables.■ Don’t use bars in every display—save them for histograms and barcharts. In a bar chart, the bars indicate how many cases of a categoricalvariable are piled in each category. Bars in a histogram indicate thenumber of cases piled in each interval of a quantitative variable. In bothbar charts and histograms, the bars represent counts of data values. Somepeople create other displays that use bars to representindividual data values.Beware: Such graphs are neither bar charts nor histograms. For example,a student was asked to make a histogram from data showing thenumber of juvenile bald eagles seen during each of the 13 weeks in thewinter of 2003–2004 at a site in Rock Island, IL. Instead, he made this plot:1 2 3 4 5 6 7的方差等于21 2 3 4 5 6的方差等于2.92。

常见的统计错误共31页文档

常见的统计错误共31页文档
脑有特别的 亲和力 。 27、自信是人格的核心。
28、目标的坚定是性格中最必要的力 量泉源 之一, 也是成 功的利 器之一 。没有 它,天 才也会 在矛盾 无定的 迷径中 ,徒劳 无功。- -查士 德斐尔 爵士。 29、困难就是机遇。--温斯顿.丘吉 尔。 30、我奋斗,所以我快乐。--格林斯 潘。
61、奢侈是舒适的,否则就不是奢侈 。——CocoCha nel 62、少而好学,如日出之阳;壮而好学 ,如日 中之光 ;志而 好学, 如炳烛 之光。 ——刘 向 63、三军可夺帅也,匹夫不可夺志也。 ——孔 丘 64、人生就是学校。在那里,与其说好 的教师 是幸福 ,不如 说好的 教师是 不幸。 ——海 贝尔 65、接受挑战,就可以享受胜利的喜悦 。——杰纳勒 尔·乔治·S·巴顿

医学论文中的常见统计学错误ppt课件

医学论文中的常见统计学错误ppt课件

1. 哑变量设置中的错误
下例是一个有关分类变量赋值的例子:
某个吸烟调查中一些自变量的意义及赋值
—————————————————————————————————————
变量名 变量意义
变量可能取值
研究者对变量的赋值
—————————————————————————————————————
A 如果想要烟,你认为
—————————————————————————————
1.率与构成比 某研究想了解筛查与自查相比发现的肝癌病例分期是否 存在差异,是否筛查更能发现早期肝癌病人。
7
一、计数资料分析中的常见错误举例
1. 率与构成比(续)
8
一、计数资料分析中的错误举例
2. 样本量/阳性例数较少时的统计分析
某地区乙肝表面抗原阳性率
年龄别 123451015合计
样本人数 38 56 25 87 321 1245 1453 3531
19
二、统计图表的错误使用
错误的横坐标表示
正确的横坐标表示
20
三、 Logistic 回归中的主要统计学错误
1. 哑变量设置中的错误 2. 比数比与相对危险度的关系 3. 用哑变量表示的自变量各个水平之间的比数比的估计 4. 比数比与相对危险度的正确解释(因素之间作用大小
的比较)
21
三、 Logistic 回归中的主要统计学错误
3
表1 高血压患者治疗2周后的效果
序号
001 002
性别 年龄 职业 治疗 分组
男 23 工人 A
男 32 农民 B
收缩压 舒张压 心电图
(mmHg) (mmHg)
156
120

常见统计学错误

常见统计学错误

常见统计学错误在人类社会发展的过程中,数据的重要性越来越被人们所重视。

统计学作为一门应用于数据处理、分析和解释的学科,被广泛运用于各个领域。

然而,由于统计学的复杂性和数据的多样性,常常会出现一些常见的统计学错误。

本文将会从统计学的角度对一些常见的错误进行分析。

错误一:关联误解许多人将相关性错误地解释为因果性,这是一个常见的误解。

例如,某个人认为他成功的原因是他经常使用的运动饮料,因为他发现当他使用该饮料时,他通常表现出更好的成绩。

然而,这种关联并不代表因果性。

在这种情况下,运动饮料与优秀的表现可能只是因为二者之间存在其他因素的原因。

错误二:回归分析回归分析是一种非常有用的分析方法,可以用来探索变量之间的关系。

但是,如果分析方法不正确,就可能会导致错误的结论。

例如,如果回归模型中使用了错误的自变量或母体数据,甚至丢失了一些因素,那么得到的结果就可能是不准确的。

错误三:样本选择偏差样本选择偏差是指样本失去代表性,不符合总体规律的现象。

这种情况可能会导致结果的不准确,因为样本无法代表总体。

例如,在研究城市居民身体健康的研究中,如果仅仅选择某一小部分正常体型、有规律的情况,而忽略了任何超出这个范围的人,那么这个研究的结果将忽略其他身体健康状况的可能性。

错误四:误差概率统计分析必须包括在结果中发现的误差概率。

虽然有时误差会被忽略,但没考虑误差的影响会导致结果的不确定性和不准确性的增加。

例如,考虑一个零件生产厂家使用的质量控制方法。

如果该厂家仅仅进行一次样本检查,而没有考虑样本选取的偶然性,那么可能无法获得正确的结果。

错误五:推断推断通常用于从一个样本中推广一个总体结论。

但是,如果样本不够大或者不够代表性,那么结果就不能代表总体。

例如,在某一工厂中,如果只从少数员工中调查了病假的问题,那么结果可能并不具有代表性,不能推广到整个员工群体。

总之,正确的统计分析至关重要,结果的准确性直接影响到实际应用的结果。

因此,在进行统计分析时,务必要注意常见的统计学错误,避免这些错误并提高数据分析和结论推断的准确性。

医学期刊论文中常见统计学错误

医学期刊论文中常见统计学错误

[12]刘力生.中国高血压防治指南2010[J ].中华高血压杂志,2011(08):701-743.[13]Zhao W ,Wang L ,Lu X ,et al.A coding polymorphism of thekallikrein 1gene is associated with essential hypertension :a tag-ging SNP-based association study in a Chinese Han population [J ].J Hypertens ,2007,25(9):1821-1827.[14]Kellermeyer RW ,Graham RJ.Kinins --possible physiologic andpathologic roles in man [J ].N Engl J Med ,1968,279(14):754-759.[15]Kaplan AP ,Joseph K ,Silverberg M.Pathways for bradykininformation and inflammatory disease [J ].J Allergy Clin Immunol ,2002,109(2):195-209.[16]Kellermeyer RW ,Graham RJ.Kinins --possible physiologic andpathologic roles in man [J ].N Engl J Med ,1968,279(16):859-866.[17]Rett K ,Wicklmayr M ,Dietze GJ ,et al.Insulin -induced glucosetransporter (GLUT1and GLUT4)translocation in cardiac muscle tissue is mimicked by bradykinin [J ].Diabetes ,1996,45Suppl 1:S66-S69.[18]Zhao C ,Wang P ,Xiao X ,et al.Gene therapy with human tissuekallikrein reduces hypertension and hyperinsulinemia in fructose -induced hypertensive rats [J ].Hypertension ,2003,42(5):1026-1033.[19]Potier L ,Waeckel L ,Fumeron F ,et al.Tissue kallikrein defi-ciency ,insulin resistance ,and diabetes in mouse and man [J ].JEndocrinol ,2014,221(2):297-308.[20]Slim R,Torremocha F ,Moreau T ,et al.Loss -of-function poly-morphism of the human kallikrein gene with reduced urinary kal-likrein activity [J ].J Am Soc Nephrol ,2002,13(4):968-976.[21]Biros E ,Norman PE ,Walker PJ ,et al.A single nucleotide poly-morphism in exon 3of the kallikrein 1gene is associated with large but not small abdominal aortic aneurysm [J ].Atherosclero-sis ,2011,217(2):452-457.[22]Ordovas JM ,Robertson R,Cleirigh EN.Gene -gene and gene-environment interactions defining lipid-related traits [J ].Curr Opin Lipidol ,2011,22(2):129-136.[23]Rideout TC ,Harding SV ,Jones PJ.Consumption of plant sterolsreduces plasma and hepatic triglycerides and modulates the ex-pression of lipid regulatory genes and de novo lipogenesis in C57BL /6J mice [J ].Mol Nutr Food Res ,2010,54Suppl 1:S7-S13.[24]Rothschild AM ,Melo VL ,Reis ML ,et al.Kininogen and prek-allikrein increases in the blood of streptozotocin -diabetic rats are normalized by insulin in vivo and in vitro [J ].Naunyn Schmiede-bergs Arch Pharmacol ,1999,360(2):217-220.[25]Mori MA ,Araujo RC ,Reis FC ,et al.Kinin B1receptor defi-ciency leads to leptin hypersensitivity and resistance to obesity [J ].Diabetes ,2008,57(6):1491-1500.(2018-08-21收稿)·读者·作者·编者·医学期刊论文中常见统计学错误1.统计表达和描述方面存在的错误:(1)统计表中数据的含义未表达清楚,令人费解。

医学论文中常用统计分析方法错误大全

医学论文中常用统计分析方法错误大全

医学论文中常用统计分析方法错误大全在医学研究领域,准确合理地运用统计分析方法对于得出可靠的研究结论至关重要。

然而,在实际的医学论文中,却存在着各种各样的统计分析方法错误,这些错误可能会导致研究结果的偏差,甚至得出错误的结论。

下面,我们就来详细探讨一下医学论文中常见的统计分析方法错误。

一、数据类型判断错误数据类型的正确判断是选择合适统计分析方法的基础。

医学研究中常见的数据类型包括计量资料、计数资料和等级资料。

然而,很多研究者在数据类型判断上出现失误。

例如,将原本应该是计数资料的数据(如疾病的治愈、好转、无效等)当成计量资料进行分析,错误地使用了均值和标准差等统计指标,而应该使用频率和百分比等指标,并采用卡方检验等方法。

二、样本量计算不合理样本量的大小直接影响到研究结果的可靠性和准确性。

一些医学论文在研究设计阶段没有充分考虑样本量的计算,导致样本量过小或过大。

样本量过小,可能会使研究结果缺乏统计学意义,无法检测出真实存在的差异;样本量过大,则会造成资源的浪费,同时增加研究的难度和成本。

正确的样本量计算应该综合考虑研究的设计类型、预期效应大小、检验水准和检验效能等因素。

三、选择错误的统计方法这是医学论文中常见的错误之一。

例如,对于两组独立样本的均数比较,应该使用 t 检验,但如果两组数据的方差不齐,就需要使用校正的 t 检验或者非参数检验方法(如 Wilcoxon 秩和检验)。

然而,很多研究者在这种情况下仍然使用了普通的 t 检验,导致结果不准确。

再比如,对于多组均数的比较,如果方差分析结果有统计学意义,还需要进一步进行多重比较。

但有些研究在这一步没有进行恰当的多重比较方法选择,导致结论不够准确。

四、忽视数据的正态性检验在进行某些统计分析(如 t 检验、方差分析等)时,要求数据服从正态分布。

然而,很多研究者在使用这些方法之前,没有对数据进行正态性检验。

如果数据不服从正态分布,却仍然使用基于正态分布假设的统计方法,就会得出错误的结论。

医学论文中的常见统计学错误

医学论文中的常见统计学错误
医学论文中 的常见统计学错误
中国疾病预防控制中心 金水高
精品课件
正确的统计学方法必须贯 穿于从课题的统计设计 到论文撰写的全过程。
精品课件
不管是实验室研究、临床研究还是现场调查, 其数据的归纳整理,都要列成一定的标准格 式,以便于进行计算机的录入及统计分析。 其基本要求为: 1. 横为记录,纵为变量 2. 对每个变量要起合适的变量名 3. 对分类变量中用字符表示的取值在进行计 算机录入时必须按照一定的规矩将其转换为 数值。
一、计数资料分析中的常见错误举例
1.率与构成比 2.某研究想了解筛查与自查相比发现的肝癌病例分期是 否存在差异,是否筛查更能发现早期肝癌病人。
精品课件
一、计数资料分析中的常见错误举例
1. 率与构成比(续)
精品课件
一、计数资料分析中的错误举例
2. 样本量/阳性例数较少时的统计分析
年龄别 123451015合计
对照(一水平) 1
1.56 3.56
0.86
二水平
0.64
1
0.44
1.81
三水平
0.28
2.28
1
4.14
四水平
1.16
精品课件
0.55 0.24
三、 Logistic 回归中的主要统计学错误
4. 比数比及相对危险度的正确解释 某文献在研究影响妇女产前检查的可能因素时,拟合了
一个Logistic回归模型。在进行分析后,认为‘由于 量纲相同’,可以由回归系数的绝对值‘直接判定’ 它们与产前检查关联强弱。其结论为:孕产期卫生知 识〉妇女文化程度〉妇女年龄〉丈夫文化程度〉丈夫 职业〉家庭距卫生院距离。
2.这些数据的属性:是定性还是定量资料。 确定了所关心的研究产出后,其它的变量就都可以解释为是这

统计研究设计中常见错误辨析

统计研究设计中常见错误辨析

统计研究设计中常见错误辨析统计研究设计是研究领域的一个重要环节,涉及到研究对象、研究方法、数据收集等多个方面。

在这个过程中,研究者常常会出现一些错误和偏差,影响研究的可靠性和准确性。

本文将分析和辨析统计研究设计中常见的错误和偏差。

一、样本容量偏小样本容量是统计研究中重要的参数之一,决定着研究的可靠性和准确性。

如果样本容量偏小,可能会导致样本代表性不足、误差较大,研究结论存在一定的偏差。

因此,研究者在确定样本容量时,应注意考虑研究目的、假设检验的类型、数据类型和误差范围等因素。

二、样本选择偏倚样本选择偏倚是指样本不具备代表性,未能覆盖到整个研究领域的不同方面,导致研究结果产生一定误差。

这种偏倚可能出现在多个方面,比如样本来源、样本属性、样本数量等,研究者应该尽可能地避免这种偏倚。

三、研究设计问题研究设计是研究的基础,如果研究设计存在问题,会导致研究结果无法得到充分的验证和确认。

在研究设计阶段,研究者需要明确研究目的、研究对象、研究方法等重要参数,建立完整的研究框架,以确保最终研究能够得到有效的验证和证实。

四、数据收集和处理问题数据收集和处理是研究中关键的步骤之一,直接影响到研究结论的准确性和可靠性。

在数据收集和处理过程中,研究者容易出现一些偏差和错误,如数据不完整、数据分类不准确、数据清洗不彻底等。

为避免这些问题,研究者需要制定合理的数据收集和处理程序,保证数据收集和处理的质量和准确性。

五、假设检验问题假设检验是统计研究中重要的结果分析方法之一,用来判断样本数据是否具有代表性和统计意义。

但是研究者在假设检验过程中,容易出现一些错误和偏差,如假设选择不合理、显著性水平超限、样本误差未考虑等。

因此,研究者需要严格遵循假设检验步骤,确保假设检验结果的正确性和可信度。

六、结论推断问题结论推断是统计研究中重要的结果展示方式之一,用来从样本数据中得出整体研究结论。

但是研究者在结论推断过程中,容易出现一些错误和偏差,如过度推断、推断范围不准确、结论与实际情况偏差大等。

常见统计学错误

常见统计学错误

资料表达与描述中存在的统计学错误
• 误用正态分布法描述呈偏态分布的资料 • 以“比”代“率”或以“率”代“比” • 计算相对数时分母太小
• 统计表不规范:纵、横标目颠倒,统计表中数据含义不清、 同一表中表达不同的内容
• 统计图不规范:同一个复式条图表达多个指标、用复式条 图表达适合用线图表达的资料、用线图表达适合用复式条 图表达的资料、统计图坐标轴上的刻度不符合验科 张家明
• 常见的错误涉及到统计研究设计、统计
资料的收集与整理、统计描述、定量资
料统计分析、定性资料统计分析、直线
相关与回归分析、统计资料综合分析和
统计分析结果解释等。
设计、收集和整理方面的统计学错误
• 缺乏完善的实验设计方案 • 设计时未遵循实验设计的基本原则: -对照:缺乏对照组、重复设置对照组、对照不全、 对照组的设立与研究目的不符 -随机:以随意代替随机 -重复:样本含量过小、仅测量一个样品即做出结论 -均衡:组间的均衡性差 • 缺乏与设计类型相匹配的收集实验数据的表格 • 未按照实验数据类型的要求进行实验和收集数据
定量资料分析中存在的统计学错误
• • • • • • 应用参数统计分析方法分析非参数资料 2 用 检验分析定量资料 用成组设计资料的 t 检验分析配对设计的资料 用 t 检验分析多样本均数的资料 用 t检验和一般方差分析处理带有协变量的资料 用单因素多水平设计资料的方差分析处理析因设 计资料或具有一个重复测量的两因素设计资料
定性资料分析中存在的统计学错误
• 误用定量资料统计分析方法,如:误用 t 检验分 析四格表资料、双向无序列联表资料、单向有序 列联表资料
2 • 用 检验分析单向有序的列联表资料
• 用 2检验分析双向有序且属性相同的列联表资料 • 用一般 2检验分析三维列联表资料

医学统计中的典型错误

医学统计中的典型错误

释疑:若资料不满足参数检验的前提条件,可选用适合分析偏态分布资料的非参数检验(如秩和检验)进行分析,或找到满足前述两个前提条件的相应变量变换方法后,再用相应的参数检验法,因为试验设计类型为单因素3水平设计,可选用相应的设计资料的方差分析进行处理。
文题目:《盆腔动脉插管灌注化疗及栓塞治疗恶性滋养细胞肿瘤》,用改良的Seldinger’s插管技术对8例经临床及病理证实的恶性滋养细胞肿瘤进行选择性盆腔动脉插管灌注化疗。治疗前后测血hCG放免测定值。结果见表4.5。采用一般t检验进行分析,治疗前后血hCG值经统计学处理有显著性差异(P<0.05)。
文题目:《格列本脲对糖尿病及正常大鼠心肌磺脲类药物受体mRNA的影响》,为研究长期格列本脲治疗对正常与糖尿病大鼠心肌SUR1、SUR2和kir6.2的影响,将大鼠随机分为4组,结果见表4.7,原作者采用t检验进行了统计分析。
分析:本资料有四个实验组,实际上涉及到两个实验因素,一个因素是“是否患有糖尿病”,其有两个水平:是、否;另一个因素是“是否服用格列本脲”,其有两个水平:是、否。两个因素各有两个水平,它们互相组合,得到四个实验组,见表4.8。而本例单用组别来表示,掩盖了因素间各水平的组合关系,使人容易误认为是单因素四水平设计的定量资料。原作者采用t检验进行统计分析,同样是错误的,因为t检验只能分析单组设计、配对设计和成组设计的资料,其只涉及一个因素,且这个因素最多只有两个水平。
分析:同一个病人在吸入地氟醚前、调整地氟醚浓度至0.5MAC、1.0 MAC、1.5 MAC、2.0 MAC5个不同条件下,重复测量了若干血液动力学指标,地氟醚浓度是与“重复测量”有关的因素,因而此资料属于具有一个重复测量的单因素设计资料,原作者采用t检验进行两两比较,因t检验仅适合分析单因素设计且因素的水平数最多为2的定量资料,并不适合分析此类资料。

医学期刊论文中常见统计学错误

医学期刊论文中常见统计学错误
group box 1 protein protects against m yocardial ischemia··repefu··
sion injury.Int J Cardiol,2010,145:111-112. [27] Tian J,Guo X,Liu XM,et a1. Extracellular HSP60 induces in—
toll—like receptor signaling on c—kit(+)cell migration following ischemia·reperfusion injury in vivo.Microvasc Res,2017,1 12:
87-92.
[25] Zhu X,Zhao H,Graveline AR,et a1.MyD88 and NOS2 a re essen-
叫2 018年 6¨月 第 37卷第 6期 Journal of Card列i0v ascular&Pulmonary Diseases June 2018,V01.37,N0.6
593
Physiol,2017 ,44:353-361.
Wang Q,Lin P,Li P,et a 1.Ghrelin protects the heart against is— chemia/reperfusion injury via inhibition of TLR4/NLRP3 inflam-
Myocardial Injury Induced by Ischemia and Repefusion Partly via
Inhibition TLR4/MyD88/NF—kappaB Signaling Pathway. Cell Physiol Biochem ,2017,41:22-32.

带你认识常见的统计误区

带你认识常见的统计误区

带你认识常见的统计误区我国管理学期刊大约有1000多种,管理学统计学的应用越来越广泛。

由于统计学的内容非常丰富且不断发展,管理工作者常因各种原因不愿花费许多精力钻研统计学知识,故管理学论文中误用统计学的现象较为严重。

为提高论文的可信度,现将管理学科研论文统计学方法应用中易犯的10个错误列举出来。

未交代统计学方法如“采用SPSS软件进行统计学处理,结果P<0.01,差别具有统计学意义”。

统计学方法交代不清最常见的错误是“计量资料采用方差分析”、“计数资料采用χ2检验”、“经t检验P<0.01”等。

方差分析有10多种,所对应的计量资料和实验设计不同,结果自然不同。

正确的方法是要标明统计学方法、统计学软件名称、版本号、检验方法、检验水准以及检验的单双侧。

未考虑应用条件统计学方法多、公式多,且各有适用条件,应根据实验设计和资料性质进行正确选择。

t检验被误用t检验是最常用的统计方法之一,是专门检验两个均数之间差异的(样本与总体、配对资料、样本与样本),但有许多误用的情况。

在t检验中把配对设计的资料作成组比较的t检验是常见的失误之一,t检验误用于方差分析的现象也不少见。

t检验不能用于三组或三组以上的组间比较,即使资料符合t 检验的条件也是不行的。

因为将原来的多组整体设计割裂失去了总变异和总剩余误差,损失了部分信息,降低了检验效率。

不当检验四格表资料,当140时,没有计算校正值;当T<1或n<40时,没有选用四格表确切概率法。

行×列表资料,由于例数太少,没有采取适当的处理方法,直接计算数值,导致分析偏性。

多组间两两比较出错最常见的错误是,将三组或以上组拆开分别作两两比较。

应先将所有组一起比较,差别有统计学意义后,再进行两两比较或多个处理和同一对照组比较。

相关回归分析犯概念性错误有作者将一组变量既作为自变量又作为因变量,r=1,认为有完全相关性,这说明对相关概念还不十分清楚。

有作者在自变量和因变量都没有问题并且求得r=0.89的情况下,就认为两事物间有因果关系。

常见统计学错误(2013)[文字可编辑]

常见统计学错误(2013)[文字可编辑]
犯假阳性错误的概率总共不超过 ? , 则每次分析要用 ? / k 来控制假阳性的概率。
例 ? ? 0.05, k ? 10, ? / k ? 0.005
2. 事后分析,见机行事
?事后分析(Post hoc analysis ) 看到数据之后才想起来做的分析 其结果往往不能被进一步研究所确认
?不鼓励事先并未计划的亚组分析和校正分析
为何不鼓励事后分析?
?数据是现象,现象具有偶然性; 看到数据后进行的“分析”属于故作姿态, 变偶然为“必然” —— 忽悠!
?看到数据后增加的“分析”,也属于多重 分析,增加假阳性的机会
应当如何?
?必要的亚组分析有助于发现适应症,指导 个体化治疗;必要的校正分析有助于消除 混杂偏倚,公平、公正地比较疗效
做法 1:单因素方差分析?!
F =0.701,P>0.5, 均数间差别无统计学意义
为什麽不对?
有负初衷 —— 探讨反应随剂量变化的趋势 * 由多个剂量组的比较只能得知均数间是否有差异 * 有统计学差异也不等于有剂量 -反应关系
做法 2: 反应的均数关于剂量作回归分析 ?!
62
60
58
56
54
噬菌率(均数)
常见统计学错误与纠正
---- 设计与分析
方积乾
中山大学公共卫生学院 医学统计与流行病学系
2013年12月
1. 终点指标过多, 大海捞针
?临床试验时,不知道哪个指标在组与组间有差 异; “确定某个指标后,万一组间没有差异,岂 不被动!”
?生理、生化、组织学、基因,都做; “内容丰富,显得水平高!”
?许多仪器一下子可以做许多项目; “许多项目一一分析,哪个有意义,就报告 哪个指标标”
0.20 ? 0.08

临床科研课题研究中常见的统计应用错误

临床科研课题研究中常见的统计应用错误

临床科研课题研究中常见的统计应用错误张芳【摘要】临床科研课题设计与统计知识的应用密不可分。

统计是医学科研的重要辅助工具,但往往不太引起人们的重视,影响着整个课题研究的结果。

结合几年来在我院实际科研管理工作中接触到的常见统计问题,共同探讨解决方式。

让大家知道科研过程中,一方面必须了解与掌握统计的基本原理及应用,另一方无须对复杂的数理公式进行探讨,只要能做到对什么样的材料,选用什么样的统计方法,来说明什么问题就可以了。

以此,引起广大科研工作者对统计工作重要性的认识,从而提高科研的可信度与含金量。

【期刊名称】《统计与管理》【年(卷),期】2013(000)005【总页数】2页(P74-75)【关键词】临床课题;统计错误;统计应用【作者】张芳【作者单位】福建医科大学附属南平第一医院【正文语种】中文【中图分类】C81统计方法是医学科研的重要辅助工具,但往往不太引起广大专业人员重视。

这一疏忽,对整个课题的研究结果有着重大的影响。

结合几年来在我院实际科研管理中发现的问题,谈谈做临床课题中统计常见的问题并共同探讨解决方式,以此引起广大科研工作者特别是临床专业人员对统计工作重要性的认识,促进严谨、科学的学术精神,提高科研的可信度与含金量。

我们知道医学统计也称医用数理统计,是建立在概率论基础上的一种科学分析方法,医学研究大体分为实验研究与调查研究两大类。

对于很多医院来说,占研究课题比重较大的应该侧重以调查研究为主临床实用型的课题。

这是由于临床是医学实践的出发点,其医疗的实用性、交流性都很强,决定了选题的类型。

也因此产生的与基础研究课题相比容易发生且不容忽视的研究过程中的统计知识应用的缺陷。

下面我们就几项问题来探讨。

1 临床科研常见的统计缺陷1.1 研究选题缺乏客观依据,主观性较强这是常遇见的问题之一,要申请立项课题根本没有进行预试验,仅凭临床观察几个数据的直观感觉,来确定研究的方向与目的来设计课题,这是相当不严谨的题。

统计学 易错点

统计学 易错点

统计学易错点第一章12、某高校在校学生数为13000人,若要研究该校在校学生规模是否适度,这里的”在校学生数为13000人”是指标3、数量标志才有标志值4、国内生产总值是价值指标(以货币作为价值尺度来度量社会财富或劳动成果多少的一种总量指标)6、流量具有时间量纲,而存量不具有时间量纲.第二章1、观测单位:样本中具体观测到的345、说明.。

的分布特征:(描述),点出是什么分布(钟型分布)67、某市工商企业2014年生产经营成果的年报呈报时间规定在2015年1月31日,则调查期限为一个月8910、概率抽样可分为重复抽样和不重复抽样两种,个体被抽中的概率都可计算11121314151617、抽样调查和重点调查两者都属于专门调查181920、统计分组的关键是正确选择分组标志2122、一次性调查是指间隔一定时期,对事物在某一时点上的状况进行登记的调查方式.一次性调查的目的是反映事物在某一时点存在的状况23、非概率抽样里面有个流动总体抽样!第三章12、平均数包括位置平均数和数值平均数3、在实际应用中,调和平均数和算术平均数的计算形式虽然不同,但计算结果及其意义是一样的67、若两个变量数列的标准差相等且计算单位相同,但平均数不相等,则平均数大的代表性强离散系数Vs=s/平均数越大,离散程度越强,平均数的代表性越差89、某商店在制定女式衬衫进货计划时,需了解已售衬衫的平均尺寸,则应计算10、次数分布的类型主要取决于统计总体所处的条件/分组标志的选择/变量是连续还是离散11、从内容上看,统计表的构成包括12、权数对于算术平均数的影响作用,实质上取决于各组标志值占总体标志总量比重的大小13、对于不同水平的总体,往往是用()来测定其平均指标的代表性。

1415、分析社会经济现象一般水平和典型特征的最基本的指标以及统计中计算平均数最常用的方法是16、环比发展速度的连乘积等于相应的定基发展速度17、环比增长速度=环比发展速度-118、定基增长速度=定基发展速度-119、某企业计划规定单位成本降低2%,实际降低7%,则20、当变量数列中各变量值的频数相等时21、人口密度指标属于算数平均指标22、组距数列中,总体单位数的多少,不影响各组次数分布,影响各组次数分布的要素有23、在组距数列中,组中值24、下列有关众数的陈述,错误的有25、下列指标中不属于时点指标国内生产总值、出生人数、投资额26、若甲、乙两总体某变量的标准差存在,则乙总体变量的差异性较小。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常见统计学错误与纠正
---- 设计与分析
方积乾
中山大学公共卫生学院 医学统计与流行病学系
2013年12月
1. 终点指标过多, 大海捞针
?临床试验时,不知道哪个指标在组与组间有差 异; “确定某个指标后,万一组间没有差异,岂 不被动!”
?生理、生化、组织学、基因,都做; “内容丰富,显得水平高!”
?许多仪器一下子可以做许多项目; “许多项目一一分析,哪个有意义,就报告 哪个指标标”
(2)预计总体标准差 ? ? 0.35mg / dL
(3)允许出现假阳性结果的机会 ? ? 0.05
(4)允许出现假阴性结果的机会 ? ? 0.20
欧洲研究的样本量估算
N
?
4???(Z?
/2
?
?
Z?
)?
?2 ??
?
4???(1.96
?
0.84) ? 0.18
0.35 ?2 ??
?
4???(1.96
P(两次分析均不犯错误)? [ P(两次分析均不犯错误)]2 P(假阳性)? 1- 0.952 ? 1? 0.90
同时分析 3 个指标时, P(假阳性)? 1- 0.953 ? 1 ? 0.86 ? 0.14 同时分析 10 个指标时, P(假阳性)? 1 - 0.9510 ? 1 ? 0.60 ? 0.40
错在哪里?
?哪些指标可能有组间差异,必须心中有数。 科研的结果应当预见 —— 假说是科研的灵 魂 心中无数,不要“先上马再说”
?指标多,实验工作量大。 大海捞针—— 碰运气,不是科研
?指标多,翻来覆去分析,制造假阳性 Nature 杂志统计学指南:常见错误之一
为何翻来覆去分析,会制造假阳性?
仅分析一个指标时, P(假阳性) ? 0.05, P(一次分析不犯错误)? 0.95 同时分析 2 个指标时,
?将随机化当作“廉价名词”,实际没做,却 写“随机分成两组” —— 科研道德?
说错和做错
?将随机化当作“廉价名词”,实际没做,却 写“随机分成两组” —— 科研道德?
?将“随意分组”当作随机化 ?将“机械分组”当作随机化 ?略去筛选过程,简单地报告将多少人随机分
组 ?略去实施过程中丢失对象,将最后两组人数
?
0.84) ? 0.18
0.35 ?2 ??
?
118.6
决定每组含61名患者。
比较两组发生某结局的百分比
(1)预计两组发生某结局的百分比约为 ? 1,? 2
(2)允许犯假阳性错误的机会 ?
(3)允许犯假阴性错误的机会 ?
?c
?
?1
??2
2
N ? ??2Z? / 2 ?
? c (1 ?
?c)
?
Z?多项比较时,必须 说明如何校正α 水平,以避免增大第一类错 误的机会
应当如何?
?主要终点(primary end point) :只能一个 次要终点(secondary end point) : 可以几个, 但勿过多
?Bonfferoni 校正 当同一组数据同时作k次分析时,若限定
?1
2? 1(1 ? ? ?2
? 1)
?
2? 2 (1 ?
?2)
?2 ? ?
南韩对比剂研究
南韩研究
(1)预计两组发生某结局的百分比约为 20% 和 8%
(2)允许犯假阳性错误的机会 ? ? 5%
(3)允许犯假阴性错误的机会 ? ? 1 ? 80% ? 20%
可能会有一部分患者失访、数据不全、违反研究方案, 计划每组 150 名
?亚组分析和校正分析必须事先在研究计划 里规定,并说明理由;写文章时,申明这 类分析是事前计划好的
?事后决定做的分析,如果想写,不能算是 正式结果,只能视为探索性分析。
3. 随机化,说而不做,做而不严
?处理分配的随机化为什么这么重要 ? (1) 消除分配处理有意或无意的偏倚。 (2) 为实施盲法创造条件。 (3) 使有可能利用概率论来描述各干预组之间 的差异有多大可能仅仅是由偶然性造成的。
说成是随机分组人数
应当如何?
?成功的随机化取决于: (1) 产生一个不可预见的分配序列; (2) “隐蔽” (allocation concealment )这个 序列,直到分配完毕(必须建立一个分配处 理的系统) 。
?报告如何随机分组,如何“隐蔽” :谁做随 机序列,谁收病人,谁分药和发药;分组方 案如何保管……
为何不鼓励事后分析?
?数据是现象,现象具有偶然性; 看到数据后进行的“分析”属于故作姿态, 变偶然为“必然” —— 忽悠!
?看到数据后增加的“分析”,也属于多重 分析,增加假阳性的机会
应当如何?
?必要的亚组分析有助于发现适应症,指导 个体化治疗;必要的校正分析有助于消除 混杂偏倚,公平、公正地比较疗效
参加者的流程图 (强烈推荐)
合格对象82例 随机分组75例
拒绝参与7例
分配至实验组38例 接受干预38例
分配至对照组37例。接受 干预36例,1例因颈部损伤未
接受干预
随访例数: 7周n=38,11 随访例数: 7周n=37,11
周 n=38 , 15 周 n=38 , 19 周n=36 ,15 周n=36 ,19
比较两组测定值的均数
(1)预计欲比较的两总体参数的差值 ? ? ?1 ? ? 2
(2)预计总体标准差 ? (3)允许出现假阳性结果的机会 ?
(4)允许出现假阴性结果的机会 ?
N
?
?( 4??
Z?
/2
?
?
Z?
)?
?2 ??
欧洲对比剂研究
? ? 0.20 ?
(1)预计欲比较的两总体参数的差值 ? ? 0.18mg / dL
周n=36
周n=35
纳入分析例数n=36
纳入分析例数 n=35 ,排除
排除分析例数 n=2(因失 分析例数n=2(1例失访,1例
访)
颈部损伤)
4. 样本量随意决定, 无依据
?样本量太小? ---- 真理应经得起重复 研究的功效太低
?样本量越大越好? ---- 时间长、经费不足 不能保证数据质量
?需要事先估算最小样本量 论文必须报告估算最小样本量的根据
犯假阳性错误的概率总共不超过 ? , 则每次分析要用 ? / k 来控制假阳性的概率。
例 ? ? 0.05, k ? 10, ? / k ? 0.005
2. 事后分析,见机行事
?事后分析(Post hoc analysis ) 看到数据之后才想起来做的分析 其结果往往不能被进一步研究所确认
?不鼓励事先并未计划的亚组分析和校正分析
相关文档
最新文档