医学统计学傻瓜教程---带图示
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
作为一名临床医师,有时为了完成一些小科研,或晋升职称,都必须撰写医学论文。大多数人会碰到一个难题,医学论文的数据都必须进行统计学处理,上大学时学过的《医学统计学》早已忘得差不多了,重新翻开统计学书本,花上十天半个月的时间,还是看得不知所云。《医学统计学傻瓜教程》有别于其他任何的统计学教程,其特点是略去一些高深难懂的统计学原理及计算公式,直奔解决实际问题的方法。
本教程的学习时间约需要2~3小时,但你必须曾经学过《医学统计学》,不管学得好或学得差,或是否已忘记,只要有一点印象即可,同时还需要下载一个简明统计学处理软件《临床医师统计学助手V3.0》,因为作数据统计学处理时最令人头痛的问题是烦琐的计算,则由预存在本软件内的计算公式来完成。
这是一个全“傻瓜化”的教程,由4个实例组成,只要认真看完这4个实例,将实际中碰到的问题对号入座,就足以解决绝大多数问题了。接下来我们开始轻松愉快的学习过程。
一、均数与标准差
【例1】本组105 例,男55例,女50例;平均年龄:62.3±6.1岁,所有入选病例均符合1999年WHO高血压诊断标准。
举这个例子是为了说明“均数”与“标准差”的概念。我实在不愿意多花时间阐述一些概念性的东西,但是由于“标准差”实在太重要了。【例1】中的数据“62.3±6.1”,“62.3”就是年龄的均数,均数的概念大家都懂,那么后面的“6.1”是什么呢?它就是标准差。有人可能会问,表达一组人的平均年龄,用均数就够了,为什么还要加一个标准差呢?先看下面的一个例子:有两组人,第1组身高(cm):98、99、100、101、102;第2组身高(cm):80、90、100、110、120,这两组人虽然身高的均数都是100cm,但是,仔细观察,第1组的身高很接近,第2组的身高差别很大,故仅仅用一个平均数表达一组数据的特征是不完整的,还需要用另一个指标来表达其参差不齐的程度,这就是标准差。统计学上对一组测量结果的数据都要用“均数±标准差”表示,习惯表达代号是:,具体例子如:平均收缩压120±10.2mmHg。
我想现在大家都已知道标准差是什么东东了,那么,标准差是怎样得到的呢?有一个比较复杂的计算公式,我们不必去深究这个公式是怎么样的,只需知道标准差越小,说明数据越集中,标准差越大,说明数据越分散。
撰写医学论文的第一步是收集原始数据,如:
第1组身高(cm):98、99、100、101、102;
第2组身高(cm):80、90、100、110、120。
在论文中并不是直接给出原始数据,而是要以方式表示。利用软件《临床医师统计学助手 V3.0》,只要输入原始数据,就能自动计算出均数及标准差,即第1组平均身高:100±1.58cm;第2组平均身高:100±15.81cm,如下图。
二、两样本均数差别T检验
【例2】目的研究中药板兰根对“非典”疗效。方法将36例“非典”患者随机分为治疗组19例,采用常规治疗+板兰根口服,对照组17例,仅采用常规治疗。结果治疗组平均退热时间3.28±1.51d;对照组平均退热时间5.65±1.96d,两组间对照差别有极显著意义(p<0.01 )结论中药板兰根对“非典”有显效疗效,实为国之瑰宝。
这是最常见的一种统计学数据处理类型,统计学述语叫做“两样本均数差别T检验”,说得通俗易懂一些,就是检验两组方法所得到的数据到底有没有差异,或者说,差异是否有意义。我们平时的思维习惯是,数据的大小还用得着检验吗?这是小学生都会的问题。可是别忘记了现在是在搞科研,科学方法看问题可不一定这么简单。
可能还没有说明白这个问题,下面举一个简单的例子。我们的目的是得出这样一个结论:“北京出产的西瓜比上海出产的西瓜大”。最可靠的方法是把所有北京的西瓜和上海的西瓜都测量重量,得到两个均数,然后比大小即可,可是智商正常的人并不会这样去做,通常的做法是,随机选一部分北京的西瓜和一部分上海的西瓜,先让这两部分西瓜比大小,然后推断到底那里的西瓜大。这种方法是“窥一斑可见全豹”,统计学述语叫做“由样本推断总体”,事实上,我们所做的医学科研都是基于这种方法。
再回到上面的例子,假如我们有二种做法:
A、随机选2个北京西瓜,平均重量是5.6±0.3kg;再随机选2个上海西瓜,平均重量是4.3±0.25kg;
B、随机选1000个北京西瓜,平均重量是5.6±0.3kg;再随机选1000个上海西瓜,平均重量是
4.3±0.25kg。
凭生活常识,由B推出“北京的西瓜比上海西瓜大”这个结论的把握性就非常的大,而A则基本上推不出这个结论。现在,终于可以引出我们的主题了,统计学处理本质是考查由样本差异推断总体差异的把握性有多大,这种把握性在统计学上由P值表示。如P<0.05或P<0.01,可以理解为由样本差异推断总体差异的把握性达95%或99%以上,两组数据差异有显著意义;如P>0.05,可以理解为这种把握性在95%以下,两组数据差异没有显著意义。
上面所讲的实已为统计学之精髓,建议多看几遍,如果天生愚鲁,还是看不太懂,也没有关系,现在进一步“傻瓜化”,即所谓统计学处理,只要求得P值即可。P<0.05或P<0.01,表示阳性结果,两组数据差异有显著意义;P>0.05,表示阴性结果,两组数据差异没有显著意义。所以,统计学处理的中心任务是求P值。
下面讲解遇到【例2】这样的问题,如何求P值。【例2】中一共有6个数据:第一组均数(X1)、标准差(S1)、例数(N1)与第二组均数(X2)、标准差(S2)、例数(N2),就是根据这6个数据,先通过复杂计算,求出“T”值(如果没有想成为统计学专家,就不必去理解“T”是什么了,知道“T”是为了求“P”用的就可以了),求出“T”值后,再查“T界值表”,就知道“P值”了。
具体解法步骤如下:
⑴通过计算(这里略去计算公式,可由软件求出),T=4.088
⑵计算自由度:自由度=N1+N2-2=19+17-2=34(计算自由度是为了查T界值表用的,自由度即两组例数之和减去2,不要问我为什么不减去3或减去1这样的问题了。)
⑶ 查T界值表,对应自由度34,T0.05=2.032,T0.01=2.728,今T=4.088>T0.01,即P<0.01,差别有高度显著意义。