巧妙的学好医学统计学

巧妙的学好医学统计学
巧妙的学好医学统计学

巧妙的学好医学统计学

作为一名临床医师,有时为了完成一些小科研,或晋升职称,都必须撰写医学论文。大多数人会碰到一个难题,医学论文的数据都必须进行统计学处理,上大学时学过的《医学统计学》早已忘得差不多了,重新翻开统计学书本,花上十天半个月的时间,还是看得不知所云。《医学统计学傻瓜教程》有别于其他任何的统计学教程,其特点是略去一些高深难懂的统计学原理及计算公式,直奔解决实际问题的方法。

本教程的学习时间约需要2~3小时,但你必须曾经学过《医学统计学》,不管学得好或学得差,或是否已忘记,只要有一点印象即可,同时还需要下载一个简明统计学处理软件《临床医师统计学助手V3.0》,因为作数据统计学处理时最令人头痛的问题是烦琐的计算,则由预存在本软件内的计算公式来完成。

这是一个全“傻瓜化”的教程,由4个实例组成,只要认真看完这4个实例,将实际中碰到的问题对号入座,就足以解决绝大多数问题了。接下来我们开始轻松愉快的学习过程。

一、均数与标准差

【例1】本组105 例,男55例,女50例;平均年龄:62.3±6.1岁,所有入选病例均符合1999年WHO高血压诊断标准。

举这个例子是为了说明“均数”与“标准差”的概念。我实在不愿意多花时间阐述一些概念性的东西,但是由于“标准差”实在太重要了。【例1】中的数据“62.3±6.1”,“62.3”就是年龄的均数,均数的概念大家都懂,那么后面的“6.1”是什么呢?它就是标准差。有人可能会问,表达一组人的平均年龄,用均数就够了,为什么还要加一个标准差呢?先看下面的一个例子:有两组人,第1组身高(cm):98、99、100、101、102;第2组身高(cm):80、90、100、110、120,这两组人虽然身高的均数都是100cm,但是,仔细观察,第1组的身高很接近,第2组的身高差别很大,故仅仅用一个平均数表达一组数据的特征是不完整的,还需要用另一个指标来表达其参差不齐的程度,这就是标准差。统计学上对一组测量结果的数据都要用“均数±标准差”表示,习惯表达代号是:X±S,具体例子如:平均收缩压120±10.2mmHg。

我想现在大家都已知道标准差是什么东东了,那么,标准差是怎样得到的呢?有一个比较复杂的计算公式,我们不必去深究这个公式是怎么样的,只需知道标准差越小,说明数据越集中,标准差越大,说明数据越分散。

撰写医学论文的第一步是收集原始数据,如:

第1组身高(cm):98、99、100、101、102;

第2组身高(cm):80、90、100、110、120。

在论文中并不是直接给出原始数据,而是要以X±S方式表示。利用软件《临床医师统计学助手V3.0》,只要输入原始数据,就能自动计算出均数及标准差,即第1组平均身高:100±1.58cm;第2组平均身高:100±15.81cm,如下图。

二、两样本均数差别T检验

【例2】目的研究中药板兰根对“非典”疗效。方法将36例“非典”患者随机分为治疗组19例,采用常规治疗+板兰根口服,对照组17例,仅采用常规治疗。结果治疗组平均退热时间3.28±1.51d;对照组平均退热时间5.65±1.96d,两组间对照差别有极显著意义(p<0.01 )结论中药板兰根对“非典”有显效疗效,实为国之瑰宝。

这是最常见的一种统计学数据处理类型,统计学述语叫做“两样本均数差别T检验”,说得通俗易懂一些,就是检验两组方法所得到的数据到底有没有差异,或者说,差异是否有意义。我们平时的思维习惯是,数据的大小还用得着检验吗?这是小学生都会的问题。可是别忘记了现在是在搞科研,科学方法看问题可不一定这么简单。

可能还没有说明白这个问题,下面举一个简单的例子。我们的目的是得出这样一个结论:“北京出产的西瓜比上海出产的西瓜大”。最可靠的方法是把所有北京的西瓜和上海的西瓜都测量重量,得到两个均数,然后比大小即可,可是智商正常的人并不会这样去做,通常的做法是,随机选一部分北京的西瓜和一部分上海的西瓜,先让这两部分西瓜比大小,然后推断到底那里的西瓜大。这种方法是“窥一斑可见全豹”,统计学述语叫做“由样本推断总体”,事实上,我们所做的医学科研都是基于这种方法。

再回到上面的例子,假如我们有二种做法:

A、随机选2个北京西瓜,平均重量是5.6±0.3kg;再随机选2个上海西瓜,平均重量是

4.3±0.25kg;

B、随机选1000个北京西瓜,平均重量是5.6±0.3kg;再随机选1000个上海西瓜,平均重量是4.3±0.25kg。

凭生活常识,由B推出“北京的西瓜比上海西瓜大”这个结论的把握性就非常的大,而A则基本上推不出这个结论。现在,终于可以引出我们的主题了,统计学处理本质是考查由样本差异推断总体差异的把握性有多大,这种把握性在统计学上由P值表示。如P<0.05或P<0.01,可以理解为由样本差异推断总体差异的把握性达95%或99%以上,两组数据差异有显著意义;如P>0.05,可以理解为这种把握性在95%以下,两组数据差异没有显著意义。

上面所讲的实已为统计学之精髓,建议多看几遍,如果天生愚鲁,还是看不太懂,也没有关系,现在进一步“傻瓜化”,即所谓统计学处理,只要求得P值即可。P<0.05或P<0.01,表示阳性结果,两组数据差异有显著意义;P>0.05,表示阴性结果,两组数据差异没有显著意义。所以,统计学处理的中心任务是求P值。

下面讲解遇到【例2】这样的问题,如何求P值。【例2】中一共有6个数据:第一组均数(X1)、标准差(S1)、例数(N1)与第二组均数(X2)、标准差(S2)、例数(N2),就是根据这6个数据,先通过复杂计算,求出“T”值(如果没有想成为统计学专家,就不必去理解“T”是什么了,知道“T”是为了求“P”用的就可以了),求出“T”值后,再查“T界值表”,就知道“P值”了。

具体解法步骤如下:

⑴通过计算(这里略去计算公式,可由软件求出),T=4.088

⑵计算自由度:自由度=N1+N2-2=19+17-2=34(计算自由度是为了查T界值表用的,自由度即两组例数之和减去2,不要问我为什么不减去3或减去1这样的问题了。)

⑶查T界值表,对应自由度34,T0.05=2.032,T0.01=2.728,今T=4.088>T0.01,即P <0.01,差别有高度显著意义。

T=4.088是如何求出的呢?我们再回到软件《临床医师统计学助手V3.0》,只要把第一组均数(X1)、标准差(S1)、例数(N1)与第二组均数(X2)、标准差(S2)、例数(N2)这6个数据输入对应的框内,该软件就会利用预先存储的公式自动计算T值,并查T界值表,得到P值,如图:

三、配对计量资料T检验

【例3】目的研究音乐胎教对胎儿运动技能培养的效果。方法10例28~32周孕妇,分别记录听音乐(水浒传主题曲)前每小时的胎动次数及听音乐后每小时的胎动次数,结果数据如表1所示,音乐胎教后胎动次数增多,差别有显著意义(p<0.05 )结论音乐胎教可增强胎儿运动技能,对培养我国运动天才有现实意义。

显然【例3】与【例2】有所不同,主要是【例3】两组间的数据可以前后配对的。我们经常碰到这种情况,即同一个体做两次处理,如治疗前检测某一指标,治疗后再检测某一指标,而后做治疗前后配对比较,以判断疗效,正如【例3】。这种情况如何进行统计学处理呢?同样也是先计算T值,然后按自由度(这时自由度=对子数-1,如本例自由度是9。)查T 界值表,求得P值。

但是“配对T检验”计算T值的方法与“两样本均数T检验”有所不同,这里不再作介绍,由软件《临床医师统计学助手V3.0》自动完成即可,如下图。本例T=2.47,自由度=10-1=9,查T界值表,对应自由度9,T0.05=2.26,T0.01=3.25,今T=2.47>T0.05,即P<0.05,差别有显著意义。

可能有人会问,【例3】的情况,也可以把胎教前视为对照组,求得平均胎动次数是:21.8±5.31,胎教后视为治疗组,求得平均胎动次数是:24.0±6.31,然后套用【例2】的方法,用“两样本均数T检验”行不行?这样虽无大错误,但是将会导致检验效率的下降,就是说,如果数据差异较大时,两种方法均可,如果数据差异较小时,用“配对T检验”会显示出差异有意义,而用“两样本均数T检验”时,可能差异无意义。切记,非配对资料误用配对T检验,则是错误的。

四、计数资料卡方检验

【例4】目的研究医患关系对重症病人死亡率的影响。方法根据问卷调查对收住重症监护病房的病人分为“医患关系良好组”与“医患关系紧张组”,比较两组间的住院死亡率。结果“医患关系良好组”25例,住院间死亡3例,死亡率13.6%,“医患关系紧张组”23例,住院间死亡9例,死亡率39.1%,两组间差别有显著意义(p<0.05 )结论医患关系紧张增加重症病人的住院死亡率,可能与医师害怕被病人告而治疗方案趋向保守有关。

【例4】又是一个非常常见的一种统计学数据处理类型。【例4】中所提供的数据是“比例”,

或百分数,与前面三个例子不同,前面三个例子所提供的数据则是直接在病人身上测量到的数据,如收缩压120±10.2mmHg、身高100±15.81cm等,我们把【例4】中的数据叫做计数资料,而【例1、2、3】中的数据叫做计量资料。计数资料无法用X±S形式表示,只能用比例表示,如:死亡率13.6%、30例中显效10例(10/30)等。

显然,对于计数资料,再用T检是不适合了,必须用卡方检验。卡方检验的步骤是:先求出X2(类似于T检验时先求T值)值,然后进行判断:

⑴如果X2<3.84,则P>0.05;

⑵如果X2>3.84,则P<0.05;

⑶如果X2>6.63,则P<0.01。

解释一下,上面的两个数字“3.84”与“6.63”是查“X2界值表”得来的,只要记住即可。

所以,卡方检验的关键是求出X2值。为了求出X2值,必须先介绍“四表格”概念。“四表格”的形式如下,关键数据是a、b、c、d 四个数,X2值就是通过这四个数据计算出来的(这里仍不介绍公式,由软件计算。)。

现将【例4】中的数据填入“四表格”即如下图。

当你学会了填“四表格”数据之后,就能利用软件《临床医师统计学助手V3.0》非常容易的进行卡方检验了,本软件提供与“四表格”完全相同的界面,把数据填写正确之后,就自动计算X2值并判断结果,【例4】X2=4.702>3.84,故P<0.05,如下图:

在此说明一下,大家可能已注意到本软件中出现的“理论数(T)”,在此不解释“理论数(T)”是什么,只要记住,当例数(n)<40或T<1时,应采用“精确概率法”,这个方法太复杂,在此不作介绍。

现在已经讲完了4个实例,掌握本教程的诀窍是将实际中碰的的情况,对照实例,“对号入座”即可,而具体计算过程,可由软件去完成。

医学统计学试题及答案

医学统计学试题及答案 The latest revision on November 22, 2020

医学统计学 一、选择题 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图 C线图 D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是( A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用( A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同

6. 男性吸烟率是女性的10倍,该指标为( A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同 B两总体均数是否不同 C两个总体均数是否相同 D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t 检验时,自由度是( D ) (A) n1+ n2 (B) n1+ n2 –1 (C) n1+ n2 +1 (D) n1+ n2 -2 10、标准误反映( A ) A 抽样误差的大小 B总体参数的波动大小

医学统计学最佳选择题

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 医学统计学最佳选择题 医学统计学最佳选择题一、绪论医学统计学最佳选择题一、绪论 1.下面的变量中,属于分类变量的是 A.脉搏 B.血型C.肺活量 D.红细胞计数 E.血压 2.下面的变量中,属于数值变量的是 A.性别 B.体重 C.血型 D.职业 E.民族 3.下列有关个人基本信息的指标,其中属于有序分类变量的是 A.学历 B.民族 C.职业 D.血型 E.身高 4.若要通过样本作统计推断,样本应是 A.总体中典型的一部分 B.总体中任意部分C.总体中随机抽取的一部分 D.总体中选取的有意义的一部分E.总体中信息明确的一部分 5. 统计量是指 A.是统计总体数据得到的量 B.反映总体统计特征的量 C.是根据总体中的全部数据计算出的统计指标 D.是用参数估计出来的量 E.是由样本数据计算出来的统计指标 6.下列关于概率的说法,错误的是 A.通常用 P 表示 B.大小在 0~1 之间 C.某事件发生的频率即概率 D.在实际工作中,概率是难以获得的 E.某事件发生的概率 P0.05 时,称为小概率事件。 7.减少抽样误差的有效途径是 A.避免系统误差 B.控制随机测量误差 C.增大样本含量 D.减少样本含量 E.以上都不对二、定量资料的统计描述 1.用均数和标准差能用于全面描述下列哪种资料的特征 A.正偏态分布 B.负偏态分布 C.正态分布 D.对数正态分布 E.任意分布 2.当各观察值呈倍数变 1 / 13

医学统计学基本概念

习题-医学统计学基本概念 选择题: 1. 若以舒张期血压大于等于1 2.7kPa 为为高血压,调查某地1000 人,记录每人是否患有高血压。最后清点结果,其中有10 名高血压患者,有990 名非高血压患者。() A.这是计量数据 B.这是等级数据 C.还看不出是记数还是计量数据 D.这是连续型数据 E.这是计数数据 2、统计学中所说的样本是指() A.随意抽取的总体中任意的部分 B.有意识的选择总体中的典型部分 C.依照研究者要求选取总体中有意义的一部分 D.依照随机原则抽取总体中有代表性的一部分 E.按研究目的随意抽取有代表性的一部分 3、下列资料属等级资料的是() A.白细胞计数 B.住院天数 C.门、急症就诊人数 D.病人的病情分级(轻、中、重) E.疾病疗效(有效、无效) 4、总体是由() A.个体组成 B.研究对象组成 C.同质个体组成 D.研究指标组成 E.观察单位组成 5、抽样的目的是() A.研究样本统计量 B.由样本统计量推断总体参数 C.研究典型案例研究误差 D.研究总体参数 E.研究样本特征 6、参数是() A.参与个体数 B.总体的统计指标 C.样本的统计指标 D.样本的总和 E.参考值范围 7、关于随机抽样,下列哪一项说法是正确的() A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽样个体 D.为确保样本具有更好的代表性,样本量应越大越好 E.以上均不对 8、统计工作各个步骤的首要基础是() A.收集资料 B.整理资料 C.核对资料 D.分析资料 E.医学研究设计 9、统计工作的基本步骤是:() A.调查资料、核对资料、整理资料 B调查资料、归纳资料、整理资料 C收集资料、核对资料、整理资料

医学统计学试题及答案

医学统计学试题及答案集团文件发布号:(9816-UATWW-MWUB-WUNN-INNUL-DQQTY-

医学统计学试题及答案 习??题 《医学统计学》第二版??(五年制临床医学等本科生用)(一)??单项选择题 1.观察单位为研究中的( d??)。 A.样本? ?? ??B. 全部对象 C.影响因素? ?? ?????D. 个体2.总体是由( c )。 A.个体组成? ?? ?B. 研究对象组成 C.同质个体组成? ?? ? D. 研究指标组成 3.抽样的目的是(b??)。 A.研究样本统计量? ?? ?? ???B. 由样本统计量推断总体参数 C.研究典型案例研究误差? ???D. 研究总体统计量 4.参数是指(b? ?)。 A.参与个体数? ???B. 总体的统计指标 C.样本的统计指标? ? ??D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的( a )。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A.均数不变,标准差改变? ?? ? B.均数改变,标准差不变 C.两者均不变? ?? ?? ?? ?? ??? D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用( a??)。 A.变异系数? ?? B.差 C.极差? ?? ?? ? D.标准差 8.以下指标中(? ?d)可用来描述计量资料的离散程度。 A.算术均数? ? B.几何均数 C.中位数? ?? ? D.标准差 9.偏态分布宜用(? ?c)描述其分布的集中趋势。 A.算术均数? ?? B.标准差 C.中位数? ?? D.四分位数间距 10.各观察值同乘以一个不等于0的常数后,(? ?b)不变。 A.算术均数? ??? B.标准差 C.几何均数? ?? ???D.中位数 11.( a??)分布的资料,均数等于中位数。 A.对称? ? B.左偏态 C.右偏态? ?? ?? D.偏态 12.对数正态分布是一种( c )分布。

医学统计学 练习题

1、某医院用中药治疗7例再生障碍性贫血患者,现将血红蛋白(g/L)变化的数据列在下面,假定资料满足各种参数检验所要求的前提条件,问:治疗前后之间的差别有无显著性意义(15分) 患者编号1234567 治疗前血红蛋白65755076657268 治疗后血红蛋白821121258580105128 2、活动型结核患者的平均心率一般为86次/分,标准差为次/分。现有一医生测量了36名该院的活动型结核患者的心率,得心率均数为90次/分,标准差为次/分,试问该院活动型结核患者与一般活动型结核患者的心率有无差别 3、某医院将200名乙型肝炎患者随机分为甲、乙两组,各100人。甲组患者用常规治疗法,乙组患者用常规治疗加心理治疗,用一种权威评分法对两组患者的疗效进行评价,结果测得甲组均数为分,标准差为3分,乙组患者均数为分,标准差为4分,问心理治疗有无效果 4、某医院病理科研究人体两肾的重量,20例男性尸解时的左、右肾的称重记

录如下表,问左右肾重量有无不同 20例男性尸解时的左、右肾的称重记录 编号 左肾 (克) 右肾 (克) 编号 左肾 (克) 右肾 (克) 117015011155150 215514512110125 314010513140150 411510014145140 52352221512090 612511516130120 713012017105100 81451051895100 91051251910090 1014513520105125 5、为了研究冠心病与血总胆固醇有无关系,某医生随机收集得冠心病患者和健康人的血总胆固醇(mmol/L)数据如下表,请作分析。 冠心病患者和健康人的血总胆固醇(mmol/L) 组别例数均数标准差 冠心病患者45 健康人46

流行病学与医学统计试题及答案【通用】.doc

全科岗位培训统计与流行病学试题 单位学号姓名得分 请从A、B、C、D、E 5个备选答案中选择一个正准答案。 1.下面的变量中,属于定性变量的是(B) A.脉搏 B.血型 C.肺活量 D.身高 E.体重 2.下面的变量中,属于定量变量的是(D) A.种族 B.性别 C.职业 D.血压 E.白细胞分类 3.关于统计量的描述,正确的是(C) A.是统计总体数据得到的量 B.反映总体统计特征的量 C.是由样本数据计算出的统计指标 D.总体中信息明确的一部分 E.总体参数的估计值 4.常见的统计资料类型包括(E) A.定量资料 B.分类资料 C. A和B都是 D. A和B都不是 E.定量资料、分类资料、等级资料 5.如果在区域卫生规划中,随机调查了10个社区服务中心的资料,其中有8个已经实现了规划目标,达到80%规划完成率,该资料属于(C) A.定量资料 B.总体资料 C.分类资料 D.等级资料 E.无法判断 6.统计工作的基本步骤包括(D) A.设计、分析 B.收集、整理 C. A和B都不是 D. A和B都是 E.数据分析与整理 7.按随机化原则抽取的样本对总体有较好的(E) A.典型性 B.随意性 C.控制性 D.限制性 E.代表性 8.用图表示某地区近30年三种疾病的发病率在各年度的动态发展速度情况,应绘制(B) A.普通线图 B.半对数线图 C.直条图 D.直方图 E.百分条图 9.下列属于描述定量变量集中趋势的指标是(A) A.几何均数 B.全距 C.标准差 D.百分位数 E.四分位数间距 )的条件下,样本标准差的大小(D) 10.在服从正态分布N(μ,2

A.与集中趋势有关 B.与观察例数无关 C.与算术均数有关 D.与个体的变异程度有关 E.以上都不对 11.编制频数表的时候要求(C) A.组距一定要相等 B.组段越多越好 C.组距不一定要相等 D. A和B都是 E. B和C都是 12.如果一组数据没有起始值或者截尾值,应该用什么描述其集中趋势(E) A.几何均数 B.算术均数 C.百分位数 D.标准差 E.中位数 13.四分位间距适用于何种资料(D) A.偏态分布 B.正态分布 C.对称分布 D.任何分布 E.对数正态分布 14.对于临床上计算尿铅的95%正常值可用哪个百分位数表示(A) A. P0~P95 B. P2.5~P97.5 C. P5~P95 D. P5~P100 E. P5~P95 15.一般比较婴儿和成人的体重变异度大小用哪个指标好(A) A.变异系数 B.方差 C.标准差 D.标准误 E.离均差平方和 16.某地疾病构成情况应该画(C) A.直方图 B.线图 C.百分条图或圆图 D.直条图 E.半对数线图 17.现测得10名乳腺癌患者化疗后血清尿素氮含量(mmol/L)分别为3.25,3.96, 4.38,4.01, 5.16,4.21,3.78,4.05,4.17,4.12,其均数、中位数为(E) A. 2.55,3.22 B. 3.67,3.98 C. 4.03,4.52 D. 4.22,4.23 E. 4.11,4.085 18.下表为10例垂体催乳素微腺瘤的病人手术前后的血催乳素浓度,用何种指标比较手术前后数据的变异情况较为合适(E) 手术前后患者血催乳素浓度(ng/ml) 例号血催乳素浓度 例号 血催乳素浓度 术前术后术前术后 1 276 41 6 266 43 2 880 110 7 500 25 3 1600 280 8 1760 300 4 324 61 9 500 215 5 398 105 10 220 92 A.标准差 B.四分位数间距 C.方差 D.全距 E.变异系数 19.现有某病患者200人,其中儿童20人,成年人180人,分别占10%和90%,则(E)

医学统计学最佳选择题

医学统计学最佳选择题 一、绪论 1、下面的变量中,属于分类变量的就是 A、脉搏 B、血型 C、肺活量 D、红细胞计数 E、血压 2、下面的变量中,属于数值变量的就是 A、性别 B、体重 C、血型 D、职业 E、民族 3、下列有关个人基本信息的指标,其中属于有序分类变量的就是 A、学历 B、民族 C、职业 D、血型 E、身高 4、若要通过样本作统计推断,样本应就是 A、总体中典型的一部分 B、总体中任意部分 C、总体中随机抽取的一部分 D、总体中选取的有意义的一部分 E、总体中信息明确的一部分 5、统计量就是指 A、就是统计总体数据得到的量 B、反映总体统计特征的量 C、就是根据总体中的全部数据计算出的统计指标 D、就是用参数估计出来的量 E、就是由样本数据计算出来的统计指标 6、下列关于概率的说法,错误的就是 A、通常用P表示

B、大小在0~1之间 C、某事件发生的频率即概率 D、在实际工作中,概率就是难以获得的 E、某事件发生的概率P≤0、05时,称为小概率事件。 7、减少抽样误差的有效途径就是 A、避免系统误差 B、控制随机测量误差 C、增大样本含量 D、减少样本含量 E、以上都不对 二、定量资料的统计描述 1.用均数与标准差能用于全面描述下列哪种资料的特征 A、正偏态分布 B、负偏态分布 C、正态分布 D、对数正态分布 E、任意分布 2.当各观察值呈倍数变化(等比关系)时,平均数宜用 A、均数 B、几何均数 C、中位数 D、相对数 E、四分位数间距 3、某医学资料数据大的一端没有确定数值,描述其集中趋势适用的 统计指标就是 A、M B、G C、X D、P95 E、CV 4、对于正态分布的资料 ,理论上 A、均数比中位数大

医学统计学练习题与答案

一、单向选择题 1. 医学统计学研究的对象是 E.有变异的医学事件 2. 用样本推论总体,具有代表性的样本指的是E.依照随机原则抽取总体中的部分个体 3. 下列观测结果属于等级资料的是 D.病情程度 4. 随机误差指的是 E. 由偶然因素引起的误差 5. 收集资料不可避免的误差是 A.随机误差 1.某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是 A. 中位数 2. 算术均数与中位数相比,其特点是 B.能充分利用数据的信息 3. 一组原始数据呈正偏态分布,其数据的特点是 D.数值分布偏向较小一侧 4. 将一组计量资料整理成频数表的主要目的是E.提供数据和描述数据的分布特征 1. 变异系数主要用于 A .比较不同计量指标的变异程度 2. 对于近似正态分布的资料,描述其变异程度应选用的指标是E. 标准差 3.某项指标95%医学参考值范围表示的是D.在“正常”总体中有95%的人在此范围 4.应用百分位数法估计参考值范围的条件是B .数据服从偏态分布 5.已知动脉硬化患者载脂蛋白B 的含量(mg/dl)呈明显偏态分布,描述其个体差异的统计指标应使用 E .四分位数间距 1.样本均数的标准误越小说明 E.由样本均数估计总体均数的可靠性越大 2. 抽样误差产生的原因是D.个体差异 3.对于正偏态分布的的总体,当样本含量足够大时,样本均数的分布近似为C.正态分布 4. 假设检验的目的是 D.检验总体参数是否不同 5. 根据样本资料算得健康成人白细胞计数的95%可信区间为7.2×109 /L ~9.1×109 /L ,其含义是 E.该区间包含总体均数的可能性为95% 1. 两样本均数比较,检验结果05.0 P 说明 D.不支持两总体有差别的结论 2. 由两样本均数的差别推断两总体均数的差别, 其差别有统计学意义是指 E. 有理由认为两总体均数有差别 3. 两样本均数比较,差别具有统计学意义时,P 值越小说明 D.越有理由认为两总体均数不同 4. 减少假设检验的Ⅱ类误差,应该使用的方法是 E.增加样本含量 5.两样本均数比较的t 检验和u 检验的主要差别是B.u 检验要求大样本资料

流行病学与医学统计学

流行病学 一、流行病学概述 1、流行病学主要是研究疾病和健康状态和事件在人群中的分布和影响分布的因素以及防制对策的学科。流行病学与临床医学的区别在于研究疾病的病因学。 2、疾病的分布:以疾病的频率为指标,描述疾病在不同人群、不同时间、不同地点的分布现象。(简称疾病的三间分布)。 (1)研究疾病分布的意义:获得与病因假设有关的资料及与流行因素有关的资料;判断疾病的传染性;疾病流行规律和特点;可为分析流行病学研究提供基础信息 (2)时间分布特征:短期波动;季节性;周期性;长期变异。 (3)地区分布的表现形式:全球性(世界性);地方性(endemic);局部地区分布。研究疾病的地区分布时可按自然因素的差异、社会因素的差异、行政区划的不同来分析、国家间、国内和城乡间的不同来分析。 二、流行病学常用的指标 1、率(rate ):表示在一定条件下某现象实际发生的例数与可能发生该现象的总例数之比,来说明单位时间内某现象发生的频率或强度。 2、比(ratio) :两个数相除所得的值,说明两者的相对水平,常用倍数或百分比表示。 3、构成比(proportion):说明某一事物内部各组成部分所占的比重或分布,常以百分数表示。 4、反映发病及患病水平的指标: (1)发病率:表示一定期间内(通常1年)特定人群中发生某病新病例出现的频率。 (2)患病率:亦称现患率,流行率。特定时间内一定人群中某病新旧病病例数所占的比例。 (3)罹患率(attack rate):在某一局限范围,短时间内的发病率。 k ?=同时期暴露人口数某病新病例数一定期间内的某人群中发病率 k ?=同期观察人口数病新旧病例数特定时间内某人群中某患病率 患病率与发病率的区别 比较项目 患病率 发病率 分 子 新旧病例总和 新发病例数 获得渠道 横断面调查 发病报告或队列研究 指标性质 静态指标 动态指标

医学统计学最佳选择题

医学统计学最佳选择 一、绪论 1. 下面的变量中,属于分类变量的是 A. 脉搏 B. 血型 C. 肺活量 D. 红细胞计数 E. 血压 2. 下面的变量中,属于数值变量的是 A. 性别 B. 体重 C. 血型 D. 职业 E. 民族 3. 下列有关个人基本信息的指标,其中属于有序分类变量的是 A. 学历 B. 民族 C. 职业 D. 血型 E. 身高 4. 若要通过样本作统计推断,样本应是 A. 总体中典型的一部分 B. 总体中任意部分 C. 总体中随机抽取的一部分 D. 总体中选取的有意义的一部分 E. 总体中信息明确的一部分 5. 统计量是指

A. 是统计总体数据得到的量 B. 反映总体统计特征的量 C. 是根据总体中的全部数据计算出的统计指标 D. 是用参数估计出来的量 E. 是由样本数据计算出来的统计指标 6. 下列关于概率的说法,错误的是 A. 通常用P 表示 B. 大小在0?1之间 C .某事件发生的频率即概率 D. 在实际工作中,概率是难以获得的 E. 某事件发生的概率P< 0.05时,称为小概率事件。 7. 减少抽样误差的有效途径是 A. 避免系统误差 B. 控制随机测量误差 C. 增大样本含量 D. 减少样本含量

E. 以上都不对 二、定量资料的统计描述 1用均数和标准差能用于全面描述下列哪种资料的特征 A. 正偏态分布 B. 负偏态分布 C. 正态分布 D.对数正态分布 E. 任意分布 2. 当各观察值呈倍数变化(等比关系)时,平均数宜用 A.均数 B.几何均数 C.中位数 D.相对数 E.四分位数间距 3. 某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是 A. M B. G C. X D. P95 E. CV 4. 对于正态分布的资料,理论上 A.均数比中位数大 B. 均数比中位数小 C. 均数等于中位数 D. 均数与中位数无法确定孰大孰小 E. 以上说法均不准确 5. 当资料两端含有不确定值时,描述其变异度宜采用

《医学统计学》第6版单项选择题

《医学统计学》单项选择题 摘自:李康,贺佳主编.医学统计学.第6版.北京:人民卫生出版社,2013 第一章绪论 1. 医学统计学研究的对象是() A. 医学中的小概率事件 B. 各种类型的数据 C. 动物和人的本质 D. 有变异的医学事物 E.疾病的预防与治疗 2. 用样本推论总体,具有代表性的样本通常指的是() A.总体中最容易获得的部分个体B.在总体中随意抽取任意个体 C.挑选总体中的有代表性的部分个体D.用方法抽取的部分个体 E.依照随机原则抽取总体中的部分个体 3. 下列观测结果属于有序数据的是() A.收缩压测量值B.脉搏数 C.住院天数D.病情程度 E.四种血型 4. 随机误差指的是() A. 由某些固定因素引起的误差 B. 由不可预知的偶然因素引起的误差 C. 选择样本不当引起的误差 D. 选择总体不当引起的误差 E. 由操作失误引起的误差 5. 系统误差指的是() A. 由某些固定因素引起的误差 B. 由操作失误引起的误差 C. 选择样本不当引起的误差 D. 样本统计量与总体参数间的误差 E. 由不可预知的偶然因素引起的误差 6. 抽样误差指的是() A. 由某些固定因素引起的误差 B. 由操作失误引起的误差 C. 选择样本不当引起的误差 D. 样本统计量与总体参数间的误差 E. 由不可预知的偶然因素引起的误差 7. 收集资料不可避免的误差是() A. 随机误差 B. 系统误差 C. 过失误差 D. 记录误差 E.仪器故障误差

8. 统计学中所谓的总体通常指的是() A. 自然界中的所有研究对象 B. 概括性的研究结果 C. 同质观察单位的全体 D. 所有的观察数据 E.具有代表性意义的数据 9. 医学统计学中所谓的样本通常指的是 A. 可测量的生物样品 B. 统计量 C. 某一变量的测量值 D. 数据中有代表性的一部分 E.总体中有代表性的部分观察单位 10. 医学研究中抽样误差的主要来源是() A. 测量仪器不够准确 B. 检测出现错误 C. 统计设计不够合理 D. 生物个体的变异 E.样本量不够 答案:1.D 2.E 3.D 4.B 5.A 6.D 7.A 8.C 9.E 10.D 第二章定量数据的统计描述 1. 某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是() A. 中位数 B. 几何均数 C. 均数 D. P95百分位数 E. 频数分布 2. 算术均数与中位数相比,其特点是() A.不易受极端值的影响B.能充分利用数据的信息 C.抽样误差较大D.更适用于偏态分布资料 E.更适用于分布不明确资料 3. 将一组计量资料整理成频数表的主要目的是 A.化为计数资料 B. 便于计算 C. 提供原始数据 D. 为了能够更精确地检验 E. 描述数据的分布特征 4. 6人接种流感疫苗一个月后测定抗体滴度为1:20、1:40、1:80、1:80、1:160、1:320,求平均滴度应选用的指标是 A. 均数 B. 几何均数 C. 中位数 D. 百分位数 E. 倒数的均数 5. 变异系数主要用于() A. 比较不同计量指标的变异程度 B. 衡量正态分布的变异程度 C. 衡量测量的准确度 D. 衡量偏态分布的变异程度 E. 衡量样本抽样误差的大小

第五章流行病学和医学统计学基本知识练习

第五章流行病学和医学统计学基本知识 练习(一) 单选题 1.比较身高和体重两组数据变异度大小宜采用() A变异系数 B方差 C极差 D标准差 2.用某种诊断方法判断为阳性的人中,实际有病的人所占的比例称() A.灵敏度 B特异度 C阳性预测值 D阴性预测值 3.-组变量值的标准差将() A.随变量值的个数n的增大而增大 B随变量值的个数n的增加而减小 C随变量值之间的变异增大而增大 D随系统误差的减小而减小 4.各观察值均加(或减)一个常数后() A均数不变,标准差改变 B均数改变,标准差不变 C两者均不变 D两者均改变 多选题 1.对一项新的诊断试验进行研究和评价时,其评价标准应注意() A同金标准诊断方法进行同步盲法比较B有足够的样本量 C诊断界值的确定要合理 D要评价真实性和可靠性 E注意研究对象的代表性 2.下列属于描述性研究方法的有() A病例对照研究 B队列研究 C现况研究D筛检 E生态学研究 3.筛检的主要用途() A诊断疾病 B治疗疾病 C预防疾病 D开展监测 E了解疾病自然史 4.绘制统计图的基本要求有() A.要有标题,位于图体下方中央位置B绘制有坐标轴的图形纵横轴要有标目 C要有备注 D同一张图内比较要用不同颜色或样式的线条E纵横轴比列以5:7为宜5.以下哪些为分析性研究() A生态学研究B横断面研究 C病例对照研究D社区干预试验

E队列研究6.对统计推断的假设检验说法正确的是() A.是统计推断的核心 B利用一个样本信息判断另一个样本特征 Ct检验、方差分析属参数检验 D秩和检验属非参数检验 E把需要判断的总体特征称作假设 7.流行病学的主要特征有() A.群体特征B以分布为起点的特征C社会医学的特征D对比的特征E预防为主的特征 8.一般来说哪些疾病可进行筛检() A.对该疾病可采用有效的第三级预防措施 B人群患病率高 C易于诊断但无治疗方法的疾病 D借医学干预能改变自然史的疾病E°检程序比较复杂 9.发病率常用于() A.评价慢性病的控制效果 B反映得病的风险C描述疾病的分布 D探讨发病因素 E提出病因假设 10.描述变量值集中趋势的统计学指标包括D评价疾病的防治效果 A算术平均数 B调和平均数C中位数 D几何平均数 E百分位数 11.下面关于实验性研究的说法正确的是() A实验性研究属于前瞻性研究 B与观察性研究根本的不同之处是有人为干预措施 C某种疾病的危险因素分布广泛不易确定高危人群时需采用社区试验 D研究对象可以进行随机分组 E通常设有对照组 12.关于队列研究的叙述,下列哪些选项是正正确的是() A前瞻性队列研究的观察方向是从“因”到果 B历史性队列研究的观察方向是从“因”到果 C历史性队列研究的观察方向是从“果”到因 D历史性队列研究的“因”与“果”同时出现 E历史性队列研究的“因”与“果”可能都已存在 13.以下属于计量资料的有() A.身高 B体重 C血细胞计数 D某病阳性人数 E心电图 14.现况调查的目的和用途有() A描述疾病的分布特点 B早期发现病人 C直接验证病因假设E治疗病人 15.医学统计工作的基本步骤包括()

医学统计学试题及答案

第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图C线图D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6. 男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同B两总体均数是否不同C两个总体均数是否相同D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2(B)n1+ n2–1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r,对回归系数检验的t值为t b,二者之间具有什么关系?(C) A t r>t b B t rχ20.05,ν可认为(A ) A各总体率不同或不全相同 B各总体率均不相同C各样本率均不相同 D各样本率不同或不全相同 15、某学院抽样调查两个年级学生的乙型肝炎表面抗原,其中甲年级调查35人,阳性人数4人;乙年级调查40人,阳性人数8人。该资料宜选用的统计方法为( A ) A.四格表检验 B. 四格表校正检验 C t检验 D U检验 16、为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着(D ) A 南方和北方女婴出生体重的差别无统计学意义 B 南方和北方女婴出生体重差别很大

【名师精品】健康管理师练习题:第五章流行病学和医学统计学基本知识

第五章流行病学和医学统计学基本知识 1队列研究属于以下哪种流行病学研究方法() ?A描述性研究 ?B分析性研究 ?C实验性研究 ?D理论性研究 2下列哪一条是队列研究的缺点() ?A样本代表性差,易产生选择性偏倚 ?B不能计算发病率 ?C不适用于罕见病的研究 ?D暴露测量不可靠,易产生信息偏倚 3一组变量值的标准差将() ?A随变量值的个数N的增大而增大 ?B随变量值的个数N的增加而减小 ?C随变量值之间的变异增大而增大 ?D随系统误差的减小而减小 4关于流行病学,下面错误的说法是() ?A它的研究对象是人群 ?B它属于预防医学的范畴 ?C它已深入临床医学的研究中 ?D它只研究传染病 5对一项新的诊断试验进行研究和评价时,其评价标准应注意() ?A同金标准诊断方法进行同步盲法比较

?B有足够的样本量 ?C诊断界值的确定要合理 ?D要评价真实性和可靠性 ?E注意研究对象的代表性 6将未患某病而有或无暴露因素的人群作为研究对象,其研究是() ?A队列研究 ?B病例对照研究 ?C现况研究 ?D普查 7病例对照研究的特点主要有() ?A研究开始时已有一批可供选择的病例 ?B研究对象按发病与否分成病例组与对照组 ?C被研究因素的暴露状况是通过回顾获得的 ?D是由因及果的推理顺序 ?E经两组暴露率或水平比较,分析暴露与疾病的联系 8一般来说哪些疾病可进行筛检() ?A对该疾病可采用有效的第三级预防措施 ?B人群患病率高 ?C易于诊断但无治疗方法的疾病 ?D借医学干预能改变自然史的疾病 ?E筛检程序比较复杂 9一项病例对照研究,400名病例中有暴露史者200例,而400名对照中有暴露史者100例,有暴露史的发病率()

医学统计学总复习练习题(含答案)

一、最佳选择题 1.卫生统计工作的步骤为C A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有D A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括E A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指B A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指B

A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用D A.全距 B.标准差 C.变异系数 D.四分位数间距 E.方差 7.用均数与标准差可全面描述其资料分布特点的是C A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用A A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是C A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有B A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有 11.正态分布曲线下右侧5%对应的分位点为D

医学统计学课后选择题

医学统计学课后选择题

第一章。 1.医学统计学研究的对象是 A.医学中的小概率事件 B.各种类型的数据 C.动物和人的本质 D.有变异的医学事物 E.残疾的预防与治疗 2.用样本推断总体具有代表性的样本,通常指的 是 A.总体中最容易获得的部分个体 B.在总体中随意抽取的任意一个 C.挑选总体中的有代表性的部分个体 D.用方法抽取的部分个体 E.依照随机原则抽取总体中的部分个体 3.下列观测结果属于有序数据的是 A.收缩压测量值 B.脉搏数 C.住院天数 D.病情程度 E.四种血型 4.随机测量误差指的是 A.有某些固定的因素引起的误差

B.由不可预知的偶然因素引起的误差, C.选择样本不当引起的误差 D.选择总体不当引起的误差 E.由操作失误引起的误差 5.系统误差指的是 A.有某些固定的因素引起的误差, B.由操作失误引起的误差 C.选择样本不当引起的误差 D.样本统计量与总体参数之间的误差 E.由不可预知的偶然因素引起的误差 6.抽样误差指的是 A.有某些固定的因素引起误差 B.由操作失误引起的误差 C.选择样本不当引起的误差 D.样本统计量与总体参数间的误差 E.由不可预知的偶然因素引起的误差 7.收集数据不可避免的误差 A.随机误差 B.系统误差 C.过失误差, D.记录误差 E.仪器故障误差

8.统计学中所谓的总体通常指的 A.自然界中的所有研究对象 B.概括性的研究结果, C.同质观察单位的全体 D.所有的观察数据 E.具有代表性意义的数据 9.统计学中所谓的样本通常是 A.可测量的生物性样品 B.统计量 C.某一变量的测量值 D.数据中有代表性的一部分 E.总体中有代表性的部分观察单位 10.10.医学研究中抽样误差的主要来源是 A.测量仪器不够准确, B.检验出现错误 C.统计设计不合理 D.生物个体的变异 E.样本不够 第二章 1.某医学资料数据大的一端没有确定数值描述 其集中趋势适用的统计指标 A.中位数

第五章 流行病学和医学统计学基本知识

第五章流行病学和医学统计学基本知识 单项选择 1.关于流行病学,下面错误的说法是 A.它的研究对象是人群 B.它属于预防医学的范畴 C.它己深入临床医学的研究中 E.它只研究传染病 正确答案:D 2.一项病例对照研究,400 名病例中有暴露史者 200 例,而 400 名对照中有暴露史者 100 例, 有暴露史的发病率 A.0.7 B.0.5 C.0.4 D.无法计算 正确答案:D 3.某社区年均人口为 10 万,年内共死亡 150 人,其中 60 岁以上死亡 100 人,在全部死亡者 中,因肿瘤死亡的人数为 50 人,该社区肿瘤死亡率为 A.0.0017 B.0.3333 C.0.0033 D.0.0005 正确答案:D 4.某种疾病的病死率指 A.该病的死亡专率 B.该疾病的死亡结果 C.该病死亡在各种死亡中的比例 D.该病患者的死亡百分比 正确答案:D 5.在某地进行男性吸烟与膀胱癌关系的研究,资料如下:吸烟组膀胱癌发病率为 48.0/110 万, 不吸烟组膀胱癌发病率为 25.4/10 万。根据该资料,男性吸烟与否与膀胱癌的关系的相对 危险度是 A.48 B.48.0-25.4=22.6 C.48.0÷25.4=1.89 D.(48.0-25.4)÷48.0 正确答案:C 6.对于病因未明的疾病,现况研究的主要任务是 A.确定病因 B.验证病因 C.发现病因线索 D.进行病因推断 正确答案:C 7.下列哪一条是队列研究的缺点A.样本代表性差,易产生选择性偏倚 B.不能计算发病率 C.不适用于罕见病的研究 D.暴露测量不可靠,易产生信息偏倚 正确答案:C 8.队列研究属于以下哪种流行病学研究方法 A.描述性研究 B.分析性研究 C.实验性研究 D.理论性研究 正确答案:B 9.某人研究新生儿黄疸的病因,选择了 100 例确诊的病例,和同期医院没有黄疸的新生儿 100 例,然后调査产母的分娩卡片以及产前和产时各种情况。这种研究方法是 A.双向性队列研究 B.前瞻性研究 C.临床随访研究 D.病例对照研究 正确答案:D 10.用某种诊断方法判断为阳性的人中,实际有病的人所占的比例称 A.灵敏度 B.特异度 C.阳性预测值 D.阴性预测值 正确答案:C 11.研究人员测量了 100 例患者外周血的红细胞数,所得资料类型是 A.计数资料 B.计量资料 C.等级资料 D.二项分布资料 正确答案:B 12.医学统计学的研究对象是 A.医学中的小概率事件 B.具有不确定的医学数据 C.动物和人的本质 D.各种类型的数据 正确答案:B 13.统计分析的主要内容有 A.描述性统计和统计学检验 B.统计描述和统计推断 C.统计图表和统计报告 D.描述性统计和分析性统计 正确答案:B 14.统计学中的总体是指 A.根据硏究目的确定的同质观察单位的全体 B.根据地区划分的研究对象的全体

医学统计学基本概念[资料]

医学统计学基本概念 1.医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门应用科学。 2.统计工作的步骤:(1)设计(2)收集资料(3)整理资料(4)分析资料;或者分三步:(1)研究设计(2)资料分析(3)结论。 3.定量资料:又称为数值变量资料,特点:(1)各观察值之间有量的差别;(2)数据间有连续性。它是指变量的取值不止是可列个,而是可取某区间[a,b],(-oo,oo) 上的一切值。 4.定性资料:又称为分类资料、分类变量资料(包括二项分类、多项分类资料),特点:(1)各观察值之间有质的差别;(2)数据间有离散性。它是指变量的取值有 限的,至多是可列多个。附:无序分类:二项分类、多项分类 5.等级资料:又称为半定量资料,有序分类,指各类之间有程度的差别。特点:()各观察单位间或者相同,或者存在质的差别;(2)各等级间只有顺序,而无数值 大小,故等级之间不可度量。 6.个体individual:即每个观察单位。 7.总体population:根据研究目的确定的同质观察单位的全体。 8.样本:是从总体中随机抽取部分观察单位,其实测值的集合。样本包含的观察单位数称为样本含量或样本大小。 9.参数parameters:描述某总体特征的统计指标称为总体参数,简称参数。如总体均数、总体标准差等。特点:参数是未知的,固有的,不变的! 10.统计量:描述某样本特征的的统计指标称为样本统计量,简称统计量。特点:统计量是已知的,变化的,有误差的! 11.概率probability:是描述随机事件发生的可能性大小的数值。常用P表示。它的大小界于0和1之间。 12.随机事件:(1)可重复性:相同条件下可重复进行;(2)随机性:出现两种机两种以上结果;(3)偶然性:实验前不能肯定将出现哪种结果。 13.频率的稳定性:在重复试验中,事件A的频率随着试验次数的不断增加将愈来愈接近一个常数p,频率的这一特性称为频率的稳定性。 14.概率的统计定义:频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性,因而是可以被认识和度量的。这个常数p就称为事件A出现的概 率(probability),记作P(A) 或P。这一定义称为概率的统计定义。它是事件A发生的可能性大小的一个度量。容易看出,频率为一变量,是样本统计量,而概率为常数,是一总体参数。实践中,当试验次数足够多时,可以近似地将频率作为概率的一个估计。 15.小概率原理:当某事件发生的概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能 发生,此即为小概率原理。 16.同质(homogeneity):性质相同的事物称为同质的。 17.变异(variation):同质的事物内个体之间或同一个体重复测量间的差别称为变异。 18.参考值范围(reference interval)又称正常值范围(normal range)。由于正常人的形态、功能、生化等各种指标的数据因人而异,而且同一个人的某些指标还会随着时间、 机体内外环境的改变而变化,因此需要确定其波动范围,即正常值范围,简称正常值(normal value)。 19.正常值范围(normal ranges),是指绝大多数正常人的某指标范围。 20.抽样误差(sampling error):由于抽样造成的样本统计量和总体参数之间的差异。 21.标准误(standard error):样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。 22.参数估计:由样本信息估计总体参数称为参数估计,包括点估计和区间估计。 23.点估计(point estimation) :直接用样本统计量作为总体参数的估计值。这种估计方法简单,但未考虑抽样误差的大小。 24.区间估计(interval estimation) :按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度为1-α的可信区间(confidence interval, CI),又 称置信区间。这种估计方法称为区间估计。 25.可信度为1-α的可信区间的确切涵义是:每100个样本所算得的100(1-α)%可信区间,平均有100(1-α)个包含了总体参数。如取α=0.05,则每100个样本所算得 的100个95%可信区间,平均有95个包含总体参数在内,有5个不包含总体参数。 26.可信区间的两个要素:第一个要素是可靠性,常用可信度1-α的大小表示;第二个要素是精确性,常用可信区间的长度CU-CL衡量。 27.均数95%可信区间,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按(见课本P42)构建可信区间,则在此100个可信区间内, 理论上有95个包含总体均数,而有5个不包含总体均数。 28.可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。这里的95%,指的是方法本身!而不是某个区间! 29.第一类错误(I型错误):拒绝了实际上成立的H0假设,称为“假阳性”, 用α来表示。 30.第二类错误(II型错误):不拒绝实际上不成立的H0,称为“假阴性”,用β来表示。 31.检验效能(power of a test)或检验功效:1-β称检验效能(power of a test),过去称把握度。为当两总体确有差异,按检验水准α所能发现该差异的能力。1-β只取单 尾。 32.完全随机设计:根据某一试验因素,将试验对象完全按随机设计分为若干个组,每个组的样本例数可以相等,也可以不等,分别求出各组试验结果的均数,即为 单因素多个样本均数,单个因素可以有多个水平,R>2 33.随机区组设计又称配伍组设计(Random Block Design):即两因素多个样本均数的比较(或称两因素方差分析,two way analysis of variance)。 34.绝对数:在计数资料中,各组的观察数称绝对数。 35.相对数:是两个有联系的指标的比,计数资料的统计描述主要是相对数(relative number)。 36.率(rate):说明某现象发生的频率或强度,常用%、‰、1/万、1/10万等作单位,表示在一定范围内,某现象的发生数与可能发生某现象的总数之比。率的结果常 以保留1-2位整数为宜。

相关文档
最新文档