卫生统计学重点笔记之欧阳家百创编
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医师资格考试蓝宝书预防医学
欧阳家百(2021.03.07)
医学统计学方法
第一节基本概念和基本步骤(非常重要)
一、统计工作的基本步骤
设计(最关键、决定成败)、搜集资料、整理资料、分析资料。
总体:根据研究目的决定的同质研究对象的全体,确切地说,是性质相同的所有观察单位某一变量值的集合。总体的指标为参数。
实际工作中,经常是从总体中随机抽取一定数量的个体,作为样本,用样本信息来推断总体特征。样本的指标为统计量。
由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,这种由抽样引起的差异称为抽样误差。抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。
某事件发生的可能性大小称为概率,用P表示,在0~1之间,0和1为肯定不发生和肯定发生,介于之间为偶然事件,
<0.05或0.01为小概率事件。
二、变量的分类
变量:观察单位的特征,分数值变量和分类变量。
第二节数值变量数据的统计描述(重要考点)
一、描述计量资料的集中趋势的指标有
1.均数均数是算术均数的简称,适用于正态或近似正态分布。
2.几何均数适用于等比资料,尤其是对数正态分布的计量资料。对数正态分布即原始数据呈偏态分布,经对数变换后(用原始数据的对数值lgX代替X)服从正态分布,观察值不能为0,同时有正和负。
3.中位数一组按大小顺序排列的观察值中位次居中的数值。可用于描述任何分布,特别是偏态分布资料的集中位置,以及分布不明或分布末端无确定数据资料的中心位置。不能求均数和几何均数,但可求中位数。百分位数是个界值,将全部观察值分为两部分,有X%比小,剩下的比大,可用于计算正常值范围。
二、描述计量资料的离散趋势的指标
1.全距和四分位数间距。
2.方差和标准差最为常用,适于正态分布,既考虑了离均差(观察值和总体均数之差),又考虑了观察值个数,方差使原来的单位变成了平方,所以开方为标准差。均为数值越小,观察值
的变异度越小。
3.变异系数多组间单位不同或均数相差较大的情况。变异系数计算公式为:CV=s/×100%,公式中s为样本标准差,为样本均数。
三、标准差的应用
表示观察值的变异程度(或离散程度)。
在两组(或几组)资料均数相近、度量单位相同的条件下,标准差大,表示观察值的变异度大,即各观察值离均数较远,均数的代表性较差;反之,表示各观察值多集中在均数周围,均数的代表性较好。(常考!)
四、医学参考值的计算方法,单双侧问题,医学为95%
医学参考值是指正常人体或动物体的各种生理常数,由于存在变异,各种数据不仅因人而异,而且同一个人还会随机体内外环境的改变而改变,因而需要确定其波动的范围,即正常值范围。
医学参考值的计算公式:①正态分布资料95%医学参考值:±1.96s(双侧);+1.645s或 1.645s(单侧),s为标准差。
②百分位数法P2.5和P97.5(双侧);P5或P95(单侧)。
第三节数值变量数据的统计推断(重要考点)
一、标准误,标准误与标准差和样本含量的关系
标准差和标准误的区别。
样本标准误等于样本标准差除以根号下样本含量。标准误与标准差成正比;与样本含量的平方根成反比。因此。为减少抽样误差,应尽可能保证足够大的样本含量。
样本标准差与样本标准误是既有联系又有区别的两个统计量,二者的联系是公式:二者的区别在于:样本标准差是反映样本中各观测值X1,X2,……,Xn变异程度大小的一个指标,它的大小说明了对该样本代表性的强弱。样本标准误是样本平均数1,2,……的标准差,它是抽样误差的估计值,其大小说明了样
本间变异程度的大小及精确性的高低。(掌握!)
二、t分布和标准正态u分布关系
均以0为中心左右两侧完全对称的分布,只是t分布曲线顶端较u分布低,两端翘。(v逐渐增大,t分布逐渐逼近u分布)。
正态分布的特点:①以均数为中心左右两侧完全对称分布;
②两个参数,均数u(位置参数)和s(变异参数);③对称均数的两侧面积相等。
三、总体均数的估计
样本统计量推算总体均数有两个重要方面:区间估计和假设检验。样本均数估计总体均数称点估计。
总体均数区间估计(可信区间)的概念:按一定的可信度估计未知总体均数所在范围。其统计上习惯用95%(或99%)可信区间表示总体均数μ有95%(或99%)的可能在某一范围。可信区间的两个要素,一为准确度,反映在可信度1α的大小,即区间包含总体均数的概率大小,当然愈接近1愈好;二是精度,反映在区间的长度,当然长度愈小愈好。在样本例数确定的情况下,二者是矛盾的,需要兼顾。
总体均数可信区间的计算方法:
1.当n小按t分布的原理用式计算可信区间为:±tα/2,vS
2.当n足够大因n足够大时,t分布逼近μ分布,按正态分布原理。用式估计可信区间为:±μα/2S
可信区间与医学参考值范围的区别:二者的意义和算法不同。
四、假设检验的步骤
1.建立假设:H0(无效,两样本代表的总体均数相同),H1(备择,两样本来自不同总体),当拒绝H0就接受H1,不拒绝就不接受H1。
2.确定显著性水平:区分大概率和小概率事件的标准,通常取α=0.05。
3.计算统计量:根据资料类型和分析目的选择适当的公式计算。
4.确定概率P值:将计算得到的t值或u值查界值表得到P值和α值比较。
5.做出推断结论。
|t|值、P值与统计结论
五、两均数的假设检验(常考!)
1.样本均数与总体均数比较u检验和t检验用于样本均数与总体均数的比较。理论上要求样本来自正态分布总体实际中,只要样本例数n较大,或n小但总体标准差σ已知,就选用u检验。n 较小且σ未知时,用于t检验。两样本均数比较时还要求两总体方差等。
以算得的统计量t,按表所示关系作判断。
2.配对资料的比较在医学研究中,常用配对设计。配对设计