医学统计学知识点汇总
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学统计学总结
绪论
1、随机现象:在同一条件下进行试验,一次试验结果不能确定,而在一定数量的重复试验之后呈现统计规律的现象。
2、同质:统计学中对研究指标影响较大的,可以控制的主要因素。
3、变异:同质基础上各观察单位某变量值的差异。
数值变量:变量值是定量的,由此而构成的资料称为数值变量资料或计量资料,其数值是连续性的,称之为连续型变量。
变量无序分类变量:所分类别或属性之间无顺序和程度上的差异分类变量:定性变量
有序分类变量:有顺序和程度上的差异
4、总体:根据研究目的确定的同质研究对象中所有观察单位某变量值的集合。可以分为有限总体和无限总体。
5、样本:是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。样本代表性的前提:同质总体,足够的观察单位数,随机抽样。
统计学中,描述样本特征的指标称为统计量,描述总体特征的指标称为参数。
6、概率:描述随机事件发生的可能性大小的一个度量。若P(A)=1,则称A为必然事件;若P(A)=0,则称A为不可能事件;随机事件A的概率为0<P<1.
小概率事件:若随机事件A的概率P≤α,则称随机事件A为小概率事件,其统计学意义为:小概率事件在一次随机试验中认为是不可能发生的。
统计描述
1、频数分布有两个重要的特征:集中趋势和离散程度。频数分布有对称分布和偏态分布之分。后者是指频数分布不对称,集中趋势偏向一侧,如偏向数值小的一侧为正偏态分布,如偏向数值大的一侧为负偏态分布。
2、常用的集中趋势的描述指标有:均数,几何均数,中位数等。
均数:适用于正态或近似正态的分布的数值变量资料。样本均数用x表示,总体均数用μ
表示。
几何均数:适用于等比级数资料和对数呈正态分布的资料。注意观察值中不能有零,一组观察值中不能同时有正值和负值。
中位数:适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料。
3、常用的离散程度的描述指标有:全距,四分位数间距,方差,标准差,变异系数。
全距:任何资料,一组中最大值与最小值的差。
四分位数间距:适用于偏态分布以及分布的一端或两端无确切数据资料。
方差和标准差:正态分布资料。标准差表示观察值的变异度的大小。
变异系数:比较度量单位不同或均数相差悬殊的两组资料的变异度。
4、标准正态分布:对正态分布的(X-μ)/σ进行u的变换,u=(X-μ)/σ,则正态分布变
换为μ=0,σ=1的标准正态分布,亦称u分布。u被称为标准正态变量或标准正态离差。
两个参数:μ是位置参数,σ是形状参数。用N(0,1)表示标准正态分布。
常用估计医学参考值范围的方法有:
(1) 正态分布方法:适用于正态或近似正态分布的资料。 双侧界值:X ±u σ/2S 单侧上界:X+u σS ,或单侧下界:X-u σS (2) 对数正态分布方法:适用于对数正态分布资料。
双侧界值:Lg -1(X lgx ±u σ/2S lgx ) 单侧上界:Lg -1(X lgx +u σS lgx ), 或单侧下界:Lg -1(X lgx -u σS lgx )
(3)百分位数法:用于偏态分布资料以及资料中一端或两端无确切数值的资料。 双侧上界:P 2.5和P 97.5;单侧上界:P 95,或单侧下界:P 5
5、分类变量资料的统计描述:常用相对数指标描述,包括:率,构成比,相对比。
率:说明某现象发生的频率或强度。(病死率不等于死亡率)
构成比:说明某现象内部组成部分所占的比重或分布,常以百分数表示。
相对比:亦称比,是A 、B 2个有关指标之比,说明A 为B 的若干倍或百分之几。两个指
标可以性质相同,也可以性质不同。
应用相对数时的注意事项:
1、计算相对数的分母不宜过小;
2、分析时不能以构成比代替率;
3、对观察单位数不等的几个率,不能直接相加求其平均率;
4、比较相对数时应注意其可比性;
5、对样本率(或构成比)的比较应遵循随机抽样,并做假设检验。
6、标准化法:标准化的目的在于消除混杂因素对结果的影响,使资料更具有可比性。其基本思想是:将所比较的两组或多组资料的构成按统一的“标准”调整后,计算标化率,使其更具有可比性。
标准化率的计算方法:亦称标化率,直接法用于已知被标化组的年龄别率,以及已知标准组的年龄别人口数或年龄别人口构成比时;间接法用于已知被标化组的年龄别人口数与发病(死亡)总数,但年龄别率未知,以及已知标准组年龄别发病(死亡)率与总发病(死亡)率时。 通常可从下列3种方法选用标准组:①以两组资料中任一组的年龄别人口数或构成比作为标准组;②以两组资料合并的各年龄组的人口数或构成比作为标准组;③以公认的或便于与他人资料比较的标准作为标准组。 7、统计表:
结构:由标题、标目、线条和数字构成。 编制统计表的要求:
①标题:概括表的内容,列于表的上方居中,应注明时间和地点;
②标目:主语和谓语分别列于横、纵标目,文字简明,层次清楚。横标目列于表的左侧,通常为被研究的事物,纵标目列于表的上端,为说明横标目的统计指标。
③线条:通常,除表的顶线、底线、纵标目下以及合计上的横线外,其余线条均省去,顶线和底线应略粗些,表的左上角不宜用斜线。
④数字:用阿拉伯数字表示,同一指标的小数位数要一致并对齐,数字暂缺或无数字者分别用“…”或“-”表示,数字为0者要记作“0”,不应空项,为方便核实和分析,应有合计。
80 0.842 1.282
90 1.282 1.645
95 1.645 1.96
99 2.326 2.576
⑤备注:一般不列入表内,必要时可用“*”标出,列于表下。 8、统计图:
①条图:用于相互对比关系的资料;
②圆图与百分条图:适用于百分构成比资料,表示事物各组成部分所占的比重或构成; ③线图:用于连续性资料,用于说明事物在时间上的发展变化,或某现象随另一现象而变动的情况;
④直方图:表示连续性资料的频数分布;
⑤散点图:适用于直线相关分析,说明两个变量间的数量关系和变化趋势。
抽样分布与参数估计
抽样研究的目的是用样本信息来推断总体特征,即统计推断,包括两个内容:一是总体参数的估计,二是假设检验。
1、抽样误差:由于变异的存在,抽样研究所造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异称为抽样误差。
常用标准误x σ反映均数抽样误差的大小;用率的标准误σp 反映率的抽样误差的大小;用Possion 计数的标准误μ反映其抽样误差的大小。
2、中心极限定理和正态分布推理:从正态分布N (μ,σ2)总体中以固定n 随机抽取样本,样本均数x 的分布仍服从正态分布,即使是从偏态分布总体中随机抽样,只要n 足够大,x 的分布也近似正态分布。样本均数的均数仍为μ,样本均数的标准差为x σ。 样本均数的抽样误差x σ(简称标准误)是反映均数抽样误差大小的指标。
x σ =
n
σ 用样本均数S 作为σ的估计值,则x s =
n
S
3、t 分布:将x 看成变量值,那么可将正态变量进行u 变换(u=x -μ/σ)后,也可将N (μ,
σ
2x
)变换成标准正态分布N (0,1)。常用s 作为σ的估计值,统计量为t ,此分布为t 分布。
统计量 t=
x
s x μ
- t 曲线的形态变化与自由度v 的大小有关。v 越小,t 值越分散,曲线越低当v=无穷大时,t 分布即为u 分布。
x 估计总体均数μ;二是区间估计,亦称可信区间。
(1)σ未知且n 小:x -t α/2,v s x <μ<x +t α/2,v s x
(2)σ未知,但n 足够大,t 分布逼近u 分布:x -u α/2s x <μ<x +u α/2s x (3)σ已知:x -u α/2σx <μ<x +u α/2σ
x