医学统计学复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学统计复习资料
一、名词解释
[1].总体:根据研究目的确定的同质观察单位的全体。是同质所有观察单位的某种变量值的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。
[2].样本:从总体中随机抽取部分观察单位,其实测值的集合。
[3].计量资料:又称定量资料或数值变量资料。为观测每个观察单位的某项指标的大小,而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。根据其观测值取值是否连续,又可分为连续型或离散型两类。
[4].计数资料:又称定性资料或者无序分类变量资料,亦称名义变量资料,是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:(1)二分类:两类间相互对立,互不相容。(2)多分类:各类间互不相容。
[5].等级资料:又称半定量资料或有序分类变量资料,是将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。
[6].随机误差(偶然误差):是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起,观察值不按方向性和系统性变化,在大量重复测量中,它可呈现或大或小,或正或负的规律性变化。
[7].概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。0﹤P(A)﹤1。频率:在相同的条件下,独立重复做n 次试验,事件A 出现了m 次,则比值m/n 称为随机事件A 在n 次试验中出现的频率(freqency)。当试验重复很多次时P(A)= m/n。
[8].平均数:描述一组变量值的集中位置或水平。常用的平均数有算术平均数、几何平均数和中位数。
[9].算术均数(arithmetic mean)描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用X表示。
[10].几何均数(geometric mean)用以描述对数正态分布或数据呈倍数变化资料的水平。记为G。
[11].中位数(median)Md将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。反映一批观察值在位次上的平均水平。
[12].方差(variance):方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。
[13].标准差(standard deviation)是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。
[14].变异系数(coefficient of variation)用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用CV 表示。计算:标准差/均数*100%。
[15].正态分布:正态分布又称高斯分布,是一种很重要的连续型分布,应用很广。若指标X的频率分布曲线对应于数学上的正态分布曲线,则称该指标服从正态分布。(曲线下面积和分布规律) [16].标准误及X s :通常将样本统计量的标准差称为标准误。许多样本均数的标准差X s称为均数的标准误(standard error of mean,SEM ),它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。
[17].可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval ,CI )。它的确切含义是:可信区间包含总体参数的可能性是1- α ,而不是总体参数落在该范围的可能性为1-α。
[18].假设检验中P 的含义:指从H0 规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。
[19].相对数:两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数学的大小。如率、构成比、比等。
[20].率:强度相对数,说明某现象发生的频率或强度。
[21].构成比:结构相对数字,表示事物内部某一部分的个体与该事物各个部分个体数的和之比。用来说明各构成部分在总体所占的比重或分布。
[22].相对比:简称比,是两个相关联指标之比,说明两指标间的比例关系。两指标可以性质相同,也可以性质不同,通常以倍数或百分数表示。两指标可以是绝对数、相对数或平均数。(这几种相对数的差别)
[23].回归系数(regression coefficient )即直线的斜率(slope),在直线回归方程中用b 表示,b 的统计意义为X 每增(减)一个单位时,Y 平均改变b 个单位。
[24].相关系数r :用以描述两个随机变量之间线性相关关系的密切程度与相关方向的统计指标。
二、需要掌握的几个公式
1.均数的计算
(1)算术均数n
X n Xn X X X ∑=+++= 21(直接法) ∑=
+++=fX X f X f X f X k k 2211(加权法)
(2)几何均数
2.中位数 n 为奇数时,)21(+=n X
M ;n 为偶数时,2)12()2(++=n n X X
M
3.方差
4.标准差(S):将方差取平方根,还原为与原始观察值单位相同的变异量度
(反映样本值的离散程度)
S =
5.变异系数: 均数相差较大或单位不同的几组观察值的变异程度的比较
100%S CV X
=⨯ (百分数,可能大于1) 5.正态分布:S X 64.1±(90%);S X 96.1±(95%);S X 58.2±(99%)
6.均数的标准误
理论值 X σ= 估计值 X S =
7.总体均数的可信区间计算
(1)当σ未知时:按照t 分布
双侧1-α的可信区间为 X S t X ν,2/05.0(-,),2/05.0X S t X ν+
当侧1-α的可信区间为(X X S t X S t X γαγαμμ,, , +<->)
(2)当σ已知或σ未知,但是n 足够大(如n>90),按照u 检验
双侧1-α的可信区间为,96.1X S X ±
当侧1-α的可信区间为X X X X σμσμαα+- ,
三、计算和问答
1.总体均数的估计
(1)标准误:反映样本均数间变异的标准差。(反映样本均数间的离散程度,也反映样本均数与总体均数的差异)
理论值 X σ=,但是在实际情况中,由于总体标准差常常未知,故用样本标准差s 来估计,估
计值 X S =
(2)区间估计:按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。
①当σ未知时:按照t 分布
双侧1-α的可信区间为 X S t X ν,2/05.0(-,
),2/05.0X S t X ν+