中南大学研究生医学统计学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计描述:指选用恰当的指标,通常称为统计量,选用合适的统计表与统计图,对资料的数量特征及其分布规律进行测定和描述。包括搜集数据、整理数据、总结数据、分析数据以及将数据呈现出来
统计推断:指如何在一定的可信度下由样本信息统计指标来推断总体相应指标,又称参数估计。包括进行推测、假设检验、确定关系然后作出预测
小概率事件:统计分析中的很多结论都是基于一定可信程度下的概率推断,习惯上将P<=0.05称为小概率事件,表示一次实验或观察中该事件发生的可能很小,可以视为可能不发生。
算术均数:简称均数可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。
几何均数(geometric mean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。
适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料
中位数(median):是将变量值从小到大排列,位置居于中间的那个变量值。符号为Md,反映一批观察值在位次上的平均水平。适用于:1、各种分布类型的资料2、特别是偏态分布资料和开囗资料(一端或两端无确切数值的资料)。 3、资料分布不明等
百分位数:将一组数据从大到小按顺序排列起来,并计算相应的累计百分位(频率)。那某一百分位所对应的数据变量值就叫这一百分位的百分位数百分位数的应用:确定医学参考值范围;中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征
百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。包括直接算法和频数表法
应用:1.确定医学参考值范围(reference range):如95%参考值范围=P97.5-P2.5;表示有95%正常个体的测量值在此范围。2.中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征
方差(variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。
标准差(standard deviation)即方差的正平方根;其单位与原变量X的单位相同。
自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度
变异系数:多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。
医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medical reference range)作为判定正常和异常的参考标准。
95%可信区间:从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。
假设检验过去称显著性检验:它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。
检验水准α,过去称显著性水准,是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取α = 0.05。可根据不同研究目的给予不同设置。
P的含义是指从H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。
I 型错误:“实际无差别,但下了有差别的结论”,假阳性错误。犯这种错误的概率是α(其值等于检验
水准)
II型错误:“实际有差别,但下了不拒绝H0的结论”,假阴性错误。犯这种错误的概率是β(其值未知)完全随机设计:是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。
组间变异:各处理组由于接受处理的水平不同,各组的样本均数(i=1,2,…,g)也大小不等,这种变
异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为SS 组间
组内变异:在同一处理组中,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组内变异(误差)。组内变异可用组内各测量值Xij 与其所在组的均数的差值的平方和表示,记为SS 组内, 表示随机误差的影响。
随机区组设计(randomized block design)又称为配伍组设计,是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组(block),再分别将各区组内的受试对象随机分配到各处理或对照组
动态数列(dynamic series):是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。
绝对增长量;是说明事物在一定时期增长的绝对值。
发展速度与增长速度:均为相对比,说明事物在一定时期的速度变化。发展速度表示报告期指标的水平相当于基期水平的百分之多少或若干倍,
平均发展速度;是各环比发展速度的几何平均数,说明某事物在一个较长时期中逐期(如逐年)平均发展的程度。
平均增长速度;是各环比增长速度的平均数,说明某事物在一个较长时期中逐期平均增长的程度。
b 的意义: 回归系数b 称为斜率(slope),其统计学意义是:X 每增加(减)一个单位,Y 平均改变b 个单位。 残差(residual)或剩余值,即实测值Y 与假定回归线上的估计值Y 的纵向距离。
直线相关系数(correlation coefficient ),Pearson 积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。
统计图:指利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料。统计图只能提供概略的情况,而不能获得确切数值,因此不能完全代替统计表,常需要同时列出统计表作为统计图的数值依据
百分条图:是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。圆图和百分条图适合描述分类变量的各类别所占的构成比。百分条图以总长度L 为100%,将长度L 乘以各类别的构成比(%)得到各构成的长度,由大到小或按类别的自然顺序依次排列,其它项放最后。
箱式图(box plot):使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上、下四分位数,中间是中位数,两端连线分别是除异常值之外的最小与最大值。箱子越长数据变异程度越大,中间横线在箱子中点表明分布对称,否则不对称。箱式图特别适合多组数据分布的比较。
二项分布(binomial distribution )是指在只会产生两种可能结果如“阳性”或“阴性”之一的n 次独立重复试验中,当每次试验的“阳性”概率π保持不变时,出现“阳性”次数X=0,1,2,…,n 的一种概率分布。记作:X ~B(n ,π) 。概率可以由下边公式求出:
X=0,1,2,3、、、,n
Poisson 分布:(Poisson distribution )作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。Poisson 分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。
所谓随机变量X 服从Poisson 分布,是指在足够多的n 次独立Bernoulli 试验中,取值X 的概率为
非参数检验 针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布式连续型的或是离散型的,用于解决这类问题需要一种不依赖总体分布的具体形式的统计() 0,1,2,!X
e P X X X λλ-==⋅⋅⋅!()(1)
!()!X n X
n P X X n X ππ-=--