医学统计学知识点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章绪论
1、统计学,就是关于数据收集、整理、分析、表达与解释的普遍原理与方法。
2、研究对象:具有不确定性结果的事物。
3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。
4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。
5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。
6、医学统计学中的基本概念
(1) 同质与变异
同质,指根据研究目的所确定的观察单位其性质应大致相同。
变异,指总体内的个体间存在的、绝对的差异。
统计学通过对变异的研究来探索事物。
(2) 变量与数据类型
变量,就是反映实验或观察对象生理、生化、解剖等特征的指标。
变量的观测值,称为数据
分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其她定量方法准确获得的定量结果。(如身高、体重、血压、温度等)
定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类与多分类,如性别分为男与女,血型分为A、B、O、AB等)
有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等
级后分组计数的观察结果,具有半定量性质。
统计方法的选用与数据类型有密切的关系。
(3)总体与样本
总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。样本,就是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。
抽样,就是从研究总体中随机抽取部分有代表性的观察单位。
参数,指描述总体特征的指标。
统计量,指描述样本特征的指标。
(4)误差
误差,指观测值与真实值、统计量与参数之间的差别。
可分为三种:系统误差,也称统计偏倚,就是某种必然因素所致,不就是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。
随机测量误差,就是偶然机遇所致,误差没有固定的大小与方向。
抽样误差,就是抽样引起的统计量与参数间的差异。
抽样误差主要来源于个体的变异。
统计学主要研究抽样误差。
(5)概率
概率,就是描述某事件发生可能性大小的量度。
必然事件,事件肯定发生,概率P(U)=1;
随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1;
不可能事件,事件肯定不发生,概率P(∮)=0;
小概率事件,事件发生的可能性很小,概率P(A)≤ 0、05、或P(A)≤ 0、01。
医学科研中,P(A)≤ 0、05作为事物差别有统计意义,P(A)≤ 0、01作为事物差别有高度统计意义。
第二章定量数据的统计描述
定量数据的统计描述方法:频数表、直方图、统计指标。
(1)频数分布
频数分布的目的:了解数据的分布范围、集中位置以及分布形态等特征,以便根据资料分布
情况选择合适的统计方法。
频数分布的用途:
①作为陈述资料的形式;
②便于观察数据的分布类型;
③便于发现数据中特大或特小的可疑值;
④当样本量大时,可用各组段的频率作为概率的估计值。
计算全距(range,R):就是一组数据的最大值与最小值之差。R=Max-Min
确定组数与组距
样本量在100例左右,组数选择8~15之间,一般取10组左右。
组距≈全距/组数
确定组限
第一组段必须包括最小值,最后一组段必须包括最大值。
最后一组段包括最大值,且一般情况下应包含该组段上限,其余各组段区间左闭右开。
计算各组段频数(frequency):即计算各组段内观察值的个数。
计算各组段频率(percent):即计算各组段频数与总观察值个数之比,用百分数表示。
计算累计频数(cumulative frequency)与累计频率( cumulative percent):累计频数就是由上至下将频数累加;累计频率就是由上至下将频率累加。
(2)直方图
直方图,就是以垂直条段代表频数分布的一种图形。
(3)频数分布表的用途
1、作为称述资料的形式,可以代替原始资料,便于进一步分析。
2、便于观察数据的分布类型。资料分布类型分为:对称分布与偏态分布。
在统计分析时常需要根据资料的分布形式选择相应的统计分析方法,因此对数据分布形式的判定非常重要。
3、便于发现资料中某些远离群体的特大或特小值。
4、当样本含量比较大时,可用各组段的频率作为概率的估计值。
集中趋势的统计指标
平均数,就是描述一组观察值集中位置或平均水平的统计指标,常作为一组数据的代表值用于分析与进行组间的比较。
常用的有算术均数、几何均数、中位数、百分位数等。
算术均数,等于一个变量所有观察值的与除以观察值个数。
总体均数用希腊字母μ表示,样本均数用符号Χ拔表示。
算术均数适用于对称分布的资料,如分布均匀的小样本数据或近似正态分布的大样本数据。算术均数易受极端值的影响,并且受极大值的影响大于受极小值的影响。
几何均数
几何均数(geometric mean,G),等于一个变量所有n个观察值的乘积的n次方根。
几何均数适用于取对数后近似呈对称分布的资料,尤其就是右偏态分布数据。医学研究中常用于比例数据。
【注】计算几何均数的观察值不能小于或等于0,因为无法求对数。
中位数
中位数(median,M),就是在按大小顺序排列的变量的所有观察值中,位于正中间的一个或两个数值。
当数据呈偏态分布、或频数分布两端无确定数值,均宜采用中位数描述集中趋势。
中位数的确定取决于它在数据序列中的位置,因此对极端值不敏感。
百分位数
百分位数(percentile),就是一个位置指标,它将一组变量值排列后划分为若干相等部分的分割点数值。用Px表示,X用百分数表示。
表示在按照升序排列的数据中,其左侧(≤
Px )的观察值个数在整个样本中所占百分比为X %,其右侧(≥ Px )的观察值个数在整个样本中所占百分比为(100-X )%。
百分位数不论资料分布类型均可计算,在实际工作中常用于确定医学参考值范围;在假设检验中用作拒绝或不拒绝检验假设的界值。
百分位数并非由全部观察值综合计算得来,因此,它不如均数与标准差精确;然而中间部分的百分位数因不受资料中个别极端数据的影响,具有较好的稳定性。
小结
变异程度的统计指标
变异指标,又称离散指标,用以描述一组计量资料各观察值之间参差不齐的程度。
变异指标越大,观察值之间差异愈大,说明变异程度越大;反之亦然。
常用的有极差、四分位数间距、方差、标准差与变异系数。
极差
极差(range,R),等于一个变量所有观察值中最大值与最小值之间的差值。
R =Max -Min
缺点:
①没有利用观察值的全部信息,不能反映其它数据的离散度;
②各样本含量大小悬殊时,不宜比较其极差;
③极差的抽样误差也较大,所以不够稳定。
极差仅适用于对未知分布的小样本资料作粗略的分析。
四分位数间距
四分位数,就是统计学对特殊的三个百分位数P25% 、P50% 与P75%的统称
四分位数间距(quartile range,Q), 等于第三四分位数与第一四分位数之间的差值。
Q =P75% -P25%
缺点:
①没有利用观察值的全部信息,不能反映其它数据的离散度;
四分位数间距仅用来描述大样本偏态资料的变异情况。
方差
方差(variance), 就是描述一个变量的所有观察值与总体均数的平均离散程度的指标。