医学统计学复习资料重点考点总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学统计学复习资料重点考点总结
第1章绪论
医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。
1.个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。
2.总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。反映总体特征的指标为参数,常用小写希腊字母表示。
3.样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。
4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。其根源在于总体中的个体存在变异性。只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。统计分析主要是针对抽样误差而言。
5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。各类资料间可相互转化。①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩和检验、Ridit分析等。
6.误差:实测值与真实值之差。可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;
③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
7.概率(P):描述随机事件发生可能性大小的值,其取值为0≤P≤1。其中,P=1为必然事件,P=0为不可能事件,0
8.医学统计工作的基本步骤:①设计(是影响研究能否成功的最关键环节,是提高观察或实验质量的重要保证);②收集资料(统计报表+经常性工作记录+专题调查或实验研究+统计年鉴和统计数据专辑);③整理资料(是将原始数据净化、系统化和条理化,以便为下一步计算和分析打好基础的过程);④分析资料/统计分析(统计分析包括统计描述和统计推断,统计学的主要任务是进行统计推断,包括参数估计和假设检验)。
第2章计量资料的统计描述
1.频数:计量资料经分组后清点出的各组例数。频数分布:指各组频数的分配情况。频数分布表:将分组和各组的频数以及频率编制成的表。频数分布图:即直方图,以直方的面积大小表示各组频数的多少,比频数表直观形象。
2.频数分布表:①对于连续变量,频数分布为n个变量值在各变量值区间内的变量值个数的分配;②对于离散变量,频数
分布为n,即最大值和最小值之差R;③确定组段数和组距;④根据组距写出组段;⑤分组划记并统计频数;⑥列表并求出频率、累计频数、累计频率。3.频数分布的用途:①描述频数分布的类型:频数分布分为对称分布和偏态分布。各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布。右侧的组段数多于左侧的组段数,频数向右侧拖尾,称右偏态分布,也称正偏态分布。左侧的组段数多于右侧的组段数,频数向右侧拖尾,称左偏态分布,也称负偏态分布。②描述频数分布的特征;③便于发现一些特大或特小的离群值;④便于进一步做统计分析和处理。
4.集中趋势:统计学用平均数这一指标体系来描述一组变量值的集中位置或平均水平,常用的平均数有算术均数、几何均
P17
对数转换后呈对称分布的变量值在数量上的平均水平,常适用于免疫学的指标P18n个变量值从小到大排列,位置居于中间的那个数。N为奇数时取位次居中的变量值,n为偶数时取位次居中的两个变量值的均数。
适用于各种分布类型的资料,尤其是偏态分布资料和一端或两端无确切数值的资料P19百分位是一种位置指标,用Px来表示,读作第X百分位数。一个百分位数Px将全部变量值分为两部分,在不包含Px的全部变量值中有X%的变量值小于或等于它,(100-X%)变量值大于或等于它。百分位数是一个界值,其重要用途是确定医学参考值范围。中位数实际上是第50百分位数。
5.离散趋势:描述数据变异大小的常用指标有极差、四分位数间距、方差、标准差、变异系数。极差:即一组变量值的最
大值与最小值之差,可用于任何分布资料。仅用极差来描述数据的变异程度也不全面,且受样本含量n
是把全部变量值分为四部分的分位数,即第1四分位数(Q L=P25)、第2四分位数(M=P50)、第3四分位数(Q U=P75)。
四分位数间距QR= Q U﹣Q L
散水平,总体方差用σ2表示,样本方差记为S2σ表示,样本标准差记为S。方差和标准差用于描述正态分布计量资料的离散程度。均数和标准差结合用于全面描述正态分布计
CV,CV=S/V×100%,是一个相对变异指标,无单位,多用于观察指标单位不同时,或均数相差较大时。
6.正态分布:德国数学家德莫阿弗尔于1733
上方呈钟型曲线,两端与X轴永不相交,且以X=μ为对称轴,左右完全对称。②在X=μ处f(X)取最大值,其值为f(X)= ;X越远离μ,f(X)值越小。③正态分布有两个参数,即位置参数μ和形态参数σ。若固定σ,改变μ值,曲线沿着X轴平行移动,其形状不变。若固定μ,σ越小,曲线越陡峭;反之,σ越大,曲线越平坦。④正态曲线下的面积分布有一定的规律:正态分布曲线下面积为1,X±1.96S的面积为95%,X±2.58S的面积为99%。标准正态分布:通过u=(X﹣μ)/ σ将X~N(μ,σ2)的正态分布转换为u~N(0,12)的标准正态分布,u称为标准正态变量,P27。
7.医学参考值:是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准。通常
使用的医学参考值范围有90%,95%,99%,最常用的是95%
服从正态分布;②百分位数法:偏态分布资料,样本含量不低于100,P29。
第3章总体均数的估计与假设检验
1.抽样误差:由个体差异产生的,随机抽样造成的样本统计量之间或样本统计量与总体参数之间的差异,用标准误来衡量,抽样误差是不可避免的,其产生的根本原因是生物个体的变异性,其分布有一定的规律性。样本均数的抽样分布特点:①各样本均数未必等于总体均数;②各样本均数间存在差异;③样本均数的分布很有规律,围绕总体均数中间多,两边少,左右基本对称,也服从正态分布;④样本均数间相差较小,其变异范围较之原变量的变异范围大大缩小。
2.标准误:样本统计量的标准差,描述统计量与总体参数的接近程度,是衡量抽样误差大小的指标。用途:①表示抽样误
样本均数与相应总体均数间的差异,说明了均数抽样误差的大小。均数标准误与标准差成正比,与样本含量n的平方根成反比。若标准差不变,可通过增加样本含量n来减小均数的标准误,从而降低抽样误差。
3.标准差与标准误的区别:①标准差是衡量观察值离散趋势(即变异程度)的指标,其越大,表示观察值越分散,样本均数的代表性越差;反之样本均数的代表性越好;而标准误是描述样本统计量的变异程度,表示抽样误差的大小,其越大,表示抽样误差越大,样本统计量(样本均数)的可靠性越小,反之样本统计量(样本均数)的可靠性越大。②标准差可用于描述正态(近似正态)分布资料的频数分布和医学参考值范围的估计;而标准误用于总体均数的区间估计和两个样本统计量(样本均数)间的比较即t检验。标准差与标准误的联系:二者都是变异指标,标准误的大小可由标准差的大小来估计。在样本含量一定时,标准差越大,标准误也越大,即在抽取相同例数的前提下,标准差越大,样本的抽样误差也越大。
4.t 分布:通过u=(X﹣μ)/ σ可以将X~N(μ,σ2)的正态分布转换为u~N(0,12)的标准正态分布,同理样本含量为n的样本均数X可通过u=(X﹣μ)/ σX将N(μ,σX2)的正态分布转化为标准正态分布,但实际工作中,由于σX常常未知,用S X
代替,则(X﹣μ)/ S X不再服从标准正态分布,而是服从t分布。t分布为抽样分布,参数只有一个即自由度ν=n﹣1
①单峰分布,以0为中心,左右对称;②t分布的曲线形态取决于自由度ν的大小,ν越小,则t值越分散,t分布的峰部越矮而尾部翘得越高;③当ν逼近无穷大,S x逼近σx,t分布逼近u分布,标准正态分布是t分布的特例。t分布主要用于总体均数的区间估计和t检验。在相同自由度时,∣t∣值越大,概率P越小;在相同∣t∣值时,同一自由度的双尾概率为单尾概率的两倍。
5.参数估计:是指用样本统计量推断总体参数,有点(值)估计和区间估计两种方法。点估计:用相应样本统计量直接作为其总体参数的估计值。区间估计:是按预先给定的概率(1﹣α)所确定的包含未知总体参数的一个范围。该范围称为参数的可信区间或置信区间;预先给定的概率1﹣α称为可信度或置信度,一般取双侧95%。
6.可信区间:又称置信区间,通常是两个数值即可信限/
1﹣α(如95%)的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为1﹣α。两个要素:①准确度:反映在可信度1﹣α的大小,越接近1越好;②精密度:反映在区间的宽度,越窄越好。两者是矛盾的,一般情况下常用95%可信区间。在可信度确定的情况下,增加样本含量可减小区间宽度。
7.总体均数可信区间的计算:根据总体标准差σ是否已知,以及样本含量n的大小而异,通常有t分布和u分布两类方法。