医学统计学知识点汇总(精华)
医学统计学知识点
第一章绪论1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。
2、研究对象:具有不确定性结果的事物。
3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。
4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。
5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断.6、医学统计学中的基本概念(1)同质与变异同质,指根据研究目的所确定的观察单位其性质应大致相同.变异,指总体内的个体间存在的、绝对的差异。
统计学通过对变异的研究来探索事物.(2) 变量与数据类型变量,是反映实验或观察对象生理、生化、解剖等特征的指标。
变量的观测值,称为数据分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。
(如身高、体重、血压、温度等)定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。
包括二分类、无序多分类。
(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、A B等)有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质.统计方法的选用与数据类型有密切的关系。
(3)总体与样本总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值.样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。
抽样,是从研究总体中随机抽取部分有代表性的观察单位。
参数,指描述总体特征的指标.统计量,指描述样本特征的指标。
(4)误差误差,指观测值与真实值、统计量与参数之间的差别.可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。
随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。
抽样误差,是抽样引起的统计量与参数间的差异。
抽样误差主要来源于个体的变异。
医学统计学复习资料(完整版)
第1章绪论医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。
1.个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。
2.总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。
分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。
反映总体特征的指标为参数,常用小写希腊字母表示。
3.样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。
(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。
4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。
抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。
其根源在于总体中的个体存在变异性。
只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
统计分析主要是针对抽样误差而言。
5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。
各类资料间可相互转化。
①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩和检验、Ridit分析等。
6.误差:实测值与真实值之差。
可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。
①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
医学统计学知识点
医学统计学知识点 Company number:【0089WT-8898YT-W8CCB-BUUT-202108】第一章绪论1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。
2、研究对象:具有不确定性结果的事物。
3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。
4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。
5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。
6、医学统计学中的基本概念(1) 同质与变异同质,指根据研究目的所确定的观察单位其性质应大致相同。
变异,指总体内的个体间存在的、绝对的差异。
统计学通过对变异的研究来探索事物。
(2) 变量与数据类型变量,是反映实验或观察对象生理、生化、解剖等特征的指标。
变量的观测值,称为数据分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。
(如身高、体重、血压、温度等)定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。
包括二分类、无序多分类。
(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等)有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。
统计方法的选用与数据类型有密切的关系。
(3)总体与样本总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。
样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。
抽样,是从研究总体中随机抽取部分有代表性的观察单位。
参数,指描述总体特征的指标。
统计量,指描述样本特征的指标。
(4)误差误差,指观测值与真实值、统计量与参数之间的差别。
可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。
医学统计学知识点
1.一般来说,两均数比较用t检验,而两个以上均数的比较就必须用方差分析了。
t检验的应用条件:当样本含量n较小时(如n< 50=,理论上要求样本取自正态总体,两小样本均数比较时还要求两样本总体方差相等。
但在实际应用时,与上述条件略有偏离,只要其分布为单峰近似对称分布,则对结果亦影响不大。
u检验的应用条件:样本含量n较大,一般要求n>50。
其实,u检验和t检验都属同类,其方法步骤也基本相同,不同的地方仅在于确定P值时界值的选择。
2.两均数比较可选用t检验,(当样本含量较大,如n>100时可用u检验);两样本方差比较可选用F检验、率的比较可选用u检验或x2检验。
3.完全随机设计是分别从两个研究总体中随机抽取样本,对这两个样本均数进行比较,以推断它们所代表的总体是否一致。
4.t检验的基本步骤:①建立假设:H0、H1②确定检验水准:α=0.05③计算统计量t:根据不同的资料选用相应的计算公式④查t值表,确定P值:t ≥ tα,υP≤αt ≤ tα,υP≥α⑤统计推断结论P>0.05,接受H0,差别无显著意义;0.01<P≤0.05,拒绝H0,接受H1,差别有显著意义;P≤0.01 拒绝H0,接受H1,差别有非常显著意义。
5.t检验的注意事项①资料必须有可比性;②必须是计量资料;③资料必须呈正态或近似正态分布;④要根据不同的资料类型选用不同的计算公式;要正确理解统计结论的含义。
方差分析一、方差分析的用途及应用条件(一)用途1、检验两个或多个样本均数间的差异有无统计学意义;2、回归方程的线性假设检验;3、检验两个或多个因素间有无交互作用。
(二)应用条件1、各个样本是相互独立的随机样本;2、各个样本来自正态总体;3、各个处理组(样本)的总体方差方差相等,即方差齐。
二、 方差分析的基本思想 (一)方差分析中变异的分解此类资料的变异,可以分出三种:1、总变异:表现为所有数据大小不等,用总的离均差平方和表示,记为SS 总。
医学统计学知识点
第一章绪论1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法;2、研究对象:具有不确定性结果的事物;3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性;4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论;5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断;6、医学统计学中的基本概念1 同质与变异同质,指根据研究目的所确定的观察单位其性质应大致相同;变异,指总体内的个体间存在的、绝对的差异;统计学通过对变异的研究来探索事物;2 变量与数据类型变量,是反映实验或观察对象生理、生化、解剖等特征的指标;变量的观测值,称为数据分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果;如身高、体重、血压、温度等定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果;包括二分类、无序多分类;进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质;统计方法的选用与数据类型有密切的关系;3总体与样本总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值;样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据;抽样,是从研究总体中随机抽取部分有代表性的观察单位;参数,指描述总体特征的指标;统计量,指描述样本特征的指标;4误差误差,指观测值与真实值、统计量与参数之间的差别;可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性;随机测量误差,是偶然机遇所致,误差没有固定的大小和方向;抽样误差,是抽样引起的统计量与参数间的差异;抽样误差主要来源于个体的变异;统计学主要研究抽样误差;5概率概率,是描述某事件发生可能性大小的量度;必然事件,事件肯定发生,概率PU=1;随机事件,事件可能发生,可能不发生,概率介于0≤PA≤ 1;不可能事件,事件肯定不发生,概率P∮=0;小概率事件,事件发生的可能性很小,概率PA≤ 、或PA≤ ;医学科研中,PA≤ 作为事物差别有统计意义,PA≤ 作为事物差别有高度统计意义;第二章定量数据的统计描述定量数据的统计描述方法:频数表、直方图、统计指标;1频数分布频数分布的目的:了解数据的分布范围、集中位置以及分布形态等特征,以便根据资料分布情况选择合适的统计方法;频数分布的用途:①作为陈述资料的形式;②便于观察数据的分布类型;③便于发现数据中特大或特小的可疑值;④当样本量大时,可用各组段的频率作为概率的估计值;计算全距range,R:是一组数据的最大值与最小值之差;R=Max-Min确定组数与组距样本量在100例左右,组数选择8~15之间,一般取10组左右;组距≈全距/组数确定组限第一组段必须包括最小值,最后一组段必须包括最大值;最后一组段包括最大值,且一般情况下应包含该组段上限,其余各组段区间左闭右开;计算各组段频数frequency:即计算各组段内观察值的个数;计算各组段频率percent:即计算各组段频数与总观察值个数之比,用百分数表示;计算累计频数cumulative frequency和累计频率cumulative percent:累计频数是由上至下将频数累加;累计频率是由上至下将频率累加;2直方图直方图,是以垂直条段代表频数分布的一种图形;3频数分布表的用途1、作为称述资料的形式,可以代替原始资料,便于进一步分析;2、便于观察数据的分布类型;资料分布类型分为:对称分布和偏态分布;在统计分析时常需要根据资料的分布形式选择相应的统计分析方法,因此对数据分布形式的判定非常重要;3、便于发现资料中某些远离群体的特大或特小值;4、当样本含量比较大时,可用各组段的频率作为概率的估计值;集中趋势的统计指标平均数,是描述一组观察值集中位置或平均水平的统计指标,常作为一组数据的代表值用于分析和进行组间的比较;常用的有算术均数、几何均数、中位数、百分位数等;算术均数,等于一个变量所有观察值的和除以观察值个数;总体均数用希腊字母μ表示,样本均数用符号Χ拔表示;算术均数适用于对称分布的资料,如分布均匀的小样本数据或近似正态分布的大样本数据;算术均数易受极端值的影响,并且受极大值的影响大于受极小值的影响;几何均数几何均数geometric mean,G,等于一个变量所有n个观察值的乘积的n次方根;几何均数适用于取对数后近似呈对称分布的资料,尤其是右偏态分布数据;医学研究中常用于比例数据;注计算几何均数的观察值不能小于或等于0,因为无法求对数;中位数中位数median,M,是在按大小顺序排列的变量的所有观察值中,位于正中间的一个或两个数值;当数据呈偏态分布、或频数分布两端无确定数值,均宜采用中位数描述集中趋势;中位数的确定取决于它在数据序列中的位置,因此对极端值不敏感;百分位数百分位数percentile,是一个位置指标,它将一组变量值排列后划分为若干相等部分的分割点数值;用Px表示,X用百分数表示;表示在按照升序排列的数据中,其左侧≤ Px 的观察值个数在整个样本中所占百分比为X %,其右侧≥ Px 的观察值个数在整个样本中所占百分比为100-X %;百分位数不论资料分布类型均可计算,在实际工作中常用于确定医学参考值范围;在假设检验中用作拒绝或不拒绝检验假设的界值;百分位数并非由全部观察值综合计算得来,因此,它不如均数和标准差精确;然而中间部分的百分位数因不受资料中个别极端数据的影响,具有较好的稳定性;小结变异程度的统计指标变异指标,又称离散指标,用以描述一组计量资料各观察值之间参差不齐的程度;变异指标越大,观察值之间差异愈大,说明变异程度越大;反之亦然;常用的有极差、四分位数间距、方差、标准差和变异系数;极差极差range,R,等于一个变量所有观察值中最大值与最小值之间的差值;R =Max - Min缺点:①没有利用观察值的全部信息,不能反映其它数据的离散度;②各样本含量大小悬殊时,不宜比较其极差;③极差的抽样误差也较大,所以不够稳定;极差仅适用于对未知分布的小样本资料作粗略的分析;四分位数间距四分位数,是统计学对特殊的三个百分位数P25% 、 P50% 和 P75%的统称四分位数间距quartile range,Q, 等于第三四分位数与第一四分位数之间的差值;Q = P75% - P25%缺点:①没有利用观察值的全部信息,不能反映其它数据的离散度;四分位数间距仅用来描述大样本偏态资料的变异情况;方差方差variance, 是描述一个变量的所有观察值与总体均数的平均离散程度的指标;总体方差用σ2表示,样本方差用 S2表示;标准差标准差standard deviation,S , 是描述一个变量的所有观察值与均数的平均离散程度的指标;总体标准差用σ表示,样本标准差用 S表示;标准差方差或标准差属同类变异指标,它们多用来描述均匀分布或近似正态分布的资料,大、小样本均可,其中以标准差的应用最广,通常与均数结合使用;比如在许多医学研究报告中常用X拔±S 的形式表达资料;变异系数变异系数coefficient of variation,CV , 是一个度量相对离散程度的指标;CV是无量纲的指标,可以用来比较几个量纲不同的指标变量之间的离散程度的差异,或比较量纲相同但均数相差悬殊的变量之间的离散程度的差异;小结正态分布,是一种连续型随机变量常见而重要的分布;正态曲线,是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟型曲线; 如果随机变量X的分布服从概率密度函数和概率分布函数称连续型随机变量X服从正态分布,记为X ~N μ, σ2 ;π为圆周率,e为自然对数的底值,σ为总体标准差,μ为总体均数;正态分布的特征1、正态分布是单峰分布,以X =μ为中心,左右完全对称,正态曲线以X轴为渐近线,两端与X轴不相交;2、正态曲线在X =μ 处有最大值,其值为fμ=1/μ√2π ;X越远离μ ,fX值越小,在X= μ± σ 处有拐点,呈现钟形;3、正态分布完全由参数μ和σ决定;μ是位置参数,决定正态曲线在X轴上的位置;在σ一定时, μ增大,曲线沿横轴向右移动;μ较小,曲线沿横轴向左移动;σ是形状参数,决定正态曲线的分布形态;σ越大,曲线的形状越“矮胖”,表示数据分布越分散;σ越小,曲线的形状越“瘦高”,表示数据分布越集中;正态曲线下面积分布规律1、服从正态分布的随机变量在某一区间上的曲线下面积与其在同一区间上取值的概率相等;2、曲线下的总面积为1或100%,以μ为中心左右两侧面积各占50%,越靠近μ 处曲线下面积越大,两边逐渐减少;3、所有的正态曲线,在μ左右的任意个标准差范围内面积相同;一些特殊情况,在μ±σ范围内的面积约为%,在μ±σ范围内的面积约为%,在μ±σ范围内的面积约为%;标准正态分布对任意一个服从N μ, σ2 分布的随机变量X,经Z=X-μ/σ变换都可以转为μ=0、σ=1的标准正态分布,也称随机变量的标准化变换;标准正态分布的应用实际应用中,经z变换可把求解任意一个正态分布曲线下面积的问题,转化成标准正态分布曲线下相应面积的问题;正态分布的应用1、制定医学参考值范围2、质量控制3、正态分布是很多统计方法的理论基础医学参考值范围医学参考值范围,指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围;医学参考值范围,习惯上是包含95%的参照总体的范围;制订的注意事项a、抽取足够例数的同质“正常人”样本★“正常人”的定义,样本量n>120,随机化;b、确定具有实际意义的统一测量标准★指标的测量方法等要有规定,控制测量误差;c、根据指标的性质确定是否要分组★根据实际情况、专业知识;d、根据指标含义决定单、双侧范围★单侧下限,过低异常;单侧上限,过高异常;双侧,过高、过低均异常;e、选择适当的百分范围★绝大多数人,一般80%、90%、95%、99%;★减少误诊,取较大范围;减少漏诊,取较小范围;f、估计参考值范围★根据资料分布类型:正态分布法、百分位数法;第四章定性数据的统计描述相对数,是两个有关的绝对数之比,也可以是两个统计指标之比;计算相对数的意义主要是把基数化作相等,便于相互比较;相对数主要用于定性资料的统计描述;常用的指标有频率、构成比、相对比;频率频率rate,表示在一定范围内某现象的发生数与可能发生的总数之比,说明某现象出现的频率或概率;总体率用π来表示,样本率用P来表示;需要注意的是,率在更多情况下是一个具有时间概念的指标,即用于说明在一段时间内某现象发生的强度或频率;构成比构成比,表示某事物内部各组成部分在整体中所占的比重;构成比之和应为100%,某一构成部分的增减会影响其他构成部分相应的减少或增加;而某一部分率的变化并不影响其他部分率的变化,且其平均率不能简单地将各率相加后平均求得;相对比相对比,是A、B两个有关联指标之比,用以描述两者的对比水平;相对危险度relative risk,RR,用于流行病学中队列研究资料;比数比odds ratio,OR,用于流行病学中病例对照研究资料;小结构成比表示某事物内部各部分所占的比例或比重,频率是表明某现象发生的频率或概率;构成比的分子中的个体一定是分母中的一部分,而相对比则不一定;构成比是同一类事物的数值之比,相对比可以是任意两个数值之比;相对数的使用注意a、区别构成比和频率★频率,强度相对数;构成比,结构相对数;b、使用相对数时分母不宜过小★如分母太小,用绝对数表示,如“3例中死亡1例”;c、注意相对数的可比性★研究对象要同质,方法要相同,观察时期要一致等;d、考虑存在抽样误差★对总体进行推断应作统计学检验;率的标准化标准化率,是为了在比较两个不同人群的患病率、发病率、死亡率等资料时,消除内部构成如年龄、性别、工龄、病程长短等不同而不能直接比较所产生的影响;标准化率仅用于相互比较,不代表实际水平;当标准构成不同时,标准化率一般也不相同;标准构成的选取★从外部取一个公认的标准构成比,如全国范围或全省范围的数据、国际间比较时取世界通用标准; ★将几个组的观察例数合并,计算出合并的构成比,以其作为标准构成比;★取某一个组的构成比为标准构成比;医学中常用相对数指标死亡率,又称粗死亡率,表示某年某地每千人中的死亡人数;反映当地居民总体死亡水平;对不同地区的死亡率进行比较时,应注意不同地区人口年龄或性别构成的影响;若年龄或性别构成存在差异,需先将死亡率标化后再进行比较;年龄别死亡率,表示某年某地某年龄组每千人口中的死亡数;死因别死亡率,表示某年某地每10万人中因某种疾病死亡的人数;反映各类病伤死亡对居民生命的危害程度;死亡因构成,也称相对死亡比,表示全部死亡人数中,死于某死因者占总死亡数的百分比;反映各种死因的相对重要性;疾病统计指标发病率,表示在一定期间内,一定人群中某病新发生的病例出现的频率;反映疾病对人群健康影响和描述疾病分布状态的一项测量指标;患病率,也称现患率,表示某一时点某人群中患某病的频率;反映病程较长的慢性病的发生或流行情况;病死率,表示某期间内,某病患者中因某病死亡的频率;反映该疾病的严重程度和医疗水平;治愈率,表示接受治疗的病人中治愈的频率;第五章统计表与统计图统计表,把反映某事物的数量特征以及相互关系的统计数字用表格的形式归纳起来;特点:①避免冗长的文字叙述、减少篇幅;②便于表达事物间的内在联系和区别;③便于分析、比较并易于发现和纠正错误;编制原则a、重点突出,简单明了★一张表表达一个中心内容或主题;b、主谓分明,层次清楚★定语在标题内,主语作为横标目,谓语作为纵标目;c、数据表达规范、文字和线条从简结构a、标题★位于统计表的最上部,应包括表的编号;b、标目★纵标目标示相应一列或数列的内容;横标目标示相应行的内容;c、线条★不宜太多,一般为三线表;★不允许使用竖线与斜线;d、数字★一律使用阿拉伯数字;★同一指标的小数位数应一致,位次要对齐;★数值为零时应写“0”,缺省用“…”表示,不存在或不需要用“—”表示;e、备注★不是统计表的必须项目,需要时才用;★位于统计表的最下部,表格之外,用“”号标出;统计图统计图,是指用几何图形点、线段、直条等显示统计指标的大小、对比关系或变化趋势;特点:与统计表相比,统计图更加直观,更便于比较和分析;但它不能确切地显示数字大小,因此常与统计表一并使用;常用的统计图有:条图、圆图、百分条图、线图、直方图等;制作原则a、根据资料性质、分析目的选用适当的统计图b、一个图表达一个中心内容或主题;c、图形应准确、美观;结构a、标题★位于统计图的下方,应包括图的编号;b、图域★一般用直角坐标系第一象限的位置表示图域;c、标目★纵标目和横标目,表示纵轴和横轴数字刻度;★一般有度量衡单位;d、图例★对图中不同颜色或图案代表的指标进行注释;★图例放在横标目与标题之间,或放在图域中;e、刻度★刻度数值从小到大,纵轴由下向上,横轴由左向右;描述定量数据的统计图直方图,用于表示连续变量频数分布情况;线图,适用于描述一个变量随另一个变量变化的趋势;半对数线图,用来比较事物之间相对的变化速度;箱图,适用于比较多组资料的集中趋势和离散趋势;一般选用五个描述统计量Min、P25、M、P75、Max 来绘制;误差条图,适用于比较多组资料的均值和可信区间;散点图,用点的密集程度和变化趋势来表示两指标之间的直线或曲线关系;条图,适用于各组资料之间指标的比较;圆图,描述一组构成比资料;百分条图,描述多组构成比资料第六章参数估计抽样误差:由个体差异和抽样造成的样本统计量与总体参数的差异;包括:样本统计量与总体参数间的差异,样本统计量间的差异;具有如下特点:1、各样本均数未必等于总体均数;2、各样本均数间存在差异;3、样本均数的分布围绕着总体均数呈现中间多、两边少、左右基本对称,近似服从正态分布;4、样本均数的变异范围较之原变量的变异范围小;5、随着样本含量的增大,样本均数的变异范围逐渐缩小;均数的标准误标准误standard error ,SE,指样本统计量的标准差;均数的标准误standard error ofmean,SEM,指样本均数的标准误;它反映样本均数间的离散程度,反映样本均数与相应总体均数间的差异,说明了均数抽样误差的大小;在n一定的情况下,标准误与标准差呈正比,说明当总体中各观测值变异较小时,抽到的X拔与μ可能相差较小,X拔用估计μ的可靠程度高;反之,当总体中各观测值变异较大时,可靠程度较低;标准误与样本含量的平方根呈反比,说明在同一总体中随机抽样,n越大,标准误越小;率的抽样误差率的标准误standard error of rate,SER,指样本率的标准误;它反映样本率间的离散程度,反映样本率与相应总体率间的差异,说明了率抽样误差的大小;总体率标准误用σp 表示,样本率标准误用Sp 表示;总体均数的估计概述点估计point estimation,是用样本统计量直接作为其总体参数的估计值;区间估计interval estimation,是按预先给定的概率1-α所确定的包含未知总体参数的一个范围;点估计:优点:表达简单缺点:未考虑抽样误差,无法评价参数估计的准确程度可信区间在区间估计中,预先给定的概率 1-α ,称为可信度 confidence level ,常取 95% 或 99% ;通过可信度,计算得到的区间范围,称为可信区间 confidence interval ,CI ;可信区间由两个数值界定的可信限 confidence limit ,CL 构成,较小的数值为下限 lowerlimit ,L ,较大的数值为上限 upper limit ,U ,一般表示为L~U ;可信度为95%可信区间的涵义:若重复100次样本含量相同的抽样,每个样本均按同一方法构建95%可信区间,则理论上平均有95个可信区间包含了总体均数,只有5个可信区间未包含;可信区间估计的优劣:准确性,反映可信度1-α的大小,其值越接近1越好;精确性,用可信区间的宽度CU-CL衡量,宽度越小越好;t分布t分布:主要用于总体均数的区间估计和t检验等;ν为自由度degree of freedom,df ,指能够自由取值的变量个数;t 分布的特点:1、t 分布图是一簇曲线,曲线的形态变化与自由度有关;2、随ν的增大,曲线越来越接近标准正态分布曲线;3、当ν→∞时,t 分布的极限分布就是标准正态分布;4、t 分布的密度曲线下面积有一定的规律性;在 t 界值表中,横标目为自由度,纵标目为尾部概率;一侧尾部面积称为单侧概率 one-tailed probability ,两侧尾部面积之和称为双侧概率 two-tailed probability ;从t 界值表中看出:在相同自由度时,│t│值越大,概率P 越小;小 结两总体均数差值的区间估计体阳性率可信区间; 大样本率的区间估计 在样本例数较大,且p 和1-p 均不太小,如np 与n1-p 均大于5时,样本率p 的抽样分布近似正态分布,可按正态分布近似法求总体率的1-α可信区间; 两总体率差值的区间估计 设两样本率分别为p1和p2,当n1与n2均较大,且p1 ,1- p1及p2 ,1- p2均不太小,如n1 p1 、 n11- p1 、 n2 p2 、 n21- p2均大于5时, 可采用正态近似法对两总体率差值进行可信区间估计; 第七章 假设检验假设检验hypothesis testing 也称显着性检验significancetest ,是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方估计绝大多数观察对象某项指标的分布范围 估计总体均数 用途 n 越大,参考值范围越稳定 n 越大,CI 越小;n→∞,CI→0 样本量 的作用正态分布: ±z α/2S双侧偏态分布:P x ~ P 100-x 双侧 σ未知: σ已知或σ未知但n>60: 计算 公式 参考值范围总体均数的可信区间 区别点法;假设检验的基本思想反证法思想:先提出假设,再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;小概率事件:是指在一次试验中基本上不大会发生的事件;假设检验的基本步骤a、建立假设无效假设null hypothesis,记为H0,指需要检验的假设,即μ1=μ2;b、确定检验水准检验水准 level of a test 也称为显着性水准 significancelevel ,是预先规定的判断小概率事件的概率尺度,记为α ;实际中一般取α= 或α= ;c、选择检验方法,计算统计量根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法和计算公式;如:t 检验、u 检验、F 检验、χ2检验;c、确定P 值,作出统计推断结论P 值probability value,指由H0所规定的总体做重复随机抽样,获得等于及大于当前检验统计量的概率;确定P 值的方法:依据检验统计量的自由度、检验水准,查检验统计量对应的界值表,通过检验界值,得到与检验统计量相对应的P 值范围;如:2=对应的P 值为;d、确定P 值,作出统计推断结论假设检验规定:如果一次试验结果•P≤α,拒绝H0 ,结论为“差别有统计学意义”;•P≥α,不拒绝H0 ,结论为“差别没有统计学意义”;P 值的习惯表述:P >称“不显着”not significant;P ≤称“显着” significant;P ≤称“非常显着”highly significant;假设检验中两类错误假设检验是利用小概率反证法思想,从问题的对立面H0出发间接判断要解决的问题H1是否成立,然后在假定H0成立的条件下计算检验统计量,最后根据P值判断结果,此推断结论具有概率性,因而无论拒绝还是不拒绝H0,都可能犯错误;检验效能 power of test ,指当两总体确有差别,按α 水准,假设检验能发现其差别的能力;记为1- β ;α愈小,β愈大;α愈大,β愈小;若要同时减小Ⅰ型错误和Ⅱ型错误,唯一方法是增加样本量;第七章单样本t 检验one sample t-test,适用于样本均X拔与已知均数μ0 的比较,目的是检验样本均数μ0所代表的未知总体均数μ 是否与已知总体均数μ0 有差别;已知总体均数μ0一般指理论值、标准值或经过大量观察所得到的稳定值;配对样本均数t 检验paired t-test,适用于配对设计的计量资料两相关样本均数的比较,目的是检验两相关样本均数所代表的未知总体均数是否有差别;配对设计paired design,是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理;配对设计处理分配方式:•将同一受试对象处理前后的结果进行比较;•同一受试对象随机分配接受不同处理;•同一标本的两个部位测试同一指标;•两个同质受试对象分别接受两种处理;两独立样本均数t检验two independent samples t-test,适用于完全随机设计两独立样本均数的比较,目的是检验两独立样本均数所代表的未知总体均数是否有差别;完全随机设计completely random design:从某研究总体随机抽取一定数量的研究对象,将其随机分配到两组,接受不同的处理后,测量某指标后进行组间比较;两独立样本均数t检验要求两样本所代表的总体方差相等 ,即方差齐性注意事项:a、假设检验结论正确的前提★作假设检验用的样本资料,必须能代表相应的总体,各对比组具有良好的组间均衡性;b、检验方法的选用及其适用条件★根据分析目的、研究设计、资料类型、样本量大小等选用适当的检验方法;。
医学统计学重点重点知识总结
医学统计学重点选择1.几何均数:平均血清抗体滴度(如P9例2.4)2.正态分布:横轴为μ(界值、面积)2.5% I1.962.5%单侧双侧90%: 1.6495%: 1.64 1.9699%: 2.583.P值与α的关系,α是人为规定的,它们之间没有关系;P值f,Qt(X)4.方差分析自由度V的计算,V总=nT;V组间=组数(k)-1;V组间=V总-V组间5.理论秩和(n(n+1)∕2),实际秩和(通过平均秩次算)6.可信区间的正确应用:总体参数有95%的可能落在该区间内(X);有95%的总体参数在该区间内(X);该区间包含95%的总体参数(X);该区间有95%的可能包含总体参数。
(X);这个区间的可信度为95%(√);总体参数只有一个,要么在区间内,要么不在7.相关系数与回归系数:相关系数为0,两个变量之间没有相关关系(X);回归系数t,相关系数t(X);(要做假设检验)二、名解1.参考值范围:根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计(可信区间):按一定的概率或可信度(bα)用一个区间估计总体参数所在范围。
这个范围称作可信度为1-a的可信区间,又称置信区间。
3.P值:拒绝HO时所冒的风险(或“作出拒绝HO而接受H1”结论时冒了P风险)4.a(第一类错误):HO真实时被拒绝(或HO真实时,拒绝H0,接受H1)5.β(第二类错误):HO不真实时不拒绝(或HO不真实时,不拒绝HO)1-β检验效能:对真实的H1做肯定结论之概率6.秩次:是指全部观察值按某种顺序排列的位序;7.秩和:同组秩次之和8.剩余标准差:扣除了X的影响后,Y方面的变异;引进回归方程后,Y方面的变异。
三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论。
分辨一个样本是否属于某特定总体等。
区间估计(可信区间):按一定的概率或可信度(1-a)用一个区间估计总体参数所在范围。
医学统计学知识点
第一章绪论1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。
2、研究对象:具有不确定性结果的事物。
3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。
4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。
5、医学统计学根本内容:统计设计、数据整理、统计描述、统计推断。
6、医学统计学中的根本概念(1) 同质与变异同质,指根据研究目的所确定的观察单位其性质应大致相同。
变异,指总体内的个体间存在的、绝对的差异。
统计学通过对变异的研究来探索事物。
(2) 变量与数据类型变量,是反映实验或观察对象生理、生化、解剖等特征的指标。
变量的观测值,称为数据分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。
〔如身高、体重、血压、温度等〕定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。
包括二分类、无序多分类。
〔进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、A B等〕有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。
统计方法的选用与数据类型有密切的关系。
〔3〕总体与样本总体,指根据研究目确实定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。
样本,是从研究总体中随机抽取局部有代表性的观察单位,对变量进行观测得到的数据。
抽样,是从研究总体中随机抽取局部有代表性的观察单位。
参数,指描述总体特征的指标。
统计量,指描述样本特征的指标。
〔4〕误差误差,指观测值与真实值、统计量与参数之间的差异。
可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。
随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。
抽样误差,是抽样引起的统计量与参数间的差异。
抽样误差主要来源于个体的变异。
医学统计学知识点总结
知识点1.统计学是应用概率论和数理统计的基本原理和方法,研究数据的搜集、整理、分析、表达和解释的一门学科。
2.医学统计学是应用统计学的基本原理和方法,研究医学及其有关领域数据信息的搜集、整理、分析、表达和解释的一门学科。
3.统计软件包是对资料进行各种统计处理分析的一系列程序的组合。
4.统计工作的基本步骤:研究设计、搜集资料、整理资料和分析资料。
5.科研结果的好坏取决于研究设计的好坏,研究设计是统计工作中的基础和关键,决定着整个统计工作的成败。
6.统计分析包括统计描述和统计推断。
统计描述是对已知的样本(或总体)的分布情况或特征值进行分析表述;统计推断是根据已知的样本信息来推断未知的总体。
7.医学原始资料的类型有:计量资料、计数资料、等级资料。
8.计量资料是用定量的方法对每一个观察单位的某项指标进行测定所得的资料。
9.计数资料是把观察单位按某种属性(性质)或类别进行分组,清点各组观察单位数所得资料。
10.等级资料是把观察单位按属性程度或等级顺序分组,清点各组观察单位数所得资料。
各属性之间有程度的差别。
等级资料的等级顺序不能任意颠倒。
11.同质:是指所研究的观察对象具有某些相同的性质或特征。
12.变异:是同质个体的某项指标之间的差异,即个体变异或个体差异性。
13.总体是根据研究目的确定的同质研究对象的总体。
样本是总体中具有代表性的一部分个体。
14.抽样研究是通过从总体中随机抽取样本,对样本信息进行分析,从而推断总体的研究方法。
抽样误差是由随机抽样造成的样本指标与总体指标之间、样本指标与样本指标之间的差异,其根源在于总体中的个体存在变异性,只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
15.统计学的主要任务是进行统计推断,包括参数估计和假设检验。
16.概率是某随机事件发生可能性大小(或机会大小)的数值度量。
概率的取值为0≤P≤1。
小概率事件是指P≤0.05的随机事件。
17.频数表和频数分布图的用途:(1)揭示计量资料的分布类型。
医学统计学知识点汇总
医学统计学知识点汇总医学统计学是指应用统计学原理和方法进行医学研究设计、数据分析和结果解释的学科。
医学统计学的知识点非常丰富,包括统计学基础知识、研究设计、样本量计算、控制方法、参数估计、假设检验和数据分析等方面。
以下是医学统计学知识点的一些精华汇总。
1.统计学基本概念:包括基本统计量(均值、中位数、众数)、数据类型(定量数据、定性数据)、数据的描述方法(频数分布表、直方图等)。
2.研究设计:包括随机对照试验、队列研究、病例对照研究等,了解不同研究设计的优缺点及适用场景。
3.样本量计算:确定研究样本量是保证研究结果可靠性的重要一环,需要根据研究目的、效应量和统计显著性水平确定样本量。
4.控制方法:包括随机分组、盲法、配对设计等,用于减少实验误差和避免偏倚。
5.参数估计:常用的参数估计方法有点估计和区间估计。
点估计是通过样本数据得到总体参数的一个点估计值,区间估计是对总体参数的一个区间估计。
6.假设检验:假设检验是用来判断样本数据与总体假设之间的差异是否显著的统计方法。
常用的假设检验方法有t检验、卡方检验、方差分析等。
7.数据分析:包括描述性统计分析和推断性统计分析。
描述性统计分析用来描述研究变量的基本情况,推断性统计分析用来推断样本数据与总体数据之间的关系。
8.相关分析:用来分析变量之间的关联程度,包括皮尔逊相关系数和斯皮尔曼等级相关系数等。
9. 回归分析:用来分析因变量与自变量之间的关系,包括线性回归分析和 logistic回归分析等。
10.生存分析:用来分析时间到达事件发生的概率,包括生存曲线的绘制、生存率的估计和影响因素的分析等。
11. 多变量分析:用来分析多个自变量对因变量的影响,包括多元方差分析、多元回归分析和多元Logistic回归分析等。
12. Meta分析:用于综合多个独立研究结果,对总体效应进行定量分析和综合评价。
以上是医学统计学的一些精华知识点的汇总。
医学统计学的应用非常广泛,不仅在医学研究中需要应用统计学的原理和方法,也在临床实践中需要对医学统计学知识有一定的了解和应用。
(完整版)医学统计学复习要点
(完整版)医学统计学复习要点第⼀章绪论1、数据/资料的分类:①、计量资料,⼜称定量资料或者数值变量;为观测每个观察单位某项治疗的⼤⼩⽽获得的资料。
②、计数资料,⼜称定性资料或者⽆序分类变量;为将观察单位按照某种属性或者类别分组计数,分组汇总各组观察单位数后⽽得到的资料。
③、等级资料,⼜称半定量资料或者有序分类变量。
为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后⽽得到的资料。
2、统计学常⽤基本概念:①、统计学(statistics)是关于数据的科学与艺术,包括设计、搜集、整理、分析和表达等步骤,从数据中提炼新的有科学价值的信息。
②、总体(population)指的是根据研究⽬的⽽确定的同质观察单位的全体。
③、医学统计学(medical statistics):⽤统计学的原理和⽅法处理医学资料中的同质性和变异性的科学和艺术,通过⼀定数量的观察、对⽐、分析,揭⽰那些困惑费解的医学问题背后的规律性。
④、样本(sample):指的是从总体中随机抽取的部分观察单位。
⑤、变量(variable):对观察单位某项特征进⾏测量或者观察,这种特征称为变量。
⑥、频率(frequency):指的是样本的实际发⽣率。
⑦、概率(probability):指的是随机事件发⽣的可能性⼤⼩。
⽤⼤写的P表⽰。
3、统计⼯作的基本步骤:①、统计设计:包括对资料的收集、整理和分析全过程的设想与安排;②、收集资料:采取措施取得准确可靠的原始数据;③、整理资料:将原始数据净化、系统化和条理化;④、分析资料:包括统计描述和统计推断两个⽅⾯。
第⼆章计量资料的统计描述1. 频数表的编制⽅法,频数分布的类型及频数表的⽤途①、求极差(range):也称全距,即最⼤值和最⼩值之差,记作R;②、确定组段数和组距,组段数通常取10-15组;③、根据组距写出组段,每个组段的下限为L,上限为U,变量X值得归组统⼀定为L≤X<U,最后⼀组包括下限。
医学统计学重点整理汇总
医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合。
总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。
用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3.资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料。
是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位。
(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析。
第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2.误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3.实验设计的三个基本原则:对照原则、随机化分组原则、重复原则。
医学统计学_总结_重点_笔记_复习资料
第一章2选1总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。
可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
总体population根据研究目的而确定的同质观察单位的全体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
样本sample从总体中随机抽得的部分观察单位,其实测值的集合。
3选1小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。
P值:P 值即概率,反映某一事件发生的可能性大小。
统计学根据显著性检验方法所得到的P 值反应结果真实程度,一般以P ≤ 0.05 认为有统计学意义, P ≤0.01 认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05 或0.01。
P值是:1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。
2) 拒绝原假设的最小显著性水平。
3) 观察到的(实例的) 显著性水平。
4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。
小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。
统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
资料的类型(3选1)(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。
计量资料measurement data定量资料quantitative data数值变量资料numerical variable为观测每个观察单位某项指标的大小,而获得的资料。
医学统计学知识点
医学统计学知识点1.数据类型:医学研究中使用的数据包括定类数据和定量数据。
定类数据是非数值型的数据,例如性别、种族等;定量数据是数值型的数据,例如年龄、体重等。
了解数据类型是分析数据的第一步。
2.数据收集:医学研究中的数据可以通过不同的方式收集,例如问卷调查、实验研究、观察等。
在数据收集过程中,需要注意样本的选择、数据的完整性和准确性。
3.描述统计学:描述统计学包括对数据的整体特征进行描述和总结。
常用的描述统计学方法包括中心趋势度量(例如均值、中位数、众数)、离散程度度量(例如标准差、方差)和数据分布描述等。
4.推断统计学:推断统计学是从样本数据推断总体特征的一种方法。
通过推断统计学,可以根据样本数据的统计量(例如样本均值、样本比例)来推断总体参数的区间估计或假设检验。
5.假设检验:假设检验是根据样本数据对总体参数提出假设,并通过计算概率值来判断是否接受或拒绝该假设。
常用的假设检验方法包括t检验、卡方检验、方差分析等。
6.相关分析:相关分析用于研究两个或多个变量之间的关系。
常见的相关分析方法有皮尔逊相关系数、斯皮尔曼相关系数等。
相关分析可以帮助研究者了解变量之间的线性关系和方向。
7. 回归分析:回归分析用于研究因变量与自变量之间的关系,并可用于预测因变量的数值。
常用的回归分析方法有简单线性回归分析、多元线性回归分析和 logistic 回归分析等。
8. 生存分析:生存分析用于研究时间相关的数据,例如疾病患者的生存时间或事件发生的时间。
生存分析方法包括 Kaplan-Meier 曲线、Cox 比例风险模型等。
9.双盲试验和随机分组:在医学研究中,双盲试验和随机分组是常用的研究设计方法。
双盲试验是指研究中既不知道接受治疗的病人,也不知道给予治疗的医生;随机分组是指将研究对象随机分配到不同的治疗组和对照组。
10.统计软件:为了进行医学统计分析,研究者可以使用专业的统计软件,例如SPSS、SAS、R等。
医学统计学-知识梳理
均数±2.58标准差: 表示集中位置、离散程度均数±2.58标准误: 表示平均水平、抽样误差大小P75一、标准差的主要作用是估计正常值的范围实际应用中, 估计观察值正常值范围应该用标准差(s), 表示为“Mean ±SD”。
此写法综合表达一组观察值的集中和离散特征的变异情况, 说明样本平均数对观察值的代表性。
s 的大或小说明数据取值的分散或集中。
s与样本均数合用, 主要是在大样本调查研究中, 对正态或近似正态分布的总体正常值范围进行估计。
如果不是为了正常值范围估计, 一般不用。
当数据与正态分布相差很大, 或者虽为正态分布, 但样本容量太小(小于30 或100), 也不宜用估计正常值范围。
二、标准差还可用来计算变异系数(CV)当两组观察值单位不同, 或两均数相差较大时, 不能直接用标准差比较其变异程度的大小, 须用变异系数系数来做比较。
:2.2 标准误的正确使用一、标准误用来衡量抽样误差的大小和了解用样本平均数来推论总体平均数的可靠程度。
在抽样调查中, 往往通过样本平均数来推论总体平均数, 样本标准误适用于正态或近似正态分布的数据, 是主要描述小样本试验中, 样本容量相同的同质的多个样本平均均数间的变异程度的统计量。
即如果多次重复同一个试验, 它们之间的变异程度用。
显然它越小, 样本平均数变异越小, 越稳定, 用样本平均数估计总体均数越可靠。
因此, 为说明它的稳定性、可靠性或通过几个对几组数据进行比较(这是科研论文中最常见的), 应当用描述数据。
实际应用中应该写成“平均数±标准误”或而英文表示为“Mean ±SE”的形式。
二、标准误还可以进行总体平均数的区间估计与点估计(置信区间)。
根据正态分布原理, 与合用还可以给出正态总体平均数的可信区间估计即推论总体平均数的可靠区间, 例如常用(其中t0.05 (n-1) 为样本容量是n的t界值)表示总体均值的95%可信区间, 意指总体平均数有95%的把握在所给范围内。
(完整版)医学统计学知识点汇总
医学统计学总结绪论1、随机现象:在同一条件下进行试验,一次试验结果不能确定,而在一定数量的重复试验之后呈现统计规律的现象。
2、同质:统计学中对研究指标影响较大的,可以控制的主要因素。
3、变异:同质基础上各观察单位某变量值的差异。
数值变量:变量值是定量的,由此而构成的资料称为数值变量资料或计量资料,其数值是连续性的,称之为连续型变量。
变量无序分类变量:所分类别或属性之间无顺序和程度上的差异分类变量:定性变量有序分类变量:有顺序和程度上的差异4、总体:根据研究目的确定的同质研究对象中所有观察单位某变量值的集合。
可以分为有限总体和无限总体。
5、样本:是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。
样本代表性的前提:同质总体,足够的观察单位数,随机抽样。
统计学中,描述样本特征的指标称为统计量,描述总体特征的指标称为参数。
6、概率:描述随机事件发生的可能性大小的一个度量。
若P(A)=1,则称A为必然事件;若P(A)=0,则称A为不可能事件;随机事件A的概率为0<P<1.小概率事件:若随机事件A的概率P≤α,则称随机事件A为小概率事件,其统计学意义为:小概率事件在一次随机试验中认为是不可能发生的。
统计描述1、频数分布有两个重要的特征:集中趋势和离散程度。
频数分布有对称分布和偏态分布之分。
后者是指频数分布不对称,集中趋势偏向一侧,如偏向数值小的一侧为正偏态分布,如偏向数值大的一侧为负偏态分布。
2、常用的集中趋势的描述指标有:均数,几何均数,中位数等。
均数:适用于正态或近似正态的分布的数值变量资料。
样本均数用x表示,总体均数用μ表示。
几何均数:适用于等比级数资料和对数呈正态分布的资料。
注意观察值中不能有零,一组观察值中不能同时有正值和负值。
中位数:适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料。
3、常用的离散程度的描述指标有:全距,四分位数间距,方差,标准差,变异系数。
全距:任何资料,一组中最大值与最小值的差。
医学统计学 重点知识总结
名词解释1、一类错误:拒绝了实际上成立的H。
,这类“弃真”的错误称为I型错误或第一类错误。
2、参数和统计量:这些总体的统计指标或特征值称为参数。
由样本所算出的统计指标或特征值称为统计量。
3、变异系数:亦称离散系数,为标准差与均数之比,常用百分数表示。
4、P值:即概率,反映某一事件发生的可能性大小。
5、检验效能:B称为检验效能或把握度,即两总体却有差别,按α水准能发现它们有差别的能力。
简答题1、描述数值变量资料(统计资料)的集中程度有哪些指标,有何运用条件?算数均数:单峰对称分布的资料几何均数:对数变换后的单峰对称的资料中位数:偏态分布,分布不明资料,有不确定值的资料。
百分位数:当样本含量较少时不宜用靠近俩端的百分位数来估计频数分布范围。
2、实验研究的基本要素和基本原则是什么?基本要素:处理因素、受试对象和实验效应。
基本原则:对照原则、随机化原则和重狂原则大题1、(1)变量资料(2)成组t检验对立性正态性方差齐性(3)H0ιμ1=μ2,新药与常规药物的疗效相同H1rμ1≠μ2,新药与常规药物的疗效不同α=0.05T=1.0195V=n1+n2-2=18(2)t<t0.05z18,p>0.05,按a=0.05水准,不拒绝H0,差别无统计学意义。
结论:t检验结果表明,故尚不能认为新药与常规药物的疗效相同。
2、(1)T=13×17/47=4.7(2)x2检验(3)X2>X2(0.05,1),p<0.05,按a=0.05水准,拒绝H0,接受HQ差别有统计学意义。
结论:x2检验结果表明,乙疗法比甲疗法好。
3、(1)成组设计两样本比较的秩和检验(2)实验组秩次:13、I15、8.5、14、15.5、15.5、17、18对照组秩次:1、2、4、3、5、6、8.5、7、10、11.5(3)H0:两组局部温热的疗效总体分布相同H1:两组局部温热的疗效总体分布不同4(1)Ho:P=O,即母体内时间与体重无线性相关关系H1:P≠0,即母体内时间与体重有线性相关关系a=0.05F>5.23,拒绝HO,接受HI,相关系数有统计学意义。
(完整版)医学统计学重点总结
1.简述总体和样本的定义,并且举例说明。
总体是研究目的确定的所有同质观察单位的全体。
样品是从研究总体中抽取部分有代表性的观察单位。
2.简述参数和统计量的定义,并且举例说明。
描述总体特征的指标称为参数,描述样本特征的指标称为统计量。
3.变量的类型有哪几种?举例说明各种类型变量有什么特点。
①定量数据:计量资料;定量的观测值是定量的,其特点是能够用数值的大小衡量其水平的高低。
②定性数据:计数资料;变量的观测值是定性的,表现为互不相容的类别或属性。
③有序数据:半定量数据/等级资料;变量的观测值是定性的,但各类别(属性)有程度或顺序上的差异。
4.请举例说明一种类型的变量如何变换为另一种类型的变量。
定量数据>有序数据>定性数据--------------->5.请简述什么是小概率事件?概率是描述事件发生可能性大小的度量,P 0.05事件称为小概率事件。
≤6.举例说明什么是配对设计。
配对设计是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。
①同源配对:同一受试对象或同一标本的两个部分,随机分配接受两种不同处理;②异源配对:为消除混杂因素的影响,将两个同质受试对象配对分别接受两种处理。
7.非参数假设检验适合什么类型数据进行分析?①总体分布类型未知或非正态分布数据;②定量或半定量数据;③数据两端无确定的数值。
8.简述P 25 P 50 P 75的统计学意义。
(条件:明显偏态且不能转化为正态或近似对称;一端或两端无确定数值;分布情况未知)用来描述资料的观测值序列在某百分位置的水平,四分位数间距可以作为说明个体差异的指标(说明个体在不同位置的变异情况)。
9.直条图、直方图、圆饼图的使用条件是什么?直条图:各自独立的统计指标的数值大小和他们之间的对比;直方图:连续变量频数分布情况;圆饼图:全体中各部分所占的比例。
10.统计分析包括哪两个方面的内容?为什么要进行统计推断?统计描述和统计分析;统计描述用来描述及总结一组数据的重要特征,其目的是使实验或观察得到的数据表达清楚并便于分析。
医学统计学重点知识总结
医学统计学第一章 绪言研究设计、资料分析、结论定量资料:以定量值表达每个观察单位的某项观察指标,如血脂心率等。
定性资料:以定性方式表达每个观察单位的某项观察指标,如血型性别等。
等级资料:以等级方式表达每个观察单位的某项观察指标,如疗效分级等。
总体:是指按研究目的所确定的研究对象中所有观察单位某项指标取值的集合。
样本:是指从研究总体中随机抽取具有代表性的部分观察单位某项指标取值的集合。
(以上均可能考名解)描述某总体特征的指标称为总体参数,简称参数;描述某样本特征的指标称为样本统计量,简称统计量。
概率是随机事件发生可能性大小的一个度量,概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。
定量资料的统计指标(大题):算术均数,几何均数,中位数和百分位数。
同质性与异质性:同质是指观察单位具有相同的性质,是构成研究总体的必备条件;异质性是指性质不同,研究内容不同,对同质性的要求不同。
第二章 个体变异与变量分布变异(名解):是以具有同质性的观察单位为载体,某项观察指标在观察单位之间显示的差别。
【在同质的基础上各观察单位(或个体)之间的差异】 正偏态与负偏态【2.3节为重点,尤其是统计指标与图的关系】几何均数应用于比值数据,中位数适用于偏态分布离散趋势指标(重点简答):全距,四分位数间距,方差,标准差和变异系数,其中常用的是标准差和变异系数。
变异系数(名解):亦称离散系数,是标准差s 与均数x 之比,即XS CV X100%,变异系数常用于比较度量衡单位不同的两组或多组资料的变异度、比较均数相差悬殊的两组或多组资料的变异度。
如何正确使用相对数(选择或简答):1,计算相对数的分母不宜过小。
2,分析时不能以构成比代替率。
3,对观察单位数不等的几个率,不能直接相加求其平均率(或称总率)。
4,计算率时要注意资料的同质性,对比分析时应注意资料的可比性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学统计学知识点汇总(精华)一.概论1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。
2,医学统计学的主要内容:1)统计研究设计调查研究设计和实验研究设计2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。
A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。
3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。
3,统计工作步骤:1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。
2)搜集材料A,搜集材料的原则及时、准确、完整B,统计资料的来源医学领域的统计资料的来源主要有三个方面。
一是统计报表,二是经常性工作记录,三是专题调查或专题实验。
C,资料贮存3)整理资料 a检查核对b设计分组c拟定整理表d归表4)分析资料统计分析包括统计描述和统计推断4,同质(homogeneity):指被研究指标的影响因素相同。
变异(variation):同质基础上的各观察单位间的差异。
变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。
变量类型变量值表现实例资料类型数值变量离散型定量测量值,有计量单位产前检查次数计量资料连续型身高分类变量无序二分类对立的两类属性性别(男女)计数资料多分类不相容的多类属性血型(A,B,O,AB)有序多分类类间有程度差异的属性受教育程度(小学,中学,高中,大学…)等级资料5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。
总体具有的基本特征是:同质性样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。
样本必须具有代表性。
代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。
统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。
参数(parameter)描述总体变量值特征的指标(总体率,标准差,总体均数)。
抽样误差(sampling error):由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的统计量往往不等,统计量与参数也会有所不同。
这种因抽样研究引起的差异称抽样误差。
随机事件(random event)对随机试验的各种可能结果的集合。
概率(probability)描述随机事件发生的可能性大些哦的一个度量。
小概率事件若随机事件A的概率P(A)≤α,习惯上,α=0.05时,就称A为小概率事件。
其统计学意义是小概率事件在一次随机试验中认为不会发生。
抽样误差1,抽样误差(sampling error)由抽样而造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异。
在医学统计学中,常把由抽样造成的样本均数与总体均数间的差异称为均数的抽样误差;由抽样造成的样本率与总体率之间的差异称为率的抽样误差。
2,样本均数的标准差(简称标准误,standard error)反映均数的抽样误差大小的指标。
大,抽样误差大;反之,小,抽样误差小。
(3.1)实际工作中往往未知的,可用样本标准差s作的估计值,计算标准误的估计值。
(3.2)3,标准误的用途:a,衡量样本均数的可靠性;b,估计总体均数的置信区间;3,用于均数的假设检验。
4,标准误的估计值的用途:a,描述抽样误差的大小;b,总体参数的估计;c,用来进行假设检验。
5,率的抽样误差:由抽样造成的样本率与总体率的差异称为率的抽样误差。
衡量率的抽样误差大小的指标是率的标准误。
越小,率的抽样误差越小;越大,率的抽样误差越大。
(3.3)其中为总体率。
实际工作中,由于往往是未知的,可用样本率p作的估计值,计算率的标准误的估计值。
(3.4)。
标准差(s)标准误计算公式s=(1)表示观察值的变异程度(1)估计均数的抽样误差的大小(2)估计总体均数的可信区间(2)计算变异系数CV=100%(,)(3)确定医学参考值范围(3)进行假设检验(4)计算标准误简述标准差、标准误的区别与联系?区别:(1)含义不同:标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。
标准误估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。
(2)与n的关系不同: n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。
(3)用途不同:标准差表示x的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。
联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
标准差:标准误:二.分布正态分布1,正态分布的函数其中为总体均数,为总体标准差,为圆周率,为自然对数的底,且仅为变量。
以为横轴,以为纵轴,当均数和标准差已知时即可绘出正态分布曲线。
为应用方便,将式中进行变量变换,使原来的正态分布变为的标准正态分布,亦称分布。
被称为标准正态变量或标准正态离差,将代入上述公式即得标准正态分布的密度函数。
(2.17)(2.18)2,正态分布的特征(1)正态曲线(normal curve)在横轴上方均数处最高。
(2)正态分布以均数为中心,左右对称。
(3)正态分布有2个参数(parameter),即均数(位置)和标准差(形状)。
当固定不变时,越大,曲线沿横轴越向右移动;反之,越小,则曲线沿横轴越向左移动。
当固定不变时,越大,曲线越平阔;越小,曲线越尖峭。
通常用N (,)表示均数为、方差为的正态分布。
用(0,1)表示标准正态分布。
(4)正态分布在1处各有一个拐点。
(5)正态曲线下面积的分布有一定规律。
3,常用的两个区间: 1.96及 2.58的区间面积分别占总面积的95%及99%。
4,正态分布的应用1),制定医学参考值范围a,正态分布法适用于正态或近似正态分布的资料双侧界值:;单侧上界:,或单侧下界:。
b,对数正态分布法适用于对数正态分布资料双侧界值:;单侧上界:,或单侧下界c,百分位数法常用于偏态分布资料及资料中一端或两端无确切数值的资料。
双侧界值:和;单侧上界:,或单侧下界:。
2)正态分布是多种统计方法的理论基础如t分布,F分布,分布都是在正态分布的基础上推导出来的,分布也是以正态分布为基础的。
另外t分布,二项分布,poisson分布的极限为正态分布,一定条件下可按正态分布原理处理。
t分布1,t分布:(3.5)t分布的特征为:1.以0为中心,左右对称的单峰分布。
2. t分布曲线形态变化与自由度的大小有关。
自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布)。
当=时,t分布为u分布。
t界值表附图中非阴影部分面积的概率为:2,总体均数的估计:用样本指标估计总体参数称为参数估计,是统计推断的一个重要方面。
总体均数的估计有2种方法。
一是直接用统计量估计总体参数,称为点值估计。
由于抽样误差的存在,此法很难估计准确。
二是区间估计(interval estimation)法。
区间估计是按一定的概率100(1-)%估计总体均数所在的范围,亦称可信区间(confidence interval,CI)。
常取的可信度为95%和99%,即95%可信区间和99%可信区间。
计算方法有3种:(1)未知且n小按t分布原理用式(3.6)计算可信区间。
由于将代入,得则总体均数的100(1-)%可信区间的通式为:(3.6)或写成(,)。
(2)未知,但n足够大时(n>100) t分布逼近u分布,按正态分布原理,用式(3.7)估计可信区间。
()(3.7)(3)已知按正态分布原理,用式(3.8)估计可信区间。
()(3.8)标准正态分布(u分布)与t分布有何异同?答:相同点:t分布和标准正态分布(u分布)都是以0为中心的正态分布。
标准正态分布是t分布的特例(自由度是无限大时)。
不同点:t分布为抽样分布,u分布为理论分布;t分布比标准正态分布的峰值低,且尾部翘得更高;t分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t分布有无数条曲线,而u分布只有唯一一条曲线。
二项分布1,二项分布(binomial distribution)是对只具有2种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。
二项分布概率公式:(3.9)式中n为独立的贝努力试验次数,为成功的概率,(1-)为失败的概率,X为在n 次贝努力试验中出现“成功”的次数,表示在n次试验中出现X的各种组合数,在此称为二项系数(binomial coefficient)。
2,二项分布的应用条件:(1)各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡。
(2)已知发生某一结果(阳性)的概率为,其对立结果的概率为1-,实际工作中要求是从大量观察中获得比较稳定的数值。
(3)n次试验在相同条件下进行,且各个观察单位的观察结果相互独立。
3,二项分布的性质:A,二项分布的均数和标准差在二项分布的资料中,当和n已知时,它的均数及其标准差如下:=n(3.11)(3.12)若均数和标准差不用绝对数表示,而是用率表示时,即对式(3.11)(3.12)分别除以n,得:(3.13)(3.14)是样本率的标准误的理论值,当未知时,常用样本率p作为的估计值,则:(3.15)B,二项分布的累计概率二项分布的累计概率(cumulative probability)常用的有左侧累计和右侧累计2种方法。
从阳性率为的总体中随机抽取n个个体,则(1)最多有k例阳性的概率(3.16)(2)最少有k例阳性的概率(3.17)D,二项分布的形状取决于和n的大小:(1)当=0.5时,分布对称;当<0.5时,分布呈正偏态,且固定n时,越小,分布越偏;当>0.5时,分布呈负偏态,且固定n时,越大,分布越偏。
(2)对固定的,分布随n的增大趋于对称。
4,总体率的估计总体率的估计也有点估计和区间估计,点估计是简单地用样本率来估计总体率;区间估计是求出总体率的可能范围。
样本率的理论分布和样本含量n、阳性率p的大小有关,所以需要根据n和p的大小不同,分别选用下列2种方法。
(一)查表法当样本含量n较小,如n≤50,特别是p很接近于0或1时,按二项分布的原理估计总体率的可信区间。