医学统计学总结
医学统计学总结
医学统计学总结医学统计学总结1、随机现象:在同一条件下进行试验,一次试验结果不能确定,而在一定数量的重复试验之后呈现统计规律的现象。
2、同质:统计学中对研究指标影响较大的,可以控制的主要因素。
3、变异:同质基础上各观察单位某变量值的差异。
数值变量:变量值是定量的,由此而构成的资料称为数值变量资料或计量资料,其数值是连续性的,称之为连续型变量。
变量无序分类变量:所分类别或属性之间无顺序和程度上的差异分类变量:定性变量有序分类变量:有顺序和程度上的差异4总体和无限总体。
5、样本:是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。
样本代表性的前提:同质总体,足够的观察单位数,随机抽样。
统计学中,描述样本特征的指标称为统计量,描述总体特征的指标称为参数。
6、概率:描述随机事件发生的可能性大小的一个度量。
若P(A)=1,则称A为必然事件;若P(A)=0,则称A为不可能事件;随机事件A的概率为0<P<1.小概率事件:若随机事件A的概率P≤α,则称随机事件A为小概率事件,其统计学意义为:小概率事件在一次随机试验中认为是不可能发生的。
统计描述1、频数分布有两个重要的特征:集中趋势和离散程度。
频数分布有对称分布和偏态分布之分。
后者是指频数分布不对称,集中趋势偏向一侧,如偏向数值小的一侧为正偏态分布,如偏向数值大的一侧为负偏态分布。
2、常用的集中趋势的描述指标有:均数,几何均数,中位数等。
均数:适用于正态或近似正态的分布的数值变量资料。
样本均数用_表示,总体均数用μ几何均数:适用于等比级数资料和对数呈正态分布的资料。
注意观察值中不能有零,一组观察值中不能同时有正值和负值。
中位数:适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料。
3、常用的离散程度的描述指标有:全距,四分位数间距,方差,标准差,变异系数。
全距:任何资料,一组中最大值与最小值的差。
四分位数间距:适用于偏态分布以及分布的一端或两端无确切数据资料。
医学统计学知识点总结
医学统计学知识点总结医学统计学1. 对定量资料进⾏统计描述时,如何选择适宜的指标?定量资料统计描述常⽤的统计指标及其适⽤场合描述内容指标意义适⽤场合平均⽔平均数个体的平均值对称分布⼏何均数平均倍数取对数后对称分布中位数位次居中的观察值①⾮对称分布;②半定量资料;③末端开⼝资料;④分布不明众数频数最多的观察值不拘分布形式,概略分析调和均数基于倒数变换的平均值正偏峰分布资料变异度全距观察值取值范围不拘分布形式,概略分析标准差(⽅差)观察值平均离开均数的程度对称分布,特别是正态分布资料四分位数间距居中半数观察值的全距①⾮对称分布;②半定量资料;③末端开⼝资料;④分布不明变异系数标准差与均数的相对⽐①不同量纲的变量间⽐较;②量纲相同但数量级相差悬殊的变量间⽐较定性资料:阳性事件的概率,概率分布,强度和相对⽐。
2. 应⽤相对数时应注意哪些问题?答:(1)防⽌概念混淆相对数的计算是两部分观察结果的⽐值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。
(2)计算相对数时分母不宜过⼩样本量较⼩时以直接报告绝对数为宜。
(3)观察单位数不等的⼏个相对数,不能直接相加求其平均⽔平。
(4)相对数间的⽐较须注意可⽐性,有时需分组讨论或计算标准化率。
3. 常⽤统计图有哪些?分别适⽤于什么分析⽬的?常⽤统计图的适⽤资料及实施⽅法图形适⽤资料实施⽅法条图组间数量对⽐⽤直条⾼度表⽰数量⼤⼩直⽅图定量资料的分布⽤直条的⾯积表⽰各组段的频数或频率百分条图构成⽐⽤直条分段的长度表⽰全体中各部分的构成⽐饼图构成⽐⽤圆饼的扇形⾯积表⽰全体中各部分的构成⽐线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系散点图双变量间的关联点的密集程度和形成的趋势,表⽰两现象间的相关关系箱式图定量资料取值范围⽤箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布⽤茎表⽰组段的设置情形,叶⽚为个体值,叶长为频数第3章概率分布(连续随机变量的正态分布;离散随机变量的⼆项分布及Poisson分布)1. 服从⼆项分布及Poisson分布的条件分别是什么?⼆项分布成⽴的条件:①每次试验只能是互斥的两个结果之⼀;②每次试验的条件不变;③各次试验独⽴。
医学统计学总结2
九、非参数秩和检验1、非参数统计:有许多资料不符合参数统计的要求,分布是未知,不能用参数统计的方法进行检验,而需要一种不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验,而是对总体的分布或分布位置进行检验,成为非参数检验2、参数检验与非参数检验的比较3、秩和检验:是非参数统计中一种常用的检验方法,其中“秩”又称等级、即按数据大小排定的次序号,上述次序号的和称“秩和”,秩和检验就是用秩和作为统计量进行假设检验的方法4、配对资料符号的秩和检验(1)基本思想假定两种处理效应相同,则差值的总体分布对称,总体中位数为0,也就是说样本的正负秩和绝对值应相近;反之,若两种处理效应不同,则差值总体中位数不为0,中位数偏离0越明显,样本的正负秩和绝对值就会相差越大,原假设H0成立的可能性越小(2)适用条件:1)配对设计的计量资料,但不服从正态分布或分布未知2)配对设计的等级资料(3)一般步骤:1)建立检验假设,确定检验水准H0:差值的总体中位数为0H1:差值的总体中位数不为0a=0.052)编秩次并求秩和统计量先算出各对值的代数差,根据差值绝对值的大小编秩,将秩次冠以正负号;若差值为“0”,舍去不计,总的对子数也要减去此对子数(记为n);若遇到相同数值在不同组,要取平均秩次;最后分别计算正负秩次之和T+和T-,任取其中一个作为检验统计量T(习惯取较小者)3)确定P值,作出推断①当5<n≦50时,可根据n和T查配对设计用的T界值表,若检验统计量T值在上下界值范围内,则P值大于表上方对应的概率值,即0.05;若T值在上下界值外,则P值小于表上方对应的概率值②当n>50时,无法查表,可利用秩和分布的近似正态分布法进行检验;当相同秩次较多时,应采用校正公式进行校正(公式不用记)5、两独立样本比较的秩和检验(1)基本思想如果H0成立,在两样本来自分布相同的总体,两样本的平均秩次应相等或很接近,与总的平均秩次(N+1)/2相差较小;含量为n1的样本的秩和T1应在n1(N+1)/2的左右变化;若T 值偏离此值太远,H0发生的可能性就很小;若偏离出给定的a值所确定的范围内,即P<a,拒绝H0(2)适用条件:完全随机设计的两个样本比较,若不满足参数检验的应用条件,则用本法;两个等级资料比较(3)查表法1)建立假设检验,确定检验水准H0:两总体分布相同H1:两总体分布不同a=0.052)确定秩和检验统计量T首先编秩号,排序时若有相同数据,取平均秩次,进而将两组数据的秩次分别求和,若两组例数相同,则任取一组的秩和作为统计量;若两组秩次不同,则以例数较小者对应的秩和作为统计量3)确定P值,作出推断结论当n1≦10,n2-n1≦10时,查两样本比较的T界值表,将检验统计量T值与T的临界值作为比较,如果T在界值范围内,则P值大于表上方的概率值(0.05),;若T等于界值或在界值范围外,则P值等于或小于表上方的概率值(4)正态近似法当n1或n2-n1超过10时,可用正态近似法计算z值进行z检验;当相同秩次较多时(尤其等级资料),z值需进行校正(公式不用记)6、多个独立样本比较的秩和检验(1)基本思想:如果总体分布位置相同,各组的秩和应该相差不大(2)适用条件:不满足参数检验的应用条件的完全随机设计的多个样本比较;多个等级资料比较(3)一般步骤:1)建立假设,确定检验水准H0:多个总体分布相同H1:多个总体分布不全相同2)计算检验统计量H将多组数据从小到大混合编秩,如有相等数值则取平均秩次;然后分别计算各组的秩和;最后计算H如果相同秩次较多,使用校正公式更加准确3)确定P值,作出推断结论①当k=3,每组例数≦5,查H界值表②k>3,ni>5,近似服从v=k-1的X2分布,查X2界值表7、参数统计和非参数统计的优缺点十、线性相关与回归1、相关:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关;两个变量有共变现象,称为有相关关系;相关关系不一定是因果关系,有可能是伴随关系2、直线相关的资料要求:双变量正态分布3、相关系数:是指衡量两个连续变量之间关联的强度的指标,样本的相关系数用r表示,总体的相关系数用表示;取值范围:-1≦相关系数≦1(1)正相关:0<r≦1,散点云图是斜向上的,这时一个变量增加,另一个变量将增加(2)负相关:-1≦r<0,散点云图是斜向下的,这时一个变量增加,另一个变量将减少(3)相关系数的绝对值越接近1,两变量的关联程度越强;相关系数的绝对值越接近0,两变量的关联程度越弱4、相关系数的显著性检验(1)查表法:当n≦52,v=n-2,查r界值表得到P值1)建立检验假设,确定检验水准H0:=0,XX与XX之间不存在相关关系H1:≠0,XX与XX之间存在相关关系a=0.052)计算统计量3)确定P值,作出结论查r界值表(2)t检验法:当n>52,计算检验统计量tr,查t界值表得到P值1)建立检验假设,确定检验水准2)计算统计量3)确定P值,作出结论查t界值表5、相关注意事项(1)线性相关的前提条件是X、Y都服从正态分布(双变量正态分布)(2)必须在假设检验认为相关的前提下才能以r的大小判断相关程度(3)相关关系并不一定是因果关系,有可能是伴随关系6、自变量(X):原因、容易得到的、变化小的7、因变量(Y):结果、不容易得到的、变化大的8、线性回归:当两个变量存在准确、严格的直线关系时,可以用Y=a+bX,表示两者的函数关系,但在实际生活当中,由于其他因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归——Y^=a+bX(1)式中的Y^是由自变量X推算因变量Y的估计值,a是回归直线在Y轴上的截距,即X=0时的Y值;b为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y 平均变动b个单位(2)计算原理:最小二乘法,该方法的原则是保证各实测点到回归直线的纵向距离的平方和最小,从而使计算出的回归直线最能代表实测数据所反映出的直线趋势9、回归方程的假设检验:总体的回归系数一般用β表示(1)方差分析基本思想:如果X与Y之间无线性回归关系,则SS回归与SS残差都只包含随机因素对Y的影响,因此其均方MS回归与MS残差应近似相等,如果两者差别较大,并超出能够用随机波动解释的程度,则认为回归方程具有统计学意义1)建立检验假设,确定检验水准H0:β=0,即XX与XX间无线性回归关系H1:β≠0,即XX与XX间有线性回归关系a=0.052)计算统计量3)确定P值,得出统计结论查F界值表(2)t检验1)建立检验假设,确定检验水准2)计算统计量Sb是样本回归系数b的标准误,反映样本回归系数与总体回归系数之间的抽样误差Sy|x是剩余标准差,表示因变量Y对于回归直线的离散程度3)确定P值,作出结论10、线性回归分析的注意事项(1)只有将两个内在有联系的变量放在一起进行回归分析才是有意义的(2)作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X,以“果“的变量为Y;如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X(3)在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量都应该服从正态分布),也可以是给定的量(I型回归模型,在X取值固定时Y服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换(4)回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义(5)使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围外11、线性相关和回归的区别和联系(1)相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量都应该服从正态分布),也可以是给定的量(I型回归模型,在X取值固定时Y服从正态分布)(2)线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系是单向的(3)如果对同一资料进行相关与回归分析,则得到的相关系数r与回归方程中的b正负号是相同的(4)无论是相关分析还是回归分析,求出r或b后都要进行假设检验;实际上,对同一样本可以得出r与b互化的公式,同一样本的两种假设检验也是等价的r与b的符号一致,检验等价——t r=t b=(5)相关回归可以相互解释R的平方称为确定系数;R2=r2=SS回归/SS总;R2表示回归平方和在总平方和中所占的比重,即R2越接近1,说明回归效果越好十一、统计表与统计图1、统计表:是把统计资料和统计分析结果用表格的形式进行表达,其目的是简洁、清晰和直观,方便对比和阅读2、统计表的编制原则(1)重点突出,简单明了(2)主谓分明,层次清楚(3)格式规范3、统计表的结构(1)外形上包括:标题、标目、线条、数字及备注(注释)(2)内容上包括:1)主语:被研究的事物,在表的左边作为横标目2)宾语:说明主语的各项指标,在表的右侧3)定语:在标题内4、制作统计表的基本要求(1)标题:是统计表的总名称,放在表的上方中间位置,简明扼要地说明表的主要内容,包括时间、地点和研究内容(2)标目:用来说明表内数据涵义的文字;横标目位于表的左侧;纵标目位于表头右侧;总标目主要是对纵标目内容的概况,在需要时才设置;标目要尽可能简单、明了,指标的单位标示需清楚(3)线条:一般采用“三线表”的格式;表的顶线和底线把表的主要内容与标题分隔开,中间一条线把纵标目与数据分隔开,不宜使用竖线和斜线;如果某些标目或数据需要分层显示,可用短横线分隔(4)数字:用阿拉伯数字表示,位数对齐,小数位数一致;表内不留空格,无数字用“-”表示,缺失数字用“...”表示,并最好以备注的形式进行说明;若数字是“0”,则填写“0”(5)备注:位于表的下方,不列入表内5、统计图:是把数据资料以图示的形式表达,使数据对比更加形象、直观、一目了然6、统计图的制作原则(1)必须根据资料的性质、分析目的及表达效果选用适当的统计图(2)一个图通常只表达一个中心内容和一个主题,即一个统计学指标(3)绘制图形应注意准确、美观,图线粗细适当,定点准确,不同事物用不同线条或颜色表示,给人以清晰的印象7、绘制统计图的基本要求(1)标题:其作用是简明扼要地说明统计资料的内容、时间和地点,一般位于图的下方中央位置并编号,便于引用和说明(2)图域:一般用直角坐标系第一象限的位置表示图域,或者用长方形框架表示;纵横轴长度比例为5:7(3)标目:分为纵标目和横标目,分别表示纵轴和横轴数字刻度的意义,如有度衡量单位则要标出(4)图例:对图中不同颜色或图案代表的指标注释;通常放在横标目与标题之间(5)刻度:刻度可在内侧或外侧,其数值一般按从小到大的顺序,纵轴由下向上,横轴由左向右8、直方图:用直条矩形面积代表各组频数,各矩形面积总和代表频数的总和;主要用于表示连续变量频数分布情况9、线图:是通过线段的上升或下降来表示指标(变量)的连续变化过程,适用于描述一个变量随另一个变量变化的趋势和波动情况;通常纵坐标是统计指标,横坐标是时间变量10、半对数线图:是一种特殊的线图,纵坐标按对数尺度(通常采用常用对数)给出,横坐标仍按算术尺度,适用于描述研究指标变化的速度,比较事物之间相对的变化速度11、箱式图:用于比较两组或多组数据的平均水平和变异程度,各组数据均可呈现其平均水平、四分位间距、最小值和最大值,主要适用于描述偏态分布的资料;中间的横线表示中位数,箱体的长度表示四分位间距,两端分别是P75和P2512、散点图:用点的密集程度和变化趋势表示两指标之间的直线或曲线关系;适用于双变量资料13、直条图:又称条图,即用等宽直条的长短来表示相互独立的统计指标数值大小和它们之间的对比关系,统计指标既可以是绝对数也可以是相对数;纵轴坐标刻度必须从“0”开始;适用于各组统计指标的比较14、误差条图:用于比较多组资料的均值和标准差(或标准误、可信区间)15、百分条图:适用于描述一个计数资料的构成比或比较多个计数资料的构成比;以长条面积为100%,用长条内各段面积所占的百分比来表示各部分在全体中所占的比例16、圆图:把圆的总面积作为100%,表示事物的全部,而圆内各扇形面积用来表示全体中各部分所占的比例;适用于构成比资料十二、研究设计1、实验设计:是指研究者根据研究目的和条件,结合统计学要求,合理安排各种实验因素,严格控制实验误差,最大限度地获得丰富而可靠的数据;周密的研究设计,可以节省人力、物力、财力和时间,使研究因素的效应得以充分体现2、实验设计三要素(1)研究对象:是指根据研究目的而确定的观察总体,也称为受试对象/受试者或实验对象在实验开始前应对研究对象的条件做出严格的规定,以保证其同质性:1)研究对象应具有明确的纳入标准和排除标准2)选择对处理因素敏感的研究对象3)选择依从性好的受试者作为研究对象4)注意医学伦理学问题(2)处理因素:又称研究因素,是指根据研究目的施加于研究对象的干预措施处理水平:处理因素在实验中所处的状态称为因素的水平混杂因素:在实验过程中,除处理因素外也能使受试对象产生效应的因素(非处理因素),它可能干扰处理因素与效应间的关系在确定处理因素时,需注意以下两点:1)处理因素要标准化:处理因素在整个实验过程中应始终保持不变,有利于分析处理因素与实验结果之间的关系2)明确处理因素和非处理因素(3)实验效应:是处理因素作用于受试对象产生的反应和结果,通过具体的观察指标来表达1)主观指标和客观指标:选用的指标要尽量客观,客观指标不易受主观因素影响2)选择灵敏度和特异度高的指标①灵敏度:是指某处理因素存在时,所选指标能够反映处理因素的效应程度,即反映指标检出真阳性的能力②特异度:是指某处理因素不存在时所选指标不显示处理效应的程度,即反映指标鉴别真阴性的能力3)观察指标的准确度和精密度①准确度:是指研究结果与相应测定事物真实情况符合或接近的程度,主要受系统误差的影响②精密度:是指相同条件下对同一对象的某项指标进行重复测量时,观测值与其均值的接近程度,主要受随机因素的影响3、实验设计四原则(1)对照原则:对照是指在实验中应设立对照组,其目的是通过与对照组效应对比鉴别出实验组的效应大小;只有设立了对照组,才能消除非处理因素对实验结果的影响,使处理因素的效应得以体现1)空白对照:指对照组不给予任何处理;临床上一般不宜使用2)安慰剂对照:指对照组使用一种不含药物有效成分的“伪药物”,即安慰剂,其外观、气味、剂型和处置上均与实验药物相同,不能为受试对象所识别,常用于临床试验3)标准对照:对照组采用现有标准方法或常规方法,或不专门设立对照组,而以标准值或正常值作为对照,即为标准对照4)实验对照:对照组不施加处理因素,但施加某种有关的实验因素,其目的是使两组受试对象所受到的刺激、损伤相同,以避免施加处理的方式可能对其产生的影响5)自身对照:是指对照与实验在同一受试对象身上进行,可以是同一受试对象处理前后,也可以是同一受试对象同期接受不同处理6)相互对照:指各实验组之间互为对照7)历史对照(2)随机化原则:随机化是指每个受试对象有相同的概率或机会被分配到不同的处理组;随机化分组可以使各处理组的受试对象具有相近的特征,可比性好,避免研究者的主观因素对实验效应的影响(3)重复原则:重复是指在相同实验条件下重复进行多次观察;重复是消除非处理因素影响的重要方法,表现为样本量的大小和重复次数的多少为了保证研究结论具有一定可靠性,需要在设计阶段估算所需的最少实验单位数,即样本含量(4)均衡原则:均衡是指某因素各水平组中的受试对象所受到的非实验因素的影响是完全平衡的,即这些组之间的差别完全是由于该因素采取了不同水平所致,而并非其他因素取值不同所造成的影响。
(完整版)医学统计学总结,推荐文档
医学统计学总结(基础部分)一、医学统计学基础(一)基本概念同质与变异总体与样本参数与统计量变量与数据类型概率误差1.由变异(variation)衍生出的术语:变量variable 方差variance方差分析、变异数分析(ANOVA analysis of variance)多反应变量multivariate2.变量:数值变量(顺序变量、连续性变量、定量变量)名义变量(定性变量、无序分类变量)等级变量(有序分类变量)3.资料类型:定量资料/定性资料计数资料/计量资料连续型资料/离散型资料。
4.统计步骤:(1)统计设计;(2)搜集资料;(3)整理资料;(4)分析资料(二)统计描述:1.定量资料的统计描述:平均数(均数,中位数,几何均指标意义应用场合平均数均数平均水平对称分布,特别是正态分布或近似正态分布资料几何均数平均增(减)倍数对数正态分布资料中位数排序后位次居中的观察值水平偏态分布;分布不明;分布末端无确定值变异度极差(全距)个体差异范围说明传染病,食物中毒等的最短、最长潜伏期等四分位数间距个体变异程度偏态分布、分布不明、分布末端无确定值资料的离散程度方差/标准差个体变异程度描述正态分布或近似正态分布资料的离散程度变异系数相对变异程度比较度量衡单位不同或单位相同但均数相差悬殊的多组资料的变异度2.理解:标准差与标准误的区别与联系3.定性资料的统计描述:相对数(率,构成比,比),一些常用率的应用:发病率与患病率死亡率与病死率、因病死亡率等标准化法动态数列4.统计图表:统计图(线图,半对数线图,直条图,直方图,百分条图,圆图,散点图,统计地图,箱式图)图形适用资料做图方法条图组间数量对比用直条高度表示数量大小直方图定量资料的分布用直条的面积表示各组段的频数或频率百分条图构成比用直条分段的长度表示全体中各部分的构成比饼图构成比用圆饼的扇形面积表示全体中各部分的构成比线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系散点图双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布用茎表示组段的设置情形,叶片为个体值,叶长为频数(三)统计推断:1.抽样误差、标准误2.t 分布特点:①以0 为中心左右对称的单峰分布;②自由度越小,曲线越扁平,自由度越大曲线越尖峭;③自由度 ∞,t 分布曲线趋近与标准正态分布曲线。
医科大学医学统计学重点知识总结
第一章绪论1、统计学的定义:统计学研究数据的收集、整理、分析的一门学科。
医学统计学:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理、方法,研究医学资料的搜集、整理、分析和推断的一门科学。
2、医学统计研究三个步骤:研究设计、资料分析、结论3、(必考的)几个概念:(1)同质:性质相同异质:性质不同观察单位间的同质性是进行研究的前提同质是相对的(不同研究中或同一研究中不同观察指标对观察对象的同质性的要求不同)(2)个体变异:同质个体间的差异。
变异的两个方面:不同观察单位(个体)间的差别;同一个体在不同阶段的差别(重复测量)个体变异是普遍存在的;个体变异是有规律的。
注意:由于个体变异的存在,同质个体指标的取值会存在差异!(例:体温波动)(3)总体:按研究目的所确定的同质研究对象的全体。
有限总体:有时间、空间的概念,观察单位有限无限总体:无时间、空间的概念(例:某种治疗措施的效果,就包括接受这种治疗措施的所有病人过去、现在、未来,因而观察单位无限)(4)个体:组成总体的基本单位。
样本:从研究总体中随机抽取具有代表性的部分观察单位随机性的三个体现:抽样随机、分组随机、试验顺序随机(5)随机变量:观察对象个体的特征或测量的结果观察结果在一定范围内以一定的概率分布随机取值的变量,表示随机现象。
在一定条件下,并不总是出现相同结果变量值:个体观察指标具体取值(6)总体参数:总体的统计指标或特征值固有的、不变的,但往往是未知的(7)样本统计量:由样本所算出的统计指标或特征值已知的,且随着试验的不同而不同,但分布是有规律的(8)样本含量:样本中包含个体的数量(9)频率f=m/n,f的值随n的增大接近常数p,概率P(A)=p即:频率为一变量,是样本统计量;概率为常数,是一总体参数小概率事件:概率小于等于0.05小概率原理:小概率事件在一次试验中是不会发生的(10)抽样误差:两个表现:样本统计量与总体参数间的差别;不同样本统计量间的差别两个原因:个体变异;抽样过程抽样误差不可避免,但是有规律。
新版医学统计学知识点归纳总结
新版医学统计学知识点归纳总结医学统计学是医学研究中不可或缺的一部分,它涉及到数据的收集、分析和解释,帮助医学工作者从大量数据中提取有价值的信息。
以下是新版医学统计学的知识点归纳总结:1. 研究设计:研究设计是统计分析的前提,包括观察性研究和实验性研究。
观察性研究如队列研究、病例对照研究,而实验性研究如随机对照试验(RCT)。
2. 数据类型:医学统计学中的数据可分为定性数据和定量数据。
定性数据如性别、血型,定量数据如血压、体重。
3. 描述性统计:描述性统计用于描述数据集的特征,包括集中趋势(均值、中位数、众数)和离散程度(方差、标准差、极差)。
4. 概率分布:在统计学中,概率分布描述了随机变量取值的概率。
常见的分布有正态分布、二项分布和泊松分布。
5. 假设检验:假设检验是统计推断的核心,用于判断样本数据是否支持某个假设。
常见的检验方法有t检验、卡方检验和F检验。
6. 置信区间:置信区间提供了一个范围,用以估计总体参数的可能值。
95%的置信区间意味着有95%的把握认为总体参数落在这个区间内。
7. 回归分析:回归分析用于研究一个或多个自变量对因变量的影响。
简单线性回归和多元线性回归是常见的回归分析方法。
8. 生存分析:生存分析关注个体生存时间的分布和相关因素,常用于肿瘤学和流行病学研究。
Kaplan-Meier估计和Cox比例风险模型是生存分析中的重要工具。
9. 诊断试验评价:诊断试验评价涉及敏感性、特异性、阳性预测值和阴性预测值等指标,用于评估诊断方法的准确性。
10. 样本量计算:样本量计算是研究设计的重要环节,它决定了研究的可行性和结果的可靠性。
样本量计算需要考虑效应大小、显著性水平和检验力。
11. 多变量分析:多变量分析用于同时考虑多个变量对结果的影响,如多元回归分析和判别分析。
12. 统计软件的应用:统计软件如SPSS、SAS和R在医学统计分析中扮演着重要角色,它们提供了数据处理和统计分析的功能。
医学统计学重点重点知识总结
医学统计学重点选择1.几何均数:平均血清抗体滴度(如P9例2.4)2.正态分布:横轴为μ(界值、面积)2.5% I1.962.5%单侧双侧90%: 1.6495%: 1.64 1.9699%: 2.583.P值与α的关系,α是人为规定的,它们之间没有关系;P值f,Qt(X)4.方差分析自由度V的计算,V总=nT;V组间=组数(k)-1;V组间=V总-V组间5.理论秩和(n(n+1)∕2),实际秩和(通过平均秩次算)6.可信区间的正确应用:总体参数有95%的可能落在该区间内(X);有95%的总体参数在该区间内(X);该区间包含95%的总体参数(X);该区间有95%的可能包含总体参数。
(X);这个区间的可信度为95%(√);总体参数只有一个,要么在区间内,要么不在7.相关系数与回归系数:相关系数为0,两个变量之间没有相关关系(X);回归系数t,相关系数t(X);(要做假设检验)二、名解1.参考值范围:根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计(可信区间):按一定的概率或可信度(bα)用一个区间估计总体参数所在范围。
这个范围称作可信度为1-a的可信区间,又称置信区间。
3.P值:拒绝HO时所冒的风险(或“作出拒绝HO而接受H1”结论时冒了P风险)4.a(第一类错误):HO真实时被拒绝(或HO真实时,拒绝H0,接受H1)5.β(第二类错误):HO不真实时不拒绝(或HO不真实时,不拒绝HO)1-β检验效能:对真实的H1做肯定结论之概率6.秩次:是指全部观察值按某种顺序排列的位序;7.秩和:同组秩次之和8.剩余标准差:扣除了X的影响后,Y方面的变异;引进回归方程后,Y方面的变异。
三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论。
分辨一个样本是否属于某特定总体等。
区间估计(可信区间):按一定的概率或可信度(1-a)用一个区间估计总体参数所在范围。
(完整版)医学统计学重点总结
1.简述总体和样本的定义,并且举例说明。
总体是研究目的确定的所有同质观察单位的全体。
样品是从研究总体中抽取部分有代表性的观察单位。
2.简述参数和统计量的定义,并且举例说明。
描述总体特征的指标称为参数,描述样本特征的指标称为统计量。
3.变量的类型有哪几种?举例说明各种类型变量有什么特点。
①定量数据:计量资料;定量的观测值是定量的,其特点是能够用数值的大小衡量其水平的高低。
②定性数据:计数资料;变量的观测值是定性的,表现为互不相容的类别或属性。
③有序数据:半定量数据/等级资料;变量的观测值是定性的,但各类别(属性)有程度或顺序上的差异。
4.请举例说明一种类型的变量如何变换为另一种类型的变量。
定量数据>有序数据>定性数据--------------->5.请简述什么是小概率事件?概率是描述事件发生可能性大小的度量,P 0.05事件称为小概率事件。
≤6.举例说明什么是配对设计。
配对设计是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。
①同源配对:同一受试对象或同一标本的两个部分,随机分配接受两种不同处理;②异源配对:为消除混杂因素的影响,将两个同质受试对象配对分别接受两种处理。
7.非参数假设检验适合什么类型数据进行分析?①总体分布类型未知或非正态分布数据;②定量或半定量数据;③数据两端无确定的数值。
8.简述P 25 P 50 P 75的统计学意义。
(条件:明显偏态且不能转化为正态或近似对称;一端或两端无确定数值;分布情况未知)用来描述资料的观测值序列在某百分位置的水平,四分位数间距可以作为说明个体差异的指标(说明个体在不同位置的变异情况)。
9.直条图、直方图、圆饼图的使用条件是什么?直条图:各自独立的统计指标的数值大小和他们之间的对比;直方图:连续变量频数分布情况;圆饼图:全体中各部分所占的比例。
10.统计分析包括哪两个方面的内容?为什么要进行统计推断?统计描述和统计分析;统计描述用来描述及总结一组数据的重要特征,其目的是使实验或观察得到的数据表达清楚并便于分析。
医学统计学重点整理汇总
医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合。
总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。
用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3.资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料。
是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位。
(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析。
第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2.误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3.实验设计的三个基本原则:对照原则、随机化分组原则、重复原则。
医学统计学_总结_重点_笔记_复习资料
第一章2选1总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。
可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
总体population根据研究目的而确定的同质观察单位的全体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
样本sample从总体中随机抽得的部分观察单位,其实测值的集合。
3选1小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。
P值:P 值即概率,反映某一事件发生的可能性大小。
统计学根据显著性检验方法所得到的P 值反应结果真实程度,一般以P ≤ 0.05 认为有统计学意义, P ≤0.01 认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05 或0.01。
P值是:1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。
2) 拒绝原假设的最小显著性水平。
3) 观察到的(实例的) 显著性水平。
4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。
小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。
统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
资料的类型(3选1)(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。
计量资料measurement data定量资料quantitative data数值变量资料numerical variable为观测每个观察单位某项指标的大小,而获得的资料。
医学统计学总结
医学统计学总结第一篇:医学统计学总结医学统计学总结一、两组或多组计量资料的比较1.两组资料:1)大样本资料或服从正态分布的小样本资料(1)若方差齐性,则作成组t检验(2)若方差不齐,则作t’检验或用成组的Wilcoxon秩和检验 2)小样本偏态分布资料,则用成组的Wilcoxon秩和检验2.多组资料:1)若大样本资料或服从正态分布,并且方差齐性,则作完全随机的方差分析。
如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。
2)如果小样本的偏态分布资料或方差不齐,则作Kruskal Wallis的统计检验。
如果Kruskal Wallis的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等)进行两两比较。
二、分类资料的统计分析1.单样本资料与总体比较1)二分类资料:(1)小样本时:用二项分布进行确切概率法检验;(2)大样本时:用U检验。
2)多分类资料:用Pearson c2检验(又称拟合优度检验)。
2.四格表资料1)n>40并且所以理论数大于5,则用Pearson c2 2)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正c2或用Fisher’s 确切概率法检验 3)n£40或存在理论数<1,则用Fisher’s 检验3.2×C表资料的统计分析 1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的CMH c2或成组的Wilcoxon 秩和检验2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检验 3)行变量和列变量均为无序分类变量(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验4.R×C表资料的统计分析 1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH c2或Kruskal Wallis的秩和检验2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作none zero correlation analysis的CMH c23)列变量和行变量均为有序多分类变量,可以作Spearman相关分析4)列变量和行变量均为无序多分类变量,(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验三、Poisson分布资料1.单样本资料与总体比较:1)观察值较小时:用确切概率法进行检验。
医学统计学总结
医学统计学总结一.绪论1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。
2,医学统计学的主要内容:1)统计研究设计调查研究设计和实验研究设计2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。
A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。
3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic 回归与Cox回归分析。
3,统计工作步骤:1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。
2)搜集材料A,搜集材料的原则及时、准确、完整B,统计资料的来源医学领域的统计资料的来源主要有三个方面。
一是统计报表,二是经常性工作记录,三是专题调查或专题实验。
C,资料贮存3)整理资料 a检查核对b设计分组c拟定整理表d归表4)分析资料统计分析包括统计描述和统计推断4,同质(homogeneity):指被研究指标的影响因素相同。
变异(variation):同质基础上的各观察单位间的差异。
变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。
5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。
总体具有的基本特征是:同质性样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。
样本必须具有代表性。
代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。
统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。
医学统计学知识点汇集总结
医学统计学知识点汇集总结一、医学统计学概述医学统计学是指运用统计学方法和技术研究医学数据,并分析、解释医学现象的学科。
对于医学研究和临床实践来说,统计学扮演了至关重要的角色,它可以帮助我们从数据中找出规律和关联,了解疾病的发病机制、评估治疗效果、预测疾病的发展趋势等。
医学统计学应用广泛,包括流行病学调查、临床试验、疾病筛查、医疗资源分配等方面。
二、基本统计概念1.总体与样本总体是指研究者希望了解的所有个体或事物的集合,而样本是从总体中抽出的一部分个体或事物。
在医学统计学中,我们往往针对总体的某些特征进行研究,但因为总体过于庞大或难以直接观察,所以需要通过样本来间接推断总体特征。
2.描述统计学与推断统计学描述统计学是通过对样本数据进行整理、汇总和展示,来描述总体的特征。
例如,用均值、标准差、百分比等指标来描述样本的中心趋势、离散程度和分布规律。
推断统计学则是通过对样本数据进行分析和推断,来进行总体参数估计、假设检验和区间估计等操作,从样本的情况推断总体的性质。
3.测量尺度在医学统计学中,常用的测量尺度有四种:名义尺度、序数尺度、区间尺度和比率尺度。
名义尺度用于对个体进行分类,如性别、种族等;序数尺度表达了个体之间的顺序关系,如疾病的分期、疼痛的程度等;区间尺度是指定了单位长度的测量尺度,其间隔是均匀的,但没有绝对的零点,如温度;比率尺度有绝对的零点,可以进行加减乘除运算,如年龄、身高、体重等。
4.受试者特征曲线(ROC曲线)受试者特征曲线(Receiver Operating Characteristic Curve,ROC曲线)常用于评价诊断试验的准确性。
横轴表示假阳性率(1-特异度),纵轴表示真阳性率(灵敏度),曲线下面积(AUC)为对角线以下的面积,用来评价诊断试验在不同判断标准下的表现。
三、数据的搜集与整理1.样本量计算样本量的大小直接关系到研究结果的可靠性和精度。
样本量计算需要根据预期效应大小、显著性水平、统计功效、数据分析方法等因素来确定。
医学统计学总结
1.描述一组偏态分布资料的变异度,以( )指标较好。
2.用均数和标准差可以全面描述()资料的特征。
3.各观察值均加(或者减)同一数后()。
4.比较身高和体重两组数据变异度大小宜采用()。
5.偏态分布宜用()描述其分布的集中趋势。
6.各观察值同乘以一个不等于 0 的常数后, ()不变。
7. ()分布的资料,均数等于中位数。
8.对数正态分布是一种()分布。
(说明:设 X 变量经 Y=lg X 变换后服从正态分布,问X 变量属何种分布?)9.最小组段无下限或者最大组段无尚限的频数分布资料,可用()描述其集中趋势。
10.血清学滴度资料最常用来表示其平均水平的指标是(几何均数)。
11.(X)小,表示用该样本均数估计总体均数的可靠性大。
12.两样本均数比较的 t 检验,差别有统计学意义时, P 越小,说明()。
13. 甲乙两人分别从同一随机数字表抽得 30 个(各取两位数字)随机数字作为两个样本,求得X 和S2 ;X 和S 2 ,则理论上(1 12 2)。
14.在参数未知的正态总体中随机抽样, X> ( t0.05/ 2, ϖSX)的概率为 5%。
15. 某地 1992 年随机抽取 100 名健康女性, 算得其血清总蛋白含量的均数为 74g/L ,标准差为 4g/L ,则其 95%的参考值范围为()。
16. 关于以 0 为中心的 t 分布,错误的是()。
17. 在两样本均数比较的 t 检验中,无效假设是()。
18. 两样本均数比较作 t 检验时,分别取以下检验水准,以()所取第二类错误最小。
19. 正态性检验,按 =0.10 水准,认为总体服从正态分布,此时若判断有错,其错误的概率( )。
20. 关于假设检验,下面哪一项说法是正确的()。
21. 彻底随机设计资料的方差分析中,必然有()。
22.彻底随机设计资料的方差分析中,有()。
23.当组数等于 2 时,对于同一资料,方差分析结果与 t 检验结果(t = F )。
医学统计学 重点知识总结
名词解释1、一类错误:拒绝了实际上成立的H。
,这类“弃真”的错误称为I型错误或第一类错误。
2、参数和统计量:这些总体的统计指标或特征值称为参数。
由样本所算出的统计指标或特征值称为统计量。
3、变异系数:亦称离散系数,为标准差与均数之比,常用百分数表示。
4、P值:即概率,反映某一事件发生的可能性大小。
5、检验效能:B称为检验效能或把握度,即两总体却有差别,按α水准能发现它们有差别的能力。
简答题1、描述数值变量资料(统计资料)的集中程度有哪些指标,有何运用条件?算数均数:单峰对称分布的资料几何均数:对数变换后的单峰对称的资料中位数:偏态分布,分布不明资料,有不确定值的资料。
百分位数:当样本含量较少时不宜用靠近俩端的百分位数来估计频数分布范围。
2、实验研究的基本要素和基本原则是什么?基本要素:处理因素、受试对象和实验效应。
基本原则:对照原则、随机化原则和重狂原则大题1、(1)变量资料(2)成组t检验对立性正态性方差齐性(3)H0ιμ1=μ2,新药与常规药物的疗效相同H1rμ1≠μ2,新药与常规药物的疗效不同α=0.05T=1.0195V=n1+n2-2=18(2)t<t0.05z18,p>0.05,按a=0.05水准,不拒绝H0,差别无统计学意义。
结论:t检验结果表明,故尚不能认为新药与常规药物的疗效相同。
2、(1)T=13×17/47=4.7(2)x2检验(3)X2>X2(0.05,1),p<0.05,按a=0.05水准,拒绝H0,接受HQ差别有统计学意义。
结论:x2检验结果表明,乙疗法比甲疗法好。
3、(1)成组设计两样本比较的秩和检验(2)实验组秩次:13、I15、8.5、14、15.5、15.5、17、18对照组秩次:1、2、4、3、5、6、8.5、7、10、11.5(3)H0:两组局部温热的疗效总体分布相同H1:两组局部温热的疗效总体分布不同4(1)Ho:P=O,即母体内时间与体重无线性相关关系H1:P≠0,即母体内时间与体重有线性相关关系a=0.05F>5.23,拒绝HO,接受HI,相关系数有统计学意义。
医学统计学重点总结
样本统计量的标准差称为标准误。
2
都表示变异的大小;
3
样本含量一定时,标准差越大,标准误越大。
1
联系:
标准误与标准差(1)
标准差
01
含义:
02
一组变量值离散程度;
03
标准差越小,均数的代表性越好;
04
应用: 估计参考值范围;
05
与n的关系:样本含量越大,标准差越稳定,n 很大时,标准差趋向于总体标准差。
7. X±2.58s包括变量值的 A. 68.3% B. 90.0% C. 95.0% D. 99.0% 8. 均数与标准差之间的关系是 A.标准差越小,均数代表性越好 B. 标准差越小,均数代表性越差 C. 均数越大,标准差越小 D. 均数越大,标准差越大 9.分析定性资料时,最常用的显著性检验方法是 A.t检验 B.正态检验 C.U检验 D.χ2检验 10.四格表如有一个实际数为0 A.就不能做χ2检验; B.就不能用校正χ2检验; C.还不能决定是否可做χ2检验; D.肯定可做校正χ2检验。
43
10
53
40
16
56
83
26
109
40.36
12.64
42.64
11.36
T11=53× 83/109=40.36 T12=53× 26/109=12.64 T21=56× 83/109=42.64 T22=56× 26/109=13.36
既非呈连续分布的定量资料,也非仅按性质归属于独立的若干类的定性资料;
线性相关
01
列联相关
03
等级相关
02
线性回归
04
相关与回归
1 ≤ r ≤ 1
r<0为负相关
《医学统计学》基本统计学部分公式总结
《医学统计学》基本统计学部分公式总结基本统计学是医学统计学的基础,包括描述性统计和推断性统计。
下面是一些常用的公式总结:一、描述性统计1.平均数(算术平均数):所有观察值的总和除以观察值的个数。
平均数 = (x1 + x2 + ... + xn) / n2.中位数:将所有观察值按顺序排列,位于中间的数值。
如果n为奇数,中位数为第(n+1)/2个观察值;如果n为偶数,中位数为第n/2和(n/2+1)个观察值的平均数。
3.众数:出现次数最多的观察值。
4.百分位数:将所有观察值按大小顺序排列,百分位数为位于相应百分比位置的观察值。
5.方差(样本方差):观察值与均值之差的平方和的平均数。
方差= Σ(xi - 平均数)² / (n - 1)6.标准差(样本标准差):方差的平方根。
标准差=√方差7.四分位数差(IQR):第三四分位数与第一四分位数之差。
8.相对标准差:标准差除以平均数,表示标准偏差在平均水平的相对大小。
二、推断性统计1.假设检验:对总体参数进行推断的一种方法。
t检验:用于比较两个样本均值是否具有显著差异。
z检验:用于比较样本均值与已知总体均值的差异。
χ²检验:用于比较观察频数与期望频数之间的差异。
F检验:用于比较两个样本方差是否具有显著差异。
2.置信区间:对总体参数进行估计的一种方法。
对于平均数的置信区间,通常使用t分布或z分布进行计算。
3.相关分析:皮尔森相关系数:用于衡量两个变量之间的线性相关程度。
斯皮尔曼相关系数:用于衡量两个变量之间的等级相关程度。
4.回归分析:简单线性回归:用于预测一个因变量与一个自变量之间的关系。
多元线性回归:用于预测一个因变量与多个自变量之间的关系。
5.生存分析:生存函数:表示个体存活的概率。
生存率:表示在一定时间内生存下来的概率。
Kaplan-Meier曲线:用于描述生存率随时间变化的曲线。
以上是《医学统计学》中基本统计学部分常用的公式总结,这些公式可以帮助我们理解和分析医学数据,进行数据的描述和推断,为医学研究提供有力的支持。
医学统计学重点知识总结
医学统计学第一章 绪言研究设计、资料分析、结论定量资料:以定量值表达每个观察单位的某项观察指标,如血脂心率等。
定性资料:以定性方式表达每个观察单位的某项观察指标,如血型性别等。
等级资料:以等级方式表达每个观察单位的某项观察指标,如疗效分级等。
总体:是指按研究目的所确定的研究对象中所有观察单位某项指标取值的集合。
样本:是指从研究总体中随机抽取具有代表性的部分观察单位某项指标取值的集合。
(以上均可能考名解)描述某总体特征的指标称为总体参数,简称参数;描述某样本特征的指标称为样本统计量,简称统计量。
概率是随机事件发生可能性大小的一个度量,概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。
定量资料的统计指标(大题):算术均数,几何均数,中位数和百分位数。
同质性与异质性:同质是指观察单位具有相同的性质,是构成研究总体的必备条件;异质性是指性质不同,研究内容不同,对同质性的要求不同。
第二章 个体变异与变量分布变异(名解):是以具有同质性的观察单位为载体,某项观察指标在观察单位之间显示的差别。
【在同质的基础上各观察单位(或个体)之间的差异】 正偏态与负偏态【2.3节为重点,尤其是统计指标与图的关系】几何均数应用于比值数据,中位数适用于偏态分布离散趋势指标(重点简答):全距,四分位数间距,方差,标准差和变异系数,其中常用的是标准差和变异系数。
变异系数(名解):亦称离散系数,是标准差s 与均数x 之比,即XS CV X100%,变异系数常用于比较度量衡单位不同的两组或多组资料的变异度、比较均数相差悬殊的两组或多组资料的变异度。
如何正确使用相对数(选择或简答):1,计算相对数的分母不宜过小。
2,分析时不能以构成比代替率。
3,对观察单位数不等的几个率,不能直接相加求其平均率(或称总率)。
4,计算率时要注意资料的同质性,对比分析时应注意资料的可比性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学统计学总结一。
绪论1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学.2,医学统计学的主要内容:1) 统计研究设计调查研究设计和实验研究设计2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法.A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验.3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析.3,统计工作步骤:1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。
2)搜集材料A,搜集材料的原则及时、准确、完整B, 统计资料的来源医学领域的统计资料的来源主要有三个方面。
一是统计报表,二是经常性工作记录,三是专题调查或专题实验。
C,资料贮存3)整理资料 a检查核对b设计分组c拟定整理表d归表4)分析资料统计分析包括统计描述和统计推断4,同质(homogeneity):指被研究指标的影响因素相同。
变异(variation):同质基础上的各观察单位间的差异。
变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。
变量类型变量值表现实例资料类型数值变量离散型定量测量值,有计量单位产前检查次数计量资料连续型身高分类变量无序二分类对立的两类属性性别(男女)计数资料多分类不相容的多类属性血型(A,B,O,AB)有序多分类类间有程度差异的属性受教育程度(小学,中学,高中,大学…)等级资料5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。
总体具有的基本特征是:同质性样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。
样本必须具有代表性.代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。
统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。
参数(parameter)描述总体变量值特征的指标(总体率,标准差,总体均数)。
抽样误差(sampling error):由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的统计量往往不等,统计量与参数也会有所不同.这种因抽样研究引起的差异称抽样误差。
随机事件(random event)对随机试验的各种可能结果的集合。
概率(probability) 描述随机事件发生的可能性大些哦的一个度量.小概率事件若随机事件A的概率P(A)≤α,习惯上,α=0.05时,就称A为小概率事件。
其统计学意义是小概率事件在一次随机试验中认为不会发生。
抽样误差1,抽样误差(sampling error)由抽样而造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异。
在医学统计学中,常把由抽样造成的样本均数与总体均数间的差异称为均数的抽样误差;由抽样造成的样本率与总体率之间的差异称为率的抽样误差.2,样本均数的标准差(简称标准误,standard error) 反映均数的抽样误差大小的指标。
大,抽样误差大;反之,小,抽样误差小。
(3。
1)实际工作中往往未知的,可用样本标准差s作的估计值,计算标准误的估计值。
(3.2)3,标准误的用途:a,衡量样本均数的可靠性;b,估计总体均数的置信区间;3,用于均数的假设检验。
4,标准误的估计值的用途:a,描述抽样误差的大小;b,总体参数的估计;c,用来进行假设检验。
5,率的抽样误差:由抽样造成的样本率与总体率的差异称为率的抽样误差.衡量率的抽样误差大小的指标是率的标准误。
越小,率的抽样误差越小;越大,率的抽样误差越大。
(3。
3)其中为总体率。
实际工作中,由于往往是未知的,可用样本率p作的估计值,计算率的标准误的估计值。
(3.4)。
标准差(s)标准误计算公式s=(1)表示观察值的变异程度(1)估计均数的抽样误差的大小(2)计算变异系数CV=100%(2)估计总体均数的可信区间(,)(3)确定医学参考值范围(3)进行假设检验(4)计算标准误简述标准差、标准误的区别与联系?区别:(1)含义不同:标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。
标准误估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。
(2)与n的关系不同: n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。
(3)用途不同:标准差表示x的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。
联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
标准差:标准误:二.分布正态分布1,正态分布的函数其中为总体均数,为总体标准差,为圆周率,为自然对数的底,且仅为变量。
以为横轴,以为纵轴,当均数和标准差已知时即可绘出正态分布曲线。
为应用方便,将式中进行变量变换,使原来的正态分布变为的标准正态分布,亦称分布。
被称为标准正态变量或标准正态离差,将代入上述公式即得标准正态分布的密度函数。
(2.17)(2。
18)2,正态分布的特征(1)正态曲线(normal curve)在横轴上方均数处最高。
(2)正态分布以均数为中心,左右对称。
(3)正态分布有2个参数(parameter),即均数(位置)和标准差(形状)。
当固定不变时,越大,曲线沿横轴越向右移动;反之,越小,则曲线沿横轴越向左移动。
当固定不变时,越大,曲线越平阔;越小,曲线越尖峭.通常用N(,)表示均数为、方差为的正态分布。
用(0,1)表示标准正态分布.(4)正态分布在1处各有一个拐点。
(5)正态曲线下面积的分布有一定规律。
3,常用的两个区间: 1.96及 2.58的区间面积分别占总面积的95%及99%.4,正态分布的应用1),制定医学参考值范围a,正态分布法适用于正态或近似正态分布的资料双侧界值:;单侧上界:,或单侧下界:。
b,对数正态分布法适用于对数正态分布资料双侧界值: ;单侧上界:,或单侧下界c,百分位数法常用于偏态分布资料及资料中一端或两端无确切数值的资料。
双侧界值:和;单侧上界:,或单侧下界:。
2)正态分布是多种统计方法的理论基础如t分布,F分布,分布都是在正态分布的基础上推导出来的,分布也是以正态分布为基础的。
另外t分布,二项分布,poisson分布的极限为正态分布,一定条件下可按正态分布原理处理。
t分布1,t分布:(3.5)t分布的特征为:1.以0为中心,左右对称的单峰分布。
2.t分布曲线形态变化与自由度的大小有关.自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布).当=时,t分布为u分布。
t界值表附图中非阴影部分面积的概率为:2,总体均数的估计:用样本指标估计总体参数称为参数估计,是统计推断的一个重要方面。
总体均数的估计有2种方法。
一是直接用统计量估计总体参数,称为点值估计。
由于抽样误差的存在,此法很难估计准确。
二是区间估计(interval estimation)法。
区间估计是按一定的概率100(1-)%估计总体均数所在的范围,亦称可信区间(confidence interval,CI)。
常取的可信度为95%和99%,即95%可信区间和99%可信区间。
计算方法有3种:(1)未知且n小按t分布原理用式(3.6)计算可信区间。
由于将代入,得则总体均数的100(1-)%可信区间的通式为:(3.6)或写成(,)。
(2)未知,但n足够大时(n>100)t分布逼近u分布,按正态分布原理,用式(3.7)估计可信区间。
()(3。
7)(3)已知按正态分布原理,用式(3.8)估计可信区间。
()(3。
8)标准正态分布(u分布)与t分布有何异同?答:相同点:t分布和标准正态分布(u分布)都是以0为中心的正态分布。
标准正态分布是t分布的特例(自由度是无限大时)。
不同点:t分布为抽样分布,u分布为理论分布;t分布比标准正态分布的峰值低,且尾部翘得更高;t 分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t分布有无数条曲线,而u分布只有唯一一条曲线。
二项分布1,二项分布(binomial distribution)是对只具有2种互斥结果的离散型随机事件的规律性进行描述的一种概率分布.二项分布概率公式: (3.9)式中n为独立的贝努力试验次数,为成功的概率,(1—)为失败的概率,X为在n次贝努力试验中出现“成功”的次数,表示在n次试验中出现X的各种组合数,在此称为二项系数(binomial coefficient).2,二项分布的应用条件:(1)各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡。
(2)已知发生某一结果(阳性)的概率为,其对立结果的概率为1—,实际工作中要求是从大量观察中获得比较稳定的数值。
(3)n次试验在相同条件下进行,且各个观察单位的观察结果相互独立。
3,二项分布的性质:A,二项分布的均数和标准差在二项分布的资料中,当和n已知时,它的均数及其标准差如下:=n(3.11)(3。
12)若均数和标准差不用绝对数表示,而是用率表示时,即对式(3。
11)(3.12)分别除以n,得:(3.13)(3.14)是样本率的标准误的理论值,当未知时,常用样本率p作为的估计值,则:(3.15)B,二项分布的累计概率二项分布的累计概率(cumulative probability)常用的有左侧累计和右侧累计2种方法。
从阳性率为的总体中随机抽取n个个体,则(1)最多有k例阳性的概率(3.16)(2)最少有k例阳性的概率(3。
17)D,二项分布的形状取决于和n的大小:(1)当=0.5时,分布对称;当〈0。
5时,分布呈正偏态,且固定n时,越小,分布越偏;当>0.5时,分布呈负偏态,且固定n时,越大,分布越偏。
(2)对固定的,分布随n的增大趋于对称。
4,总体率的估计总体率的估计也有点估计和区间估计,点估计是简单地用样本率来估计总体率;区间估计是求出总体率的可能范围.样本率的理论分布和样本含量n、阳性率p的大小有关,所以需要根据n和p的大小不同,分别选用下列2种方法.(一)查表法当样本含量n较小,如n≤50,特别是p很接近于0或1时,按二项分布的原理估计总体率的可信区间.(二)正态近似法当样本含量n足够大,且样本率p或1-p均不太小,如np与n(1-p)均大于5时,样本率的p的抽样分布近似正态分布,总体率的可信区间可按下列式(3.17)进行估计。