大学医学院医学统计学复习总结(首版)
医学统计学总结
医学统计学总结医学统计学总结1、随机现象:在同一条件下进行试验,一次试验结果不能确定,而在一定数量的重复试验之后呈现统计规律的现象。
2、同质:统计学中对研究指标影响较大的,可以控制的主要因素。
3、变异:同质基础上各观察单位某变量值的差异。
数值变量:变量值是定量的,由此而构成的资料称为数值变量资料或计量资料,其数值是连续性的,称之为连续型变量。
变量无序分类变量:所分类别或属性之间无顺序和程度上的差异分类变量:定性变量有序分类变量:有顺序和程度上的差异4总体和无限总体。
5、样本:是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。
样本代表性的前提:同质总体,足够的观察单位数,随机抽样。
统计学中,描述样本特征的指标称为统计量,描述总体特征的指标称为参数。
6、概率:描述随机事件发生的可能性大小的一个度量。
若P(A)=1,则称A为必然事件;若P(A)=0,则称A为不可能事件;随机事件A的概率为0<P<1.小概率事件:若随机事件A的概率P≤α,则称随机事件A为小概率事件,其统计学意义为:小概率事件在一次随机试验中认为是不可能发生的。
统计描述1、频数分布有两个重要的特征:集中趋势和离散程度。
频数分布有对称分布和偏态分布之分。
后者是指频数分布不对称,集中趋势偏向一侧,如偏向数值小的一侧为正偏态分布,如偏向数值大的一侧为负偏态分布。
2、常用的集中趋势的描述指标有:均数,几何均数,中位数等。
均数:适用于正态或近似正态的分布的数值变量资料。
样本均数用_表示,总体均数用μ几何均数:适用于等比级数资料和对数呈正态分布的资料。
注意观察值中不能有零,一组观察值中不能同时有正值和负值。
中位数:适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料。
3、常用的离散程度的描述指标有:全距,四分位数间距,方差,标准差,变异系数。
全距:任何资料,一组中最大值与最小值的差。
四分位数间距:适用于偏态分布以及分布的一端或两端无确切数据资料。
《医学统计学》复习重点总结
计量数据比较的统计公式
X 0 t Sx
样本均数与标准值的比较 *配对数据的比较(不做方 差齐性检验 *两样本均数的比较,例数 较小时(做方差齐性检验)
d d t Sd
X1 X 2 t S x1 x2
t检验与可信区间公式小结
X1 X 2 t , SX1X 2
两独立样本均数的t n1 n2 2 检验公式
病变性质
肿瘤
恶性
1.层次不清,结构混乱,难于理解 2.线条过多,不符要求
修改后:
表 10 病变性质 良性肿瘤 恶性肿瘤﹡ 囊肿 瘤样病变 合 计
口腔颌面部不同病变构成情况 例 数 674 558 192 168 1592 构成比(%) 42.34 35.05 12.06 10.55 100.00
﹡包括癌437例,肉瘤101例,果用统计表表达。
统计表类型:
简单表和组合表
统计图: 要求掌握图形选择. 如线图、直条图、直方图、构成图
例: 简单表格式
某地1980年男女HBsAg阳性率的比较 性别 调查例数 男 4234 女 4530 合计 8764 阳性数 303 181 484 阳性率% 7.16 4.00 5.52
第14章基于秩次的统计方法
掌握概念: 1)何为非参数统计? 2) 什么样数据适合采用秩和检验,以及秩和 检验的优缺点。 3)秩和检验有那几种检验方法?
注意:结果(y)数据为等级时,两组比较采 用秩和检验效率高于χ2检验,应首选秩和检验.
表 某病两组疗效的比较 比较组 无效 有效 显效 痊愈 合计 试验组 18( 31.6) 18 (31.6) 15(26.3) 6 (10.5) 57 对照组 21 (46.7) 15( 33.3) 8(17.8) 1( 2.2) 45 Total 39 33 23 7 102
医学统计学重点总结
(1) 单个样本均数 H0:μ=μ0t= ν=n-1 (小样本)
(已知样本——均数) H1:μ≠μ0
α=u= 或u= (大样本)(2)配对:H0:μ=μ0
H1:μ≠μ0t= ν=对子数-1
α=
(3) 两独立样本均数H0:μ=μ0t= ν=n1+n2-2
(4)(已知样本——样本) H1:μ≠μ0
9.对任何参数μ和σ的正态分布,都可以通过一个简单的变量变换成标准正态分布,即μ=X-μ
σ
9
标准正态分布
正态分布
面积或概率
-1~1
μ σ
%
~
μ σ
%
·
μ σ
%
10.医学参考值范围(reference value range)传统上称作正常值范围,指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。习惯上是包含95%的参照总体的范围。
实际工作中标准差 σ往往未知,因而通常用样本标准差S代替σ,求得样本均数 准误估计值S ,计算公式为 S = (当n→无穷,S→σ,S →0)
3 95%的可信区间的计算:x (μ,σ ) 1) σ已知,可信区间= σ
2)σ未知,n为小样本: t 3)σ未知,n为大样本:
T变换
μ变换
N (0,1)
3、t分布曲线的形态变化与自由度v=n-1有关。
2.四格表专用公式(
3对于四格表资料,通常规定为:(1)当n≥40且所有的T ≥ 5时,用检验的基本公式或四格表的专用公式;(2)当n ≥ 40 但有1≤T<5时,用四格表资料的校正公式;(3)当n<40,或T<1时,用四格表资料的Fisher确切 概率法。
4 行×列表资料的χ 检验: 自由度:ν=(行数-1)(列数-1)
医学统计学复习资料(完整版)
第1章绪论医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。
1.个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。
2.总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。
分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。
反映总体特征的指标为参数,常用小写希腊字母表示。
3.样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。
(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。
4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。
抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。
其根源在于总体中的个体存在变异性。
只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
统计分析主要是针对抽样误差而言。
5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。
各类资料间可相互转化。
①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩和检验、Ridit分析等。
6.误差:实测值与真实值之差。
可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。
①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
医科大学医学统计学重点知识总结
第一章绪论1、统计学的定义:统计学研究数据的收集、整理、分析的一门学科。
医学统计学:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理、方法,研究医学资料的搜集、整理、分析和推断的一门科学。
2、医学统计研究三个步骤:研究设计、资料分析、结论3、(必考的)几个概念:(1)同质:性质相同异质:性质不同观察单位间的同质性是进行研究的前提同质是相对的(不同研究中或同一研究中不同观察指标对观察对象的同质性的要求不同)(2)个体变异:同质个体间的差异。
变异的两个方面:不同观察单位(个体)间的差别;同一个体在不同阶段的差别(重复测量)个体变异是普遍存在的;个体变异是有规律的。
注意:由于个体变异的存在,同质个体指标的取值会存在差异!(例:体温波动)(3)总体:按研究目的所确定的同质研究对象的全体。
有限总体:有时间、空间的概念,观察单位有限无限总体:无时间、空间的概念(例:某种治疗措施的效果,就包括接受这种治疗措施的所有病人过去、现在、未来,因而观察单位无限)(4)个体:组成总体的基本单位。
样本:从研究总体中随机抽取具有代表性的部分观察单位随机性的三个体现:抽样随机、分组随机、试验顺序随机(5)随机变量:观察对象个体的特征或测量的结果观察结果在一定范围内以一定的概率分布随机取值的变量,表示随机现象。
在一定条件下,并不总是出现相同结果变量值:个体观察指标具体取值(6)总体参数:总体的统计指标或特征值固有的、不变的,但往往是未知的(7)样本统计量:由样本所算出的统计指标或特征值已知的,且随着试验的不同而不同,但分布是有规律的(8)样本含量:样本中包含个体的数量(9)频率f=m/n,f的值随n的增大接近常数p,概率P(A)=p即:频率为一变量,是样本统计量;概率为常数,是一总体参数小概率事件:概率小于等于0.05小概率原理:小概率事件在一次试验中是不会发生的(10)抽样误差:两个表现:样本统计量与总体参数间的差别;不同样本统计量间的差别两个原因:个体变异;抽样过程抽样误差不可避免,但是有规律。
医学统计学重点重点知识总结
医学统计学重点选择1.几何均数:平均血清抗体滴度(如P9例2.4)2.正态分布:横轴为μ(界值、面积)2.5% I1.962.5%单侧双侧90%: 1.6495%: 1.64 1.9699%: 2.583.P值与α的关系,α是人为规定的,它们之间没有关系;P值f,Qt(X)4.方差分析自由度V的计算,V总=nT;V组间=组数(k)-1;V组间=V总-V组间5.理论秩和(n(n+1)∕2),实际秩和(通过平均秩次算)6.可信区间的正确应用:总体参数有95%的可能落在该区间内(X);有95%的总体参数在该区间内(X);该区间包含95%的总体参数(X);该区间有95%的可能包含总体参数。
(X);这个区间的可信度为95%(√);总体参数只有一个,要么在区间内,要么不在7.相关系数与回归系数:相关系数为0,两个变量之间没有相关关系(X);回归系数t,相关系数t(X);(要做假设检验)二、名解1.参考值范围:根据正常人的数据估计绝大多数的正常人所在的范围2.区间估计(可信区间):按一定的概率或可信度(bα)用一个区间估计总体参数所在范围。
这个范围称作可信度为1-a的可信区间,又称置信区间。
3.P值:拒绝HO时所冒的风险(或“作出拒绝HO而接受H1”结论时冒了P风险)4.a(第一类错误):HO真实时被拒绝(或HO真实时,拒绝H0,接受H1)5.β(第二类错误):HO不真实时不拒绝(或HO不真实时,不拒绝HO)1-β检验效能:对真实的H1做肯定结论之概率6.秩次:是指全部观察值按某种顺序排列的位序;7.秩和:同组秩次之和8.剩余标准差:扣除了X的影响后,Y方面的变异;引进回归方程后,Y方面的变异。
三、简答1.假设检验与可信区间的联系与区别分辨多个样本是否分别属于不同的总体,并对总体作出适当的结论。
分辨一个样本是否属于某特定总体等。
区间估计(可信区间):按一定的概率或可信度(1-a)用一个区间估计总体参数所在范围。
医学统计学知识点总结
知识点1.统计学是应用概率论和数理统计的基本原理和方法,研究数据的搜集、整理、分析、表达和解释的一门学科。
2.医学统计学是应用统计学的基本原理和方法,研究医学及其有关领域数据信息的搜集、整理、分析、表达和解释的一门学科。
3.统计软件包是对资料进行各种统计处理分析的一系列程序的组合。
4.统计工作的基本步骤:研究设计、搜集资料、整理资料和分析资料。
5.科研结果的好坏取决于研究设计的好坏,研究设计是统计工作中的基础和关键,决定着整个统计工作的成败。
6.统计分析包括统计描述和统计推断。
统计描述是对已知的样本(或总体)的分布情况或特征值进行分析表述;统计推断是根据已知的样本信息来推断未知的总体。
7.医学原始资料的类型有:计量资料、计数资料、等级资料。
8.计量资料是用定量的方法对每一个观察单位的某项指标进行测定所得的资料。
9.计数资料是把观察单位按某种属性(性质)或类别进行分组,清点各组观察单位数所得资料。
10.等级资料是把观察单位按属性程度或等级顺序分组,清点各组观察单位数所得资料。
各属性之间有程度的差别。
等级资料的等级顺序不能任意颠倒。
11.同质:是指所研究的观察对象具有某些相同的性质或特征。
12.变异:是同质个体的某项指标之间的差异,即个体变异或个体差异性。
13.总体是根据研究目的确定的同质研究对象的总体。
样本是总体中具有代表性的一部分个体。
14.抽样研究是通过从总体中随机抽取样本,对样本信息进行分析,从而推断总体的研究方法。
抽样误差是由随机抽样造成的样本指标与总体指标之间、样本指标与样本指标之间的差异,其根源在于总体中的个体存在变异性,只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
15.统计学的主要任务是进行统计推断,包括参数估计和假设检验。
16.概率是某随机事件发生可能性大小(或机会大小)的数值度量。
概率的取值为0≤P≤1。
小概率事件是指P≤0.05的随机事件。
17.频数表和频数分布图的用途:(1)揭示计量资料的分布类型。
(完整版)医学统计学复习要点
(完整版)医学统计学复习要点第⼀章绪论1、数据/资料的分类:①、计量资料,⼜称定量资料或者数值变量;为观测每个观察单位某项治疗的⼤⼩⽽获得的资料。
②、计数资料,⼜称定性资料或者⽆序分类变量;为将观察单位按照某种属性或者类别分组计数,分组汇总各组观察单位数后⽽得到的资料。
③、等级资料,⼜称半定量资料或者有序分类变量。
为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后⽽得到的资料。
2、统计学常⽤基本概念:①、统计学(statistics)是关于数据的科学与艺术,包括设计、搜集、整理、分析和表达等步骤,从数据中提炼新的有科学价值的信息。
②、总体(population)指的是根据研究⽬的⽽确定的同质观察单位的全体。
③、医学统计学(medical statistics):⽤统计学的原理和⽅法处理医学资料中的同质性和变异性的科学和艺术,通过⼀定数量的观察、对⽐、分析,揭⽰那些困惑费解的医学问题背后的规律性。
④、样本(sample):指的是从总体中随机抽取的部分观察单位。
⑤、变量(variable):对观察单位某项特征进⾏测量或者观察,这种特征称为变量。
⑥、频率(frequency):指的是样本的实际发⽣率。
⑦、概率(probability):指的是随机事件发⽣的可能性⼤⼩。
⽤⼤写的P表⽰。
3、统计⼯作的基本步骤:①、统计设计:包括对资料的收集、整理和分析全过程的设想与安排;②、收集资料:采取措施取得准确可靠的原始数据;③、整理资料:将原始数据净化、系统化和条理化;④、分析资料:包括统计描述和统计推断两个⽅⾯。
第⼆章计量资料的统计描述1. 频数表的编制⽅法,频数分布的类型及频数表的⽤途①、求极差(range):也称全距,即最⼤值和最⼩值之差,记作R;②、确定组段数和组距,组段数通常取10-15组;③、根据组距写出组段,每个组段的下限为L,上限为U,变量X值得归组统⼀定为L≤X<U,最后⼀组包括下限。
医学统计学重点整理汇总
医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合。
总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。
用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3.资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料。
是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位。
(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析。
第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2.误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3.实验设计的三个基本原则:对照原则、随机化分组原则、重复原则。
(完整版)医学统计学重点总结
1.简述总体和样本的定义,并且举例说明。
总体是研究目的确定的所有同质观察单位的全体。
样品是从研究总体中抽取部分有代表性的观察单位。
2.简述参数和统计量的定义,并且举例说明。
描述总体特征的指标称为参数,描述样本特征的指标称为统计量。
3.变量的类型有哪几种?举例说明各种类型变量有什么特点。
①定量数据:计量资料;定量的观测值是定量的,其特点是能够用数值的大小衡量其水平的高低。
②定性数据:计数资料;变量的观测值是定性的,表现为互不相容的类别或属性。
③有序数据:半定量数据/等级资料;变量的观测值是定性的,但各类别(属性)有程度或顺序上的差异。
4.请举例说明一种类型的变量如何变换为另一种类型的变量。
定量数据>有序数据>定性数据--------------->5.请简述什么是小概率事件?概率是描述事件发生可能性大小的度量,P 0.05事件称为小概率事件。
≤6.举例说明什么是配对设计。
配对设计是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。
①同源配对:同一受试对象或同一标本的两个部分,随机分配接受两种不同处理;②异源配对:为消除混杂因素的影响,将两个同质受试对象配对分别接受两种处理。
7.非参数假设检验适合什么类型数据进行分析?①总体分布类型未知或非正态分布数据;②定量或半定量数据;③数据两端无确定的数值。
8.简述P 25 P 50 P 75的统计学意义。
(条件:明显偏态且不能转化为正态或近似对称;一端或两端无确定数值;分布情况未知)用来描述资料的观测值序列在某百分位置的水平,四分位数间距可以作为说明个体差异的指标(说明个体在不同位置的变异情况)。
9.直条图、直方图、圆饼图的使用条件是什么?直条图:各自独立的统计指标的数值大小和他们之间的对比;直方图:连续变量频数分布情况;圆饼图:全体中各部分所占的比例。
10.统计分析包括哪两个方面的内容?为什么要进行统计推断?统计描述和统计分析;统计描述用来描述及总结一组数据的重要特征,其目的是使实验或观察得到的数据表达清楚并便于分析。
医学统计学_总结_重点_笔记_复习资料
第一章2选1总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。
可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
总体population根据研究目的而确定的同质观察单位的全体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
样本sample从总体中随机抽得的部分观察单位,其实测值的集合。
3选1小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。
P值:P 值即概率,反映某一事件发生的可能性大小。
统计学根据显著性检验方法所得到的P 值反应结果真实程度,一般以P ≤ 0.05 认为有统计学意义, P ≤0.01 认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05 或0.01。
P值是:1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。
2) 拒绝原假设的最小显著性水平。
3) 观察到的(实例的) 显著性水平。
4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。
小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。
统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
资料的类型(3选1)(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。
计量资料measurement data定量资料quantitative data数值变量资料numerical variable为观测每个观察单位某项指标的大小,而获得的资料。
医学统计学总结
医学统计学总结第一篇:医学统计学总结医学统计学总结一、两组或多组计量资料的比较1.两组资料:1)大样本资料或服从正态分布的小样本资料(1)若方差齐性,则作成组t检验(2)若方差不齐,则作t’检验或用成组的Wilcoxon秩和检验 2)小样本偏态分布资料,则用成组的Wilcoxon秩和检验2.多组资料:1)若大样本资料或服从正态分布,并且方差齐性,则作完全随机的方差分析。
如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。
2)如果小样本的偏态分布资料或方差不齐,则作Kruskal Wallis的统计检验。
如果Kruskal Wallis的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等)进行两两比较。
二、分类资料的统计分析1.单样本资料与总体比较1)二分类资料:(1)小样本时:用二项分布进行确切概率法检验;(2)大样本时:用U检验。
2)多分类资料:用Pearson c2检验(又称拟合优度检验)。
2.四格表资料1)n>40并且所以理论数大于5,则用Pearson c2 2)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正c2或用Fisher’s 确切概率法检验 3)n£40或存在理论数<1,则用Fisher’s 检验3.2×C表资料的统计分析 1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的CMH c2或成组的Wilcoxon 秩和检验2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检验 3)行变量和列变量均为无序分类变量(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验4.R×C表资料的统计分析 1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH c2或Kruskal Wallis的秩和检验2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作none zero correlation analysis的CMH c23)列变量和行变量均为有序多分类变量,可以作Spearman相关分析4)列变量和行变量均为无序多分类变量,(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验三、Poisson分布资料1.单样本资料与总体比较:1)观察值较小时:用确切概率法进行检验。
医学统计学大题重点知识总结
一、描述集中位置的指标应用适用范围【筒】平均数:算数均数、几何均数、中位数、百分位数。
1、算数平均数:适用于单峰对称分布或近似于单峰对称分布的资料2、几何均数:适用于对数变换后单峰对称的资料。
eg∙等比资料、滴度资料、对数正态分布资料3、中位数:理论上可用于任何分布资料•,但当资料适合计算均数或几何均数时,不宜用中位数。
Eg:偏态分布、分布不明资料、有不确定值的资料.4、百分位数:适用于任何分布的资料。
二、描述离散趋势的指标【简】变异度:极差、四分位数间距、标准差、方差、变异系数。
1、极差:又称全距,是一组数据中最大值和最小值之差。
极差大说明资料的离散度大。
优点:简单明了缺点:不灵敏和不稳定。
样本例数相差悬殊时,不适宜比较其极差。
2、四分位数间距:即中间一半观察值的极差。
四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。
3、标准差:基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。
在同质的前提下,标准差大,表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;标准差小,表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。
4、方差:利用了所用的信息,与变异度和变量值的个数有关。
5、变异系数(CV):变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。
三、正态分布特征1、单峰分布;高峰在均数处;2、以均数为中心,均数两侧完全对称。
3、正态分布有两个参数(Parameter),即位置参数_(均数)和变异度参数_(标准差)。
4、有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。
5、正态曲线下的面积分布有一定的规律。
四、参考值范围(含义+原则)【简】1、含义:(1)又称正常值范围,是绝大多数正常人的某观察指标所在的范围。
绝大多数:90%,95%,99%等等。
(2)确定参考值范围的意义:用于判断正常与异常。
(完整版)医学统计学总结,推荐文档
5. 几个分布
正态分布 适用资料 连续性对称分布
表达方式 N(μ,σ)
分布特点 1.以均数为中心,左右对称;
2.两个参数:总体均数与标准差;
3.正态曲线下面积
估计公式 一般了解
统计应用 应用范围广,如参考值范围、统计推断等
标准正态 适用资料 连续性对称分布
分布
表达方式 N(0,1)
分布特点 1.以 0 或为中心,左右对称
统计应用 样本率与总体率的比较
两样本率的比较
Poisson 分布 适用资料 稀有事件的概率分布
二项分布的特例
表达方式 P(μ)或 P(λ)
分布特点 1.分布图形;
2.均数等于标准差; 3.n∞ Poisson 分布正态分布;
4.Poisson 分布可加性
估计公式 了解会用:最少/最多发生的概率
统计应用 样本与总体均数比较
2.总体均数为 0,标准差为 1
3.曲线下面积:u 界值表
估计公式 一般了解
统计应用 应用范围广,如参考值范围、统计推断等
二项分布 适用资料 两分类独立重复资料
表达方式 B(n,π)
分布特点 1.概率之和等于 1;
2.二项分布的图形;
3.n∞ B正态分布;
4.二项分布的均数与标准差
估计公式 了解会用:最少/最多发生的概率
两样本均数的比较
(三)统计推断:
1. 抽样误差、标准误 2. t 分布特点:
① 以 0 为中心左右对称的单峰分布; ② 自由度越小,曲线越扁平,自由度越大曲线越尖峭;
③ 自由度∞,t 分布曲线趋近与标准正态分布曲线。 3. 参数估计:用样本统计量推断总体参数——均数、率
① 区间估计:置信区间或可信区间 ② 理解:参考值范围与可信区间的区别 4. 假设检验原理 5. 假设检验步骤: ① 建立假设确定检验水准; ② 计算检验统计量; ③ 确定 P 值,作出推断结论。 6. 两型错误: ①第一类错误 α; ②第二类错误 β,1-β 为检验效能。
医学统计学重点知识总结
医学统计学第一章 绪言研究设计、资料分析、结论定量资料:以定量值表达每个观察单位的某项观察指标,如血脂心率等。
定性资料:以定性方式表达每个观察单位的某项观察指标,如血型性别等。
等级资料:以等级方式表达每个观察单位的某项观察指标,如疗效分级等。
总体:是指按研究目的所确定的研究对象中所有观察单位某项指标取值的集合。
样本:是指从研究总体中随机抽取具有代表性的部分观察单位某项指标取值的集合。
(以上均可能考名解)描述某总体特征的指标称为总体参数,简称参数;描述某样本特征的指标称为样本统计量,简称统计量。
概率是随机事件发生可能性大小的一个度量,概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。
定量资料的统计指标(大题):算术均数,几何均数,中位数和百分位数。
同质性与异质性:同质是指观察单位具有相同的性质,是构成研究总体的必备条件;异质性是指性质不同,研究内容不同,对同质性的要求不同。
第二章 个体变异与变量分布变异(名解):是以具有同质性的观察单位为载体,某项观察指标在观察单位之间显示的差别。
【在同质的基础上各观察单位(或个体)之间的差异】 正偏态与负偏态【2.3节为重点,尤其是统计指标与图的关系】几何均数应用于比值数据,中位数适用于偏态分布离散趋势指标(重点简答):全距,四分位数间距,方差,标准差和变异系数,其中常用的是标准差和变异系数。
变异系数(名解):亦称离散系数,是标准差s 与均数x 之比,即XS CV X100%,变异系数常用于比较度量衡单位不同的两组或多组资料的变异度、比较均数相差悬殊的两组或多组资料的变异度。
如何正确使用相对数(选择或简答):1,计算相对数的分母不宜过小。
2,分析时不能以构成比代替率。
3,对观察单位数不等的几个率,不能直接相加求其平均率(或称总率)。
4,计算率时要注意资料的同质性,对比分析时应注意资料的可比性。
大学医学院医学统计学复习总结(首版)
⼤学医学院医学统计学复习总结(⾸版)1.要反映某市连续5年甲肝发病率的变化情况,宜选⽤A.直条图 B.直⽅图C.线图 D.百分直条图2.下列哪种统计图纵坐标必须从0开始,A. 普通线图B.散点图C.百分分直条图D.直条图3.关于统计表的列表要求,下列哪项是错误的?A.横标⽬是研究对象,列在表的右侧;纵标⽬是分析指标,列在表的左侧B.线条主要有顶线、底线及纵标⽬下⾯的横线,不宜有斜线和竖线C.数字右对齐,同⼀指标⼩数位数⼀致,表内不宜有空格D.备注⽤“*”标出,写在表的下⾯4.医学统计⼯作的基本步骤是A.统计资料收集、整理资料、统计描述、统计推断B.调查、搜集资料、整理资料、分折资料C.设计、搜集资料、整理资料、分析资料D.设计、统计描述、统计推断、统计图表5.统计分析的主要内容有A.描述性统计和统计学检验B.统计描述和统计推断C.统计图表和统计报告D.描述性统计和分析性统计6制作统计图时要求A.纵横两轴应有标⽬。
⼀般不注明单位B.纵轴尺度必须从0开始C.标题应注明图的主要内容,⼀般应写在图的上⽅D.在制作直条图和线图时,纵横两轴长度的⽐例⼀般取5:77.痊愈、显效、好转、⽆效属于A. 计数资料B. 计量资料C. 等级资料D.以上均不是8.均数和标准差的关系是A.x愈⼤,s愈⼤B.x愈⼤,s愈⼩C.s愈⼤,x对各变量值的代表性愈好D.s愈⼩,x对各变量值的代表性愈好9.对于均数为µ,标准差为σ的正态分布,95%的变量值分布范围为A. µ-σ ~ µ+σB. µ-1.96σ ~ µ+1.96σC. µ-2.58σ ~ µ+2.58σD. 0 ~ µ+1.96σ10.从⼀个数值变量资料的总体中抽样,产⽣抽样误差的原因是A.总体中的个体值存在差别B.样本中的个体值存在差别C.总体均数不等于0D.样本均数不等于011.从偏态总体抽样,当n⾜够⼤时(⽐如n > 60),样本均数的分布。
医学统计学期末复习总结
医学统计学期末复习总结医学统计学期末复习总结名词解释1.参数Patameter:是指总体的统计指标,如总体均数、标准差,,采用希腊字母分别记为μ、σ。
是固定的常数。
多数情况下,总体参数是不易知道的,但可以通过随机抽样抽取具有代表性的样本,用算得的样本统计量估计未知的总体参数。
2.统计量statistic:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为X、S。
样本统计量是在总体参数附近波动的随机变量,可用来估计总体参数。
3.系统误差systematic error:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是克制的或可能掌握的。
(受确定因素影响,大小变化有方向性)4随机误差random error:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。
(影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析)5 I型错误type I error:拒绝了实际上成立的H0,这类“弃真”的错误称为I型错误,其概率大小用α来表示。
(1-a)即可信度:重复抽样时,样本区间包含总体参数(m)的百分数。
6 II型错误type II error:“接受”了实际上不成立的H0,这类“取伪”的错误称为II型错误,其概率大小用β来表示。
(1-β)即把握度(或检验效能):两总体确有差别,被检出有差别的能力。
7 P值P-value:在H0成立的前提下,用样本数据获得的样本统计量,及比样本统计量总计更极端的曲线下的面积。
8 置信区间confidence bound / confidence interval, CI:按预先给定的概率(1-α)所确定的包含未知总体参数的一个范围。
9 多重共线性Multicollinearity:是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
10哑变量dummy variable:用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.要反映某市连续5年甲肝发病率的变化情况,宜选用A.直条图 B.直方图C.线图 D.百分直条图2.下列哪种统计图纵坐标必须从0开始,A. 普通线图B.散点图C.百分分直条图D.直条图3.关于统计表的列表要求,下列哪项是错误的?A.横标目是研究对象,列在表的右侧;纵标目是分析指标,列在表的左侧B.线条主要有顶线、底线及纵标目下面的横线,不宜有斜线和竖线C.数字右对齐,同一指标小数位数一致,表内不宜有空格D.备注用“*”标出,写在表的下面4.医学统计工作的基本步骤是A.统计资料收集、整理资料、统计描述、统计推断B.调查、搜集资料、整理资料、分折资料C.设计、搜集资料、整理资料、分析资料D.设计、统计描述、统计推断、统计图表5.统计分析的主要内容有A.描述性统计和统计学检验B.统计描述和统计推断C.统计图表和统计报告D.描述性统计和分析性统计6制作统计图时要求A.纵横两轴应有标目。
一般不注明单位B.纵轴尺度必须从0开始C.标题应注明图的主要内容,一般应写在图的上方D.在制作直条图和线图时,纵横两轴长度的比例一般取5:77.痊愈、显效、好转、无效属于A. 计数资料B. 计量资料C. 等级资料D.以上均不是8.均数和标准差的关系是A.x愈大,s愈大B.x愈大,s愈小C.s愈大,x对各变量值的代表性愈好D.s愈小,x对各变量值的代表性愈好9.对于均数为μ,标准差为σ的正态分布,95%的变量值分布范围为A. μ-σ ~ μ+σB. μ-1.96σ ~ μ+1.96σC. μ-2.58σ ~ μ+2.58σD. 0 ~ μ+1.96σ10.从一个数值变量资料的总体中抽样,产生抽样误差的原因是A.总体中的个体值存在差别B.样本中的个体值存在差别C.总体均数不等于0D.样本均数不等于011.从偏态总体抽样,当n足够大时(比如n > 60),样本均数的分布。
A. 仍为偏态分布B. 近似对称分布C. 近似正态分布D. 近似对数正态分布12.某市250名8岁男孩体重有95%的人在18~30kg范围内,由此可推知此250名男孩体重的标准差大约为A.2.0kg B.2.3kgC.3.1kg D.6.0kg13.单因素方差分析中,造成各组均数不等的原因是A.个体差异 B.测量误差C.各处理组可能存在的差异D.以上都有14.医学中确定参考值范围是应注意A.正态分布资料不能用均数标准差法 B.正态分布资料不能用百分位数法C.偏态分布资料不能用均数标准差法 D.偏态分布资料不能用百分位数法15.方差分析中,当P<0.05时,则A.可认为各总体均数都不相等 B.可认为各样本均数都不相等C.可认为各总体均数不等或不全相等 D.以上都不对16.两样本中的每个数据减同一常数后,再作其t检验,则A.t值不变 B.t值变小C.t值变大D.无法判断t值变大还是变小17.在抽样研究中,当样本例数逐渐增多时A.标准误逐渐加大B.标准误逐渐减小C.标准差逐渐加大D.标准差逐渐减小18.计算样本资料的标准差这个指标A.不会比均数大 B.不会比均数小C.决定于均数 D.不决定于均数19.各观察值均加(或减)同一个不等于0的数后A.均数不变,标准差改变B. 均数改变,标准差不变C.两者均不变D. 两者均改变20.描述一组偏态分布资料的变异度,以下哪个指标为好A.全距 B.四分位数间距C.标准差 D.变异系数21.正态曲线的横轴上从均数μ到μ+1.96σ的面积为A.95% B.45% C.47.5% D.97.5%22.设同一组7岁男童的身高的均数是110cm,标准差是5cm,体重的均数是25kg,标准差是3kg,则比较两者变异程度的结论为A.身高的变异程度小于体重的变异程度B.身高的变异程度等于体重的变异程度C.身高的变异程度大于体重的变异程度D.单位不同,无法比较23.描述一组偏态分布资料的平均水平,一般宜选择 A .算术均数 B .几何均数 C .中位数 D .平均数24.用均数与标准差可全面描述下列哪种资料的特征 A .正偏态分布 B .负偏态分布 C .正态分布和近似正态分布 D .对称分布25.比较身高和体重两组数据变异度大小宜采用 A .变异系数 B .极差 C .标准差 D .四分位数间距26.用于表示总体均数的95%可信区间的是 A.s x 96.1± B.x S t x υ ,05.0± C.x σμ96.1± D.σμ96.1±27.配对t 检验中,用药前的数据减去用药后的数据与用药后的数据减去用药前的数据,两次t 检验的结果 A .t 值符号相反,但结论相同 B .t 值符号相反,结论相反 C .t 值符号相同,结论相同 D .结论可能相同或相反28.计算124例链球菌中毒的平均潜伏期,一般宜选择 A .算术均数 B .几何均数 C .中位数 D .平均数 29.变异系数的数值 A .一定比标准差小 B .一定比标准差大 C .一定大于1 D .可大于1,也可小于130.描述正态分布的变异程度,用下列哪个指标表示较好 A .全距 B .标准差 C .变异系数 D .四分位数间距31.估计医学参考值范围时,下列哪种说法是错误的 A .需要考虑样本的同质性 B .“正常”是指健康,无疾病C .“正常人”是指排除了影响被研究指标的疾病或因素的人D .需要足够数量 32. x σ表示A .总体均数的离散程度B .样本均数的标准差C .变量值间的差异大小D .总体均数标准误33.正态分布的曲线形状越扁平,则A .σ 越大B .σ 越小C .μ 越大D .μ 越小34.当原始数据分布不明时,表示其集中趋势的指标宜用 A .算术均数 B .几何均数 C .中位数 D .平均数35.标准正态分布的均数与标准差分别为 A .1与0 B .0与0 C .1与1 D .0与136.单因素方差分析中,若处理因素无作用,则理论上应该有 A .F<1.96 B .F>1 C .F=1 D .F=0 37.正态分布资料一般会有A .均数=中位数B .均数=几何均数C .均数>中位数D .均数<中位数 38.描述分类变量的主要统计指标是 A .平均数 B .变异系数 C .相对数 D .百分位数39.同样性质的两项研究工作中,都作两样本均数差别的假设检验,结果均为P<0.05,P 值愈小,则 A .两样本均数差别愈大 B .两总体均数差别愈大C .越有理由说两总体均数不同D .越有理由说两总体均数差别很大 40. 行×列表的χ2检验应注意A .任意格子的理论数若小于5,则应该用校正公式B .若有五分之一以上格子的理论数小于5,则要考虑合理并组C .任意格子理论数小于5,就应并组D .若有五分之一以上格子的理论数小于5,则应该用校正公式 41.若仅知道样本率,估计率的抽样误差时应用下列哪个指标表示 A .p σ B .x S C .p S D .σ 42.男性吸烟率是女性的10倍,该指标为 A .相对比 B .构成比 C .率 D .标化率 43.下列哪一指标为相对比 A .均数 B .中位数 C .变异系数 D .标准差44.配对比较的秩和检验的基本思想是:如果检验假设成立,则对样本来说 A .正秩和与负秩和的绝对值不会相差很大 B .正秩和与负秩和的绝对值相等 C .正秩和与负秩和的绝对值相差很大 D .以上都不对45.设配对资料的变量值为x1和x2,则配对资料的秩和检验是 A .把x1和x2综合从小到大排序 B .分别按x1和x2从小到大排序 C .把x1和x2的差数从小到大排序 D .把x1和x2的差数的绝对值从小到大排序 46.下列哪项不是非参数统计的优点A.不受总体分布的限制B.适用于等级资料C.适用于未知分布型资料D.适用于正态分布资料47.等级资料的比较宜采用A.秩和检验 B.F检验C.t检验 D.χ2检验48.在进行成组设计两样本秩和检验时,以下检验假设哪种是正确的A.两样本均数相同B.两样本的中位数相同C.两样本对应的总体均数相同D.两样本对应的总体分布相同49.对两个数值变量同时进行相关和回归分析,r有统计学意义(P<0.05),则A.b无统计学意义B.b有统计学意义C.不能肯定b有无统计学意义D.以上都不是50.某医师拟制作标准曲线,用光密度值来推测食品中亚硝酸盐的含量,应选用的统计方法是A.t检验 B.回归分析C.相关分析 D.χ2检验51在直线回归分析中,回归系数b的绝对值越大A.所绘制散点越靠近回归线B.所绘制散点越远离回归线C.回归线对x 轴越平坦D.回归线对x 轴越陡52. 实验设计和调查设计的根本区别是A.实验设计以动物为对象B.调查设计以人为对象C.实验设计可以随机分组D.实验设计可以人为设置处理因素53.估计样本含量的容许误差是指A.样本统计量值之差B.总体参数值之差C.测量误差D.样本统计量值和所估计的总体参数值之差54.作某疫苗的效果观察,欲用“双盲”试验,所谓“双盲”即A.试验组接受疫苗,对照组接受安慰剂B.观察者和试验对象都不知道谁接受疫苗谁接受安慰剂C.两组试验对象都不知道自己是试验组还是对照组D.以上都不是55.表示血清学滴度资料的平均水平常用A.算术均数 B.中位数C.几何均数 D.全距56.根据正态分布的样本标准差,估计95%正常值范围,可用A.x±t0.05,νs; B.x±2.58sC.x±t0.05,νx s D.x±1.96s57. x和s中A.x会是负数,s不会B.s会是负数,x不会C.两者都不会 D.两者都会58.实验设计的基本原则是。
A. 随机化、双盲法、设置对照B. 重复、随机化、配对C. 齐同、均衡、随机化D. 随机化、重复、对照、均衡59.一组数据呈正态分布,其中小于x + 1.96s的变量值有A.5% B.95% C.97.5% D.92.5%60.描述一组偏态分布资料的变异度,宜用A.全距 B.标准差C.变异系数 D.四分位数间距61.四个百分率作比较,有一个理论数小于5,大于1,其它都大于5,则A.只能作校正χ2检验B.不能作χ2检验C.作χ2检验不必校正D.必须先作合理的合并62.四格表如有一个实际数为0,则A.不能作校正χ2检验B.必须用校正χ2检验C.还不能决定是否可作χ2检验D.肯定可作校正χ2检验63.当n足够大,且np和n(1-p)均大于5时,总体率的95%可信区间用式求出。
A. p±1.96s pB. p±2.58s pC. p±2.33s pD. p±1.64s p64.确定假设检验的检验水准后,同一资料单侧t检验有统计学意义,则双侧t检验统计学意义。