卫生统计学复习资料
《卫生统计学》考试重点复习资料
《卫生统计学》复习资料08生物技术曾洋and林阳第一章绪论名词解释统计学:就是一门通过收集、整理与分析数据来认识社会与自然现象数量特征得方法论科学。
其目得就是通过研究随机事件得局部外在数量特征与数量关系, 从而探索事件得总体内在规律性,而随机性得数量化,就是通过概率表现出来。
总体:总体就是根据研究目得确定得同质得观察单位得全体,更确切得说,就是同质得所有观察单位某种观察值(变量值)得集合。
总体可分为有限总体与无限总体。
总体中得所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其测量结果得集合称为样本(sample)。
样本应具有代表性。
所谓有代表性得样本,就是指用随机抽样方法获得得样本。
抽样:从研究总体中抽取少量有代表性得个体,称为抽样。
概率:概率(probability)又称几率,就是度量某一随机事件A发生可能性大小得一个数值,记为P(A),P(A)越大,说明A事件发生得可能性越大。
0﹤P(A)﹤1。
频率:在相同得条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A 在n次试验中出现得频率(freqency)。
当试验重复很多次时P(A)= m/n。
变量:表现出个体变异性得任何特征或属性。
随机变量:随机变量(random variable)就是指取指不能事先确定得观察结果。
随机变量得具体内容虽然就是各式各样得,但共同得特点就是不能用一个常数来表示,而且,理论上讲,每个变量得取值服从特定得概率分布。
系统误差:系统误差(systematic error)就是指由于仪器未校正、测量者感官得某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不就是分散在真值得两侧,而就是有方向性、系统性或周期性地偏离真值。
系统误差可以通过实验设计与完善技术措施来消除或使之减少。
随机误差:随机误差(random error)又称偶然误差,就是指排除了系统误差后尚存得误差。
卫生统计学考前复习材料.doc
基本概念总体(population):根据研究目的确定同质观察单位(亦称个体)的全体。
样本(sample):从总体中随机抽取部分观察单位,其实测值的集合。
抽样:必须遵循随机化原则,从总体中抽取有代表性的部分观察值,使样本具有代表性。
目的是为了用样本的信息(或统计量)推断总体的特征(或参数)。
同质与变异homogeneity & variation:统计学要求研究对象具有同质性,即研究对象的观察值具有相同属性。
同一总体内的个体存在差异,这种现象称为变异,变异是绝对存在的。
概率(probability):是描述随机事件发生的可能性大小的数值,常用P表示,范围在0与1之间。
P越接近1,标明某事件发生的可能性越大;P越接近0,表明某事件发生的可能性越小;PW0.05 的事件称为小概率事件。
统计资料的类型:1 .定量资料(measurement data)用定量方法测量观察对象的某项指标所得的数值资料。
一般有度量衡单位。
如身高、体重、浓度。
2,分类资料(enumeration data)将观察单位按某种属性或类别分组所得各组的观察单位数。
(1)二项分类:阳性、阴性。
(2)多项分类:A、B、0、AB血型。
3,等级资料(rankeddata)将观察单位按某种属性的不同程度分组所得各组的观察单位数。
如血清反应分为一,+, + + , + + + , + + + +五级。
资料可以由高级向低级转化计量资料:个体的血红蛋白(g/dl)计数资料:正常人数、异常人数(按正常异常分组)等级资料:0〜,重度贫血6〜,中度贫血9〜,鞍度贫血12〜,正常16〜,增高(按血红蛋白量的多少分组)统计工作的基本步骤:1.设计,design2,资料收集,collection data3.资料整理,sorting data4,资料分析,analysis data统计描述、参数估计、假设检验、统计结论。
统计表:基本要求:1 .标题概括表达中心内容,简练、确切、必要时注明资料来源、事件,位于表的上方。
《卫生统计学》考试重点复习资料
卫生统计学Statistics第一章绪论统计学:是一门通过收集、分析、解释、表达数据,目的是求得可靠的结果。
总体:根据研究目的确定的同质(大同小异)的观察单位的全体。
分为目标总体和研究总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
抽样:从研究总体中抽取少量有代表性的个体。
变量:表现出个体变异性的任何特征或属性。
分定型变量和定量变量。
定型变量:1)分类变量或名义变量:最简单的是二分类变量。
0-1变量也常称为假变量或哑变量。
2)有序变量或等级变量。
定量变量:分离散型变量和连续型变量。
变量只能由高级向低级转化:定量→有序→分类→二值。
常见的三种资料类型1)计量或测量或数值资料,如身高、体重等。
2)计数资料或分类资料,如性别、血型等。
3)等级资料,如尿蛋白含量-、+、++、+++、…第一章定量变量的统计描述此章节x即为样本均数(X拔)1.离散型定量变量的取值是不连续的。
累计频数为该组及前面各组的频数之和。
累计频率表示各组累计频数在总例数中所占的比例。
可用直条图表达。
2.编制频数表的步骤与要点步骤:1确定极差2确定组数3确定各组段的上下限4列表要点(注意事项)1)制表是为了揭示数据的分布特征,故分组不宜过粗或过细。
2)为计算方便,组段下限一般取较整齐的数值3)第一组段应包含最小值,最后一个组段应包含最大值。
3.频率分布表(图)的用途1)描述变量的分布类型2)揭示变量的分布特征3)便于发现某些离群值或极端值4)便于进一步计算统计指标和统计分析。
4.描述平均水平的统计指标算术均数(mean):描述一组数据在数量上的平均水平。
总体均数用μ表示,样本均数用X表示。
适用于服从对称分布变量的平均水平描述,这时均数位于分布的中心,能反应全部观察值的平均水平。
分:直接法和频率表法。
即所有变量值加和除以总数n或所有频数f k乘以组中值X0k后求和再除以总数n。
《卫生统计学》考试重点复习资料
②权衡两类错误的危害以确定α的大小。 ③正确理解 P 值的意义,如果 P<α,宜说差异“有统计学意义”。
第八章 方差分析
名词解释
总变异:样本中全部实验单位差异称为总变异。其大小可以用全部观察值的均方(方差)表 示。 组间变异:各处理组样本均数之间的差异,受处理因素的影响,这种变异称为组间变异,其 大小可用组间均方表示。 组内变异: 各处理组内部观察值大小不等,这种变异称为组内变异,可用组内均方表示。 随机区组设计:事先将全部受试对象按自然属性分为若干区组,原则是各区组内的受试对象 的特征相同或相近,且受试对象数与处理因素的水平数相等。然后再将每个区组内的观察对 象随机地分配到各处理组,这种设计叫做随机区组设计。
构成比
某一组成部分的观察单 位数 同一事物各组成部分的 观察单位总数
100 %
③比又称相对比,是 A、B 两个有关指标之比,说明两者的对比水平,常以倍数或百分数表
示,其公式为:相对比=甲指标 / 乙指标(或 100%)
甲乙两个指标可以是绝对数、相对数或平均数等。
应用相对数时应注意哪些问题?
答:应用相对数时应注意的问题有:
相对数:是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有率、
构成比、比等。
标准化法:是常用于内部构成不同的两个或多个率比较的一种方法。标准化法的基本思想就
是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使
之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。
料间的相对水平。 3) 报告比较结果时必须说明所选用的“标准”和理由。 4) 两样本标准化率是样本值,存在抽样误差。当样本含量较小时,还应作假设检验。
卫生统计学-重点整理资料东大
1、卫生统计学的概念(P1)卫生统计学是应用概率论和数理统计学的根本原理和方法,研究居民卫生状况以及卫生效劳领域中数据的收集、整理和分析的一门科学,是卫生及其相关领域研究中不可缺少的分析问题。
2、卫生统计学的 4 个根本步骤(P3):设计、收集资料、整理资料、分析资料3、卫生统计学的几个根本概念(P4):⑴ 同质:在统计学中,假设某些观察对象具有相同的特征或属性,我们就称之为同质,或具有同质性。
⑵ 变异:同质个体的某项特征或属性的观察值或测量值之间的差异。
⑶ 总体:同质的所有观察单位某种特征或属性的观察值或测量值的集合。
⑷ 样本:从总体中随机抽取的具有代表性的局部观察单位的集合。
样本中包含的观察单位个数成为样本含量。
⑸ 参数:反映总体特征的指标,一般是未知的,常用希腊字母表示,如总体均数μ、总体率π等。
⑹ 统计量:根据样本观察值计算出来的指标,常用拉丁字母表示,如样本均数x 、样本率 等。
⑺ 变量与资料:对每个观察单位进行观察或测量的某项特征或属性称为变量;变量值的集合成为资料。
⑻ 定量资料:亦称计量资料,其变量值是定量的,表现为数值大小,一般有度、量、衡单位。
⑼ 定性资料:亦称分类资料,其观察值是定性的,表现为互不相容的类别或属性,一般无度、量、衡单位。
可细分为:①计数资料;②等级资料2、常用抽样方法〔名称、原理〕:⑴单纯随机抽样:先将调查总体的全部观察单位统一编号,然后采用随机数字表、统计软件或抽签方法之一随机抽取 n 〔样本大小〕个编号,由这 n 个编号所对应的 n 个观察单位构成研究样本。
⑵系统抽样:又称机械抽样或等距抽样。
事先将总体内全部观察单位按某一顺序号等距分成 n 〔样本大小〕个局部,每一局部内含 m 个观察单位;然后从第一局部开始,从中随机抽出第 i 号观察单位,依此用相等间隔 m 机械地在第 2 局部、第 3 局部直至第 n 局部内各抽出一个观察单位组成样本。
⑶分层抽样:先按对观察指标影响较大的某项或某几项特征,将总体分成假设干层,该特征的测定值在层内变异较小,层间变异较大,然后分别从每一层内随机抽取一定数量的观察单位结合起来组成样本。
卫生统计学复习资料
卫⽣统计学复习资料2007级预防⾏政班卫⽣统计学复习资料第三节统计⼯作的基本步骤统计设计收集资料整理资料分析资料⼀、统计设计1、调查设计2、实验设计(详见第⼗三章)⼆、收集资料资料来源(1)统计报表(2)⽇常医疗⼯作原始记录和报告卡(3)专题调查三、整理资料1.⽬的将收集的原始资料系统化、条理化,便于进⼀步计算和分析2.整理分组⽅式(1)性质分组(2)数量分组三、分析资料1、统计描述2、统计推断第四节统计图表⼀、统计表1、统计表的作⽤代替冗长的⽂字叙述,便于计算、分析和对⽐。
2、统计表的结构1)标题2)标⽬横标⽬(主语):说明表各横⾏数字的涵义,通常列在表的左侧纵标⽬(谓语):说明表各纵栏数字的涵义主语和谓语连贯起来能读成⼀句完整⽽通顺的话3、统计表的种类:1)简单表:只按单⼀变量分组2)组合表:按两个或两个以上变量分组某地1980年男、⼥HBsAg阳性率━━━━━━━━━━━━━━━━性别调查数阳性数阳性率(%)────────────────男4234 303 7.16⼥4530 181 4.00──────────────合计8764 484 5.52━━━━━━━━━━━━━━━━4、列表原则:重点突出,简单明了;主谓分明,层次分明5、统计表的基本要求:1)标题:概括地说明表的内容,必要时注明资料的时间和地点,写在表上⽅。
常见的缺点:过于简略,甚⾄不写标题;或过于繁琐;或标题不确切。
2)标⽬:⽂字简明扼要,有单位的标⽬要注明单位。
常见的缺点:标⽬过多,层次不清3)线条:不宜过多,除上⾯的顶线,下⾯的底线,纵标⽬与合计之间的横线外,其余线条⼀般均省去。
表的左上⾓不宜有斜线。
4)数字:A、数字⼀律⽤阿拉伯数字表⽰B、同⼀指标的⼩数位数应⼀致,位次对齐C、表内不宜留空格,暂缺或未记录,⽤“…”表⽰,⽆数字,⽤“—”表⽰,数字为0,填写0D、绝对数太⼩⽽⽆法计算指标,则⽤“…”代替。
5)备注:⼀般不列⼊表内,必要时可⽤“*”号标出,写在表的下⾯。
卫生统计学知识点(笔记)
第一章绪论1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。
可分为目标总体和研究总体。
若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。
需要谨慎的是,就研究总体所下的结论未必适用于目标总体。
3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。
获取样本的过程称为抽样(sampling)。
抽样研究的目的是用样本数据推断总体的特征。
需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。
4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。
5.▲变异(variation)是指同质的个体之间存在的差异。
6.▲变量的类型二分类变量分类变量或名义变量定性变量多分类变量变量有序变量或等级变量定量变量离散型变量连续型变量变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总体均数μ,总体标准差σ。
8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。
统计学的任务就是依据样本统计量来推断总体参数。
9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。
当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。
实用卫生统计学复习资料(汇总)
《实用卫生统计学》一、名词解释1.变异:同一性质的事物.其观察值(变量值)之间的差异.统计上称为变异。
2.抽样研究:从所研究的总体中随机抽取一部分有代表性的样本进行研究.抽样研究的目的是通过用样本资料计算的指标去推论总体。
3.统计描述:用统计图表或计算统计指标的方法表达一个特定群体(这个群体可以是总体也可以是样本)的某种现象或特征.称统计描述。
4.统计推断:根据样本资料的特性对总体的特性作估计或推论的方法称统计推断.常用方法是参数估计和假设检验。
5.均数:是反映计量资料全部观察值平均水平的统计指标.适用于对称分布尤其是正态分布资料.公式如下:6.标准差:是反映计量资料全部观察值离散程度的统计指标.用于描述对称分布资料.尤其正态分布资料的离散趋势.公式如下:7.标准正态变换:将服从正态分布的原始变量x~n(μ.σ)进行变量变换.这种变换叫标准正态变换(或M变换)。
8.构成比:又称构成指标.它表示事物内部各组成部分所占的比重或分布。
9.动态数列:是一系列按时间顺序排列起来的统计指标.包括绝对数、相对数或平均数.用以说明事物在时间上的变化和发展趋势。
计指标.它是对资料进行统计描述时的一种常用手段。
(如点、线、面或立体)显示数据的大小、升降、分布以及关系等.它也是对资料进行统计描述时的一种常用手段。
12.抽样误差:在同一总体中随机抽取样本含量相同的若干样本时.样本指标之间的差异以及样本指标与总体指标的差异.称为抽样误差。
13.均数的抽样误差:在同一总体中随机抽取样本含量相同的若干样本时.样本指标之间的差异以及样本指标与总体指标的差异.称为抽样误差。
统计学上.对于抽样过程中产生的同一总体中均数之间的差异称为均数的抽样误差。
14.率的抽样误差:在同一总体中随机抽取样本含量相同的若干样本时.样本指标之间的差异以及样本指标与总体指标的差异.称为抽样误差。
统计学上.对于抽样过程中产生的同一总体中率之间的差异称为率的抽样误差。
卫生统计学期末复习
第一章绪论统计学(statistics):就是收集数据、整理数据、分析数据,并由这些数据得到结论的原则和方法。
是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
总体(population):根据研究目的确定的同质研究对象的全体。
样本(sample):是指从研究总体中抽取的一部分有代表性的个体,这些个体组成样本。
抽样(sampling):是从研究总体中抽取少量有代表性的个体。
同质(homogeneity):总体中的个体具有相同的性质,它是进行统计分析的前提。
变异(variation):因个体差异引起的现象。
同一总体中不同个体间存在的差异。
计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。
等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。
将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位称为等级资料。
统计量(statistic):在科研工作中,通过对样本中的观察单位的变量值进行统计分析所得到的统计指标。
参数(parameter):是反映总体特征的统计指标。
概率(probability):表示一个事件发生的可能性大小的数。
(概率的统计定义:在一定条件下,重复做n次试验,nA为n次试验中事件A发生的次数,如果随着n逐渐增大,频率nA/n逐渐稳定在某一数值p附件,则数值p称为事件A在该条件下发生的概率。
第二章定量资料的统计描述计量资料:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。
频数:对一个随机变量做出重复的观察,其中某变量值出现的次数。
频数表:当变量值个数较多时,对各变量值出现的频率列表即为频率分布表(frequency distribution table),简称频率表。
对称分布:频数集中位置在正中,左右两侧频数分布大体对称。
偏峰分布:集中位置偏向一侧,频数分布不对称。
卫生统计学复习资料
科研方法第三章实验设计的基本要素:实验设计的基本要素包括处理因素、受试对象和实验效应三个组成部分。
实验设计的四原则:对照原则均衡原则随机原则重复原则随机原则:使实验组和对照组非处理因素趋于一致或均衡的主要手段是随机化。
随机化的方法有多种,最常使用的是利用随机数字表和随机排列表(或称随机化分组表)。
拉丁方设计:用r个拉丁字母排成r行r列的方阵,使每行及每列中每个字母都只出现一次,这样的方阵称为r阶拉丁方,或r×r拉丁方正交设计正交设计:正交设计是一种高效、快速的多因素试验方法。
它是利用一套规格化的正交表,使每次试验的因素及水平得到合理安排,通过试验结果的分析,获得有用的信息。
除了分析主因素外,还可分析交互作用。
非条件logistic回归的公式,目的,用途统计学第一章统计学家用总体这个术语来表示大同小异的对象全体。
我们试图就某个总体下结论,这个总体便称为目标总体。
资料常来源于目标总体中的一个部分,它称为研究总体。
科学的办法是从研究总体中抽取少量有代表性的个体,称为抽样。
一些个体处于同一总体,就是指他们大同小异,具有同质性。
同一总体内的个体间存在差异又是绝对的,这种现象称为变异。
本书把变量分成定性与定量两种类型。
定性变量中最常见的是分类变量或名义变量。
最简单也最常用的分类变量是二分类变量。
另一类定性变量是有序变量或等级变量。
定量变量可以分为两种类型,离散型变量和连续型变量。
离散型变量只能取整数值。
连续型变量可以取实数轴上的任何数值。
变量只能由“高级”向“低级”转化:定量→有序→分类→二值;不能作相反方向的转化。
在定量变量中,离散型变量常常通过适当的变换或连续性校正后借用连续型变量的方法来分析。
理论上,正态分布有两个参数:总体均数和总体方差。
这种由观察资料计算出来的量称为统计量。
第二章对连续型定量变量,频率分布表的编制步骤如下:(1)计算极差(R),也称为全距,即数据最大值与最小值之差。
(2)确定组段数与组距,变量值个数较多时,组段数一般取10左右。
《卫生统计学》考试重点复习资料
《卫生统计学》复习资料08生物技术曾洋and林阳第一章绪论名词解释统计学:是一门通过收集、整理和分析数据来认识社会和自然现象数量特征的方法论科学。
其目的是通过研究随机事件的局部外在数量特征和数量关系, 从而探索事件的总体内在规律性,而随机性的数量化,是通过概率表现出来。
总体:总体是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
抽样:从研究总体中抽取少量有代表性的个体,称为抽样。
概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。
0﹤P(A)﹤1。
频率:在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率(freqency)。
当试验重复很多次时P(A)= m/n。
变量:表现出个体变异性的任何特征或属性。
随机变量:随机变量(random variable)是指取指不能事先确定的观察结果。
随机变量的具体内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。
系统误差:系统误差(systematic error)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。
系统误差可以通过实验设计和完善技术措施来消除或使之减少。
随机误差:随机误差(random error)又称偶然误差,是指排除了系统误差后尚存的误差。
它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。
实用卫生统计学复习题及答案
实用卫生统计学期末复习资料一、名词解释1.构成比:又称构成指标,它表示事物内部各组成部分所占的比重或分步。
2.综合评价:是指人们根据不同的评价目的,选择相应的评价形式,据此选择多个因素或指标,并通过一定的数学模型,将多个评价因素或指标转化为能反映评价对象总体特征的信息。
3.可比性:指除了处理因素外,其他可能影响结果的非处理因素在各组间应该尽可能相同或相近,即“齐同”。
4.参数检验:是一种要求样本来自总体分布型是已知的(如正态分布),在这种假设的基础上,对总体参数(如总体均数)进行统计推断的假设检验。
5.非参数检验:是一种不依赖总体分布类型,也不对总体参数(如总体均数)进行统计推断的假设检验。
6.抽样误差:在同一总体中随机抽取样本含量相同的若干样本时,样本指标之间的差异以及样本指标与总体指标的差异,称为抽样误差。
7.变异:是指同一性质的事务,其观察值之间的差异,在统计学上就称作变异。
8.卫生统计学:是运用数理统计的基本原理和方法,通过数据的收集,整理和分析,研究预防医学和卫生事业管理中随机现象规律性的一门应用科学。
9.随机抽样:就是按照随机的原则获得样本,保证总体中每个个体都有同等机会被抽取,使样本对总体有较好的代表性。
10.频率:若随机事件在n次重复中出现m次,则n/m比值成为随机事件出现的频率。
二、简答题1. 完全设计的两样本均数比较的t检验与方差分析之间的关系如何?2. 假设检验的结论为什么不能绝对化?3请总结直线相关系数r与直线回归系数b的意义及特点?4. 应用相对数时有哪些注意事项?答案:3.答:直线相关系数r是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的统计指标。
总体相关系数用ρ表示,样本和相关系数用r表示,r是ρ的估计值。
相关系数没有单位,取值范围是-1≤r≤1。
r值为正,表示两变量呈正相关,x与y变化趋势是正向的。
r值为负,表示两变量呈负相关,x与y呈反向变化。
通常r的绝对值越大,表示两变量相关关系越密切。
卫生统计学复习资料
科研方法第三章实验设计的基本要素:实验设计的基本要素包括处理因素、受试对象和实验效应三个组成部分。
实验设计的四原则:对照原则均衡原则随机原则重复原则随机原则:使实验组和对照组非处理因素趋于一致或均衡的主要手段是随机化。
随机化的方法有多种,最常使用的是利用随机数字表和随机排列表(或称随机化分组表)。
拉丁方设计:用r 个拉丁字母排成r 行r 列的方阵,使每行及每列中每个字母都只出现一次,这样的方阵称为r阶拉丁方,或r x r拉丁方正交设计正交设计:正交设计是一种高效、快速的多因素试验方法。
它是利用一套规格化的正交表,使每次试验的因素及水平得到合理安排,通过试验结果的分析,获得有用的信息。
除了分析主因素外,还可分析交互作用。
非条件logistic 回归的公式,目的,用途统计学第一章统计学家用总体这个术语来表示大同小异的对象全体。
我们试图就某个总体下结论,这个总体便称为目标总体。
资料常来源于目标总体中的一个部分,它称为研究总体。
科学的办法是从研究总体中抽取少量有代表性的个体,称为抽样。
一些个体处于同一总体,就是指他们大同小异,具有同质性。
同一总体内的个体间存在差异又是绝对的,这种现象称为变异。
本书把变量分成定性与定量两种类型。
定性变量中最常见的是分类变量或名义变量。
最简单也最常用的分类变量是二分类变量。
另一类定性变量是有序变量或等级变量。
定量变量可以分为两种类型,离散型变量和连续型变量。
离散型变量只能取整数值。
连续型变量可以取实数轴上的任何数值。
变量只能由“高级”向“低级”转化:定量T有序T分类T二值;不能作相反方向的转化。
在定量变量中,离散型变量常常通过适当的变换或连续性校正后借用连续型变量的方法来分析。
理论上,正态分布有两个参数:总体均数和总体方差。
这种由观察资料计算出来的量称为统计量。
第二章对连续型定量变量,频率分布表的编制步骤如下:(1 )计算极差(R),也称为全距,即数据最大值与最小值之差。
(2)确定组段数与组距,变量值个数较多时,组段数一般取10 左右。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
卫生统计学复习资料第一章统计学的基本内容第一节医学统计学的含义1、医学统计学定义医学统计学(statistics)作为一门学科的定义是:关于医学数据收集、表达和分析的普遍原理和方法。
2、医学统计学研究方法:通过大量重复观察,发现不确定的医学现象背后隐藏的统计学规律。
3、医学统计推论的基础:在一定条件下,不确定的医学现象发生可能性,即概率。
第二节、统计学的几个重要概念一.资料的类型1、计量资料(数值变量):对每一观察对象用定量的方法,测定某项指标所得的资料。
一般有度量衡单位,每个对象之间有量的区别。
2、计数资料(分类变量):对观察对象按属性或类型分组计数所得的资料。
每个对象之间没有量的差异,只有质的不同。
3、等级资料(有序分类变量):对观察对象按属性或类型分组计数,但各属性或类型之间又有程度的差别。
注意:不同类型的资料采用的统计分析方法不同;三类资料类型可以相互转化。
二、总体根据研究目的所确定的同质的所有观察对象某项变量值的集合1、有限总体:只包括在确定时间、空间范围内的有限个观察对象。
2、无限总体:没有时间、空间范围的限制,观察对象的数量是不确定的,无限的三、样本从总体中随机抽取部分观察对象,其某项变量值的集合。
从总体中随机抽取样本的目的是: 用样本信息来推断总体特征。
四、随机事件可以发生也可以不发生,可以这样发生也可以那样发生的事件。
亦称偶然事件。
五、概率描述随机事件发生可能性大小的数值,记作P,其取值范围0≤P≤1,一般用小数表示。
P=0,事件不可能发生必然事件(随机事件的特例);P=1,事件必然发生;P→0,事件发生的可能性愈小;P→1,事件发生的可能性愈大六、小概率事件习惯上将P≤0.05或P≤0.01 的随机事件称小概率事件。
表示某事件发生的可能性很小。
七、参数和统计量参数:总体指标,如总体均数、总体率,一般用希腊字母表示统计量:样本指标,如样本均数、样本率,一般用拉丁字母表示八、学习医学统计学的方法1、重点掌握“四基”:基本知识、基本概念、基本原理和基本方法;2、重视统计方法在实际中应用,重视实习和综合训练;注意学习每种统计方法的应用范围、应用条件,大多数公式只要求了解其意义和使用方法,不用记忆和探究数理推导。
第三节统计工作的基本步骤统计设计收集资料整理资料分析资料一、统计设计1、调查设计2、实验设计(详见第十三章)二、收集资料资料来源(1)统计报表(2)日常医疗工作原始记录和报告卡(3)专题调查三、整理资料1.目的将收集的原始资料系统化、条理化,便于进一步计算和分析2.整理分组方式(1)性质分组(2)数量分组三、分析资料1、统计描述2、统计推断第四节统计图表一、统计表1、统计表的作用代替冗长的文字叙述,便于计算、分析和对比。
2、统计表的结构1)标题2)标目横标目(主语):说明表各横行数字的涵义,通常列在表的左侧纵标目(谓语):说明表各纵栏数字的涵义主语和谓语连贯起来能读成一句完整而通顺的话3、统计表的种类:1)简单表:只按单一变量分组2)组合表:按两个或两个以上变量分组某地1980年男、女HBsAg阳性率━━━━━━━━━━━━━━━━性别调查数阳性数阳性率(%)────────────────男4234 303 7.16女4530 181 4.00──────────────合计8764 484 5.52━━━━━━━━━━━━━━━━4、列表原则:重点突出,简单明了;主谓分明,层次分明5、统计表的基本要求:1)标题:概括地说明表的内容,必要时注明资料的时间和地点,写在表上方。
常见的缺点:过于简略,甚至不写标题;或过于繁琐;或标题不确切。
2)标目:文字简明扼要,有单位的标目要注明单位。
常见的缺点:标目过多,层次不清3)线条:不宜过多,除上面的顶线,下面的底线,纵标目与合计之间的横线外,其余线条一般均省去。
表的左上角不宜有斜线。
4)数字:A、数字一律用阿拉伯数字表示B、同一指标的小数位数应一致,位次对齐C、表内不宜留空格,暂缺或未记录,用“…”表示,无数字,用“—”表示,数字为0,填写D、绝对数太小而无法计算指标,则用“…”代替。
5)备注:一般不列入表内,必要时可用“*”号标出,写在表的下面。
二、统计图1、统计图作用:通过点、线、面等形式表达统计资料,直观地反映事物之间的数量关系。
但需注意,由于统计图对数量的表达较粗糙,不便于作深入细致的分析,一般需附相应的统计表。
2、常见统计图种类:条图、百分条图,圆图,线图,半对数线图,直方图,散点图3、制图的基本要求:1)按资料的性质和分析目的,选用适合的图形2)要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。
3)横轴尺度从左到右,纵轴尺度从下而上,数量一律由小到大。
横轴与纵轴坐标长度比例一般为5:74)比较不同事物,用不同线条或颜色表示,并附上图例说明。
4、常见统计图适用范围及其绘制要点1)条图:(1)适用范围:相互独立的资料,常用形式:单式和复式(2)绘制要点:A.用等宽的直条的长短反映各指标的数量大小。
B.纵轴的尺度必须从0开始。
C.各直条之间的间隙应相等,一般将比较的指标按大小顺序排列。
2)百分条图:(1)适用范围:构成比资料(2)绘制要点:A.将长条全长为100%,B.将各百分构成比在长条上分割若干段,C.各段按大小顺序排列。
3)圆图(1)适用范围:构成比资料(2)绘制要点:A.将圆面积为100%,B.将各百分构成比乘以3.6度,变为圆心角度数,C.在圆上绘出各扇型面积D.各扇型面积按大小顺序排列。
4)普通线图(1)适用范围:连续性资料(2)绘制要点:A.纵横轴均用算术尺度,B.纵横轴尺度比一般为5:7C.相邻两点用直线连接。
(3)意义:反映事物的变化趋势。
5)半对数线图(1)适用范围:连续性资料(2)绘制要点:A.横轴用算术尺度,纵轴用对数尺度,B.纵横轴尺度比一般为5:7C.相邻两点用直线连接。
(3)意义:反映事物的变化速度。
6)直方图(1)适用范围:计量的频数表资料(2)绘制要点:A.横轴表示被观察事物,纵轴表示频数或频率,B.用等宽的矩形面积表示各组段的频数或频率7)散点图:(1)适用范围:双变量资料(2)分析目的:用点的密度程度和趋势表示两变量间的相关关系(3)绘制要点(见第五章)第二章数值变量(计量)资料的统计分析第一节计量资料的统计描述一、计量资料的频数分布(一)频数表的编制1、求极差(全距)R=最大值-最小值=132.5-108.2=24.32、求组距(i)i=极差/组数=24.3/10=2.4≌23、分组段原则:第一组段包括最小值,最后组段包括最大值。
每一组段都有上限和下限上限:组段的终点(最大值)下限:组段的起点(最小值)4、列表划记(二)频数分布的特征1、集中趋势:数据向某一数值集中的倾向2、离散趋势:数据的数值大小不等的倾向(三)频数分布的类型1、对称分布: 集中位置在中间,左右两侧频数大体对称2、偏态分布:(1)正偏态:集中位置偏向数值小的一侧;(2)负偏态:集中位置偏向数值大的一侧(四)频数表的用途:1、揭示资料的分布特征和分布类型2、便于进一步计算指标和统计分析3、便于发现特大或特小的可疑值二、集中趋势的描述(一)常用平均数的种类:1、算术均数(简称均数)2、几何均数3、中位数(二)算术均数(均数)样本均数用X表示,总体均数用μ表示1、适用范围:对称分布,尤其是正态分布的资料2、计算方法:(1)直接法X=∑X / n(2)加权法适用于频数表资料X=∑fX / ∑f其中X=组中值=(上限+下限)/ 2f=频数(三)几何均数(简记为G)1、适用范围:(1)等比级数资料,如血清滴度资料(2)对数正态分布资料2、计算方法:(1)直接法G=log-1(∑logX/n)(2)加权法G=log-1(∑flogX/∑f)(四)中位数(简记M)1、中位数的定义:中位数: 将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。
在全部观察值中,大于和小于中位数的观察值的个数相等。
2、中位数的适用范围:(1)偏态分布资料(2)分布不明资料(3)分布末端无确定值资料(开口资料)理论上,中位数可用于任何分布的计量资料,但实际应用中常用于偏态分布,特别是开口资料。
在对称分布资料中,M=X3、计算方法:(1)直接法:适用于观察数少资料n为奇数时,M=X(n+1)/2n为偶数时,M=(Xn/2+X(n/2+1))/2(2)频数表法:适用于频数表资料步骤:①从小到大计算累计频数和累计频数;②确定中位数所在组段;③计算中位数MM=LM+iM/fM(n/2-∑fL)LM=M所在组段的下限iM=M所在组段的组距fM=M所在组段的频数∑fL=小于L各组段的累计频数M在8~组段L=8i=4fX=48∑fL=26n=108M=L+i/fX(n/2-∑fL)=10.33(五)小结:常用平均数的意义及其应用场合平均数意义应用场合─────────────────────────均数平均数量水平最适用于对称分布,特别是正态分布几何均数平均增(减)倍数等比资料或对数正态分布中位数位次居中的观察值(1)偏态分布,(2)分布不明,(3)分布末端无确定水平三离散趋势的描述甲组26, 28, 30, 32, 34. X甲=30乙组24, 27, 30, 33, 36. X乙=30丙组26, 29, 30, 31, 34. X丙=30(一)反映离散程度的常用指标:1、极差2、四分位数间距3、方差4、标准差5、变异系数(二)极差(全距)R1、计算公式:R=最大值-最小值2、意义:R愈大,离散度愈大,R愈小,离散度愈小。
3、优点:计算简单,意义明了4、缺点:(1)不能反映每一个观察值的变异;(2)样本例数越大,R可能越大;(3)R抽样误差大,不稳定。
(三)四分位数间距(简记Q)1.百分位数(记作PX)(1)定义:将一组观察值从小到大按顺序排列,一个百分位数将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。
P50分位数也就是中位数。
(2)计算步骤与公式①从小到大计算累计频数和累计频数;②确定百分位数所在组段;③计算百分位数PxPx=L+i/fx(n.x%-∑fL)L=Px所在组段的下限i=Px所在组段的组距fx=Px所在组段的频数∑fL=小于L各组段的累计频数如计算P25P25 在8~组段L25=8,i25=4 ,f25=48,∑fL=108,n=108P25=L25+i25/f25(n.25%-∑fL)=8.083计算P75P75 在12~组段L75=12,i25=25 ,f75=4,∑fL=74,n=108P75=L75+i75/f75(n.75%-∑fL)=13.1202. 四分位数间距(1)计算公式:P25: 下四分位数简记QLP75: 上四分位数简记QU四分位数间距Q=QU-QL=13.120-8.083=5.037(2)意义:中间一半观察值的极差,与R 意义相似。