卫生统计学整理笔记
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.样本量小(不是必须条件)
两独立样本资料的t检验的条件
两总体σ未知
两样本相互独立,来自正态分布总体的随机样本
样本量小(不是必须条件)
为什么要进行两两比较?
当方差分析拒绝H0时,表明多组均数之间不全相同。我们要面临着发现哪些组之间不相同,哪些组之间是相同的问题。
为什么不能直接进行t检验?
两两比较的方法
构成比
作用说明某一事物内部各组成部分占总的比重或分布。
计算
1.无单位
2.取值范围[0,1]
相对比,简称比,是两个有关指标A、B之比,说明A是B的若干倍或者百分之几。
1.A、B可以是绝对数、相对数、平均数
2.A、B性质可以相同、可以不相同
相对数应用注意事项:
1.计算相对数时分母一般不宜过小,如果太小用绝对数描述。
首先寻找统一分布作为标准组,然后计算各组在标准组下的率,此时的率是相对于标准组计算的,故称为标准化率或调整率。
可信区间的含义是:总体均数被包含在该区间内的可能性是1-α,没有被包含的可能性为α。
影响区间估计的因素
准确度:包含总体参数的概率大小
精密度:区间的宽度
影响区间的宽度的因素
置信概率
样本量
标准差
假设检验的概念
首先将我们要推断的总体参数或者总体分布(我们要研究的问题)描述成一对假设,然后利用样本的信息判断是否拒绝其中一个假设,接受另一个假设的过程。
样本空间:随机试验的所有可能的结果构成的集合被称为随机试验的样本空间,记为S。样本空间的元素,即随机试验的每个可能结果,被称为样本点。
事件:具有特定特征的随机试验的结果构成的集合。
随机事件:在随机试验中可能发生也可能不发生的事件,简称事件,用A、B、C等表示。
必然事件:在每次随机试验中都必然发生的事件。
二项分布的应用条件
互斥性
稳定性
独立性
泊松分布
定义:随机变量X的概率分布为
则称X服从参数为的泊松分布,记为X~P()。
作用:用于描述罕见事件,单位时间、空间等发生概率极低的事件,是二项分布的极端情况。
Poisson分布的图形特点(对称性)
当<20时,Poisson分布对称性差
当≥20时,Poisson分布对称性好,可以近似为正态分布。
意义:人为认为在一次随机试验中,小概率事件不会发生。
二项分布的图形特点(对称性)
当n固定时,越远离0.5,二项分布对称性越差;越靠近0.5,二项分布对称性越好;等于0.5,二项分布对称。
当越远离0.5时,n越小,二项分布对称性越差;n越大,二项分布对称性越好;n越大且n和n(1-)大于5,二项分布近似正态分布。
抽样调查数据:对总体中的样本进行了解,即通过观察性研究获得的数据。
特点:观察者对被观察事物或现象在不进行任何干预的情况下所作的观察。
实验数据:通过实验性研究所得到的数据。
特点:研究对象所处的状态是由研究者决定的。研究者决定研究对象状态的过程称为给予人为的干预措施。
随机抽样:总体中每个个体有相同的机会被选中作为样本参与调查。
相对数:选择一个数作为参照,计算比值。
率
构成比
比
率
作用:反映随机事件(现象)发生的频率或强度。
按照作用分为:
ቤተ መጻሕፍቲ ባይዱ频率型指标
强度型指标
频率型指标
作用
反映随机事件发生的频率,用于估计概率。
1.无单位
2.取值范围[0,1]
强度型指标
作用反映随机事件发生的强度,用于估计单位时间的概率。
1.有单位(人/人时)
2.取值范围[0,∞)
SNK法、Dunnett法、Bonferroni法
方差分析条件
1.样本是正态分布总体的随机样本
2.方差齐
3.观察值相互独立
卡方分布:n个相互独立的标准正态分布的平方和。
拟合优度检验
定义:利用样本频数分布,检验样本是否来自一个理论总体。
原理:判断样本观察频数(Observed frequency)与理论频数(Expected frequency )之差是否由抽样误差所引起
简单随机抽样、系统抽样、分层抽样、整群抽样
简单随机抽样:从总体中以相同机会抽取一定数量个体的一种抽样方式,没有应用复杂的抽样技术。
随机对照试验设计原则
对照
随机化
重复
均衡
随机试验的特点
可重复性:在相同的条件下,可以重复进行。
可观察性:每次试验的可能结果不止一个,并且试验前能明确试验的所有可能结果。
不确定性:进行每次试验之前,不能确定哪一个结果会发生。
中位数条件:
所有分布、尤其偏态分布:
1.变量值中出现个别特小或特大的数值
2.资料的分布呈明显偏态
3.含有不确定数值
4.资料的分布不清
极差应用条件:所有分布、尤其偏态分布
不足:
不能全面的反映所有值的偏离程度
不稳定、小样本小于大样本、样本小于总体
四分位数间距应用条件
所有分布、尤其偏态分布:
1.变量值中出现个别特小或特大的数值
2.样本是正态分布总体的随机样本
3.样本量小(不是必须条件)
单样本Z检验的条件
1.总体σ已知或σ未知但样本量大
2.样本是正态分布总体的随机样本
配对设计:将两个受试对象按配对条件(相同属性)配成配对子,每对配对子中的个体接受不同的处理。
同体配对
异体配对
配对设计t检验的条件
1.差值总体σ未知
2.差值样本是正态分布总体的随机样本
线性相关分析要求资料服从二元正态分布。
出现异常值时慎用线性相关分析。
分层资料盲目合并,易出现假象。
某一变量值人为选定时,不要进行线性相关分析。
相关不代表有因果关系。
样本需要进行假设检验。
线性回归条件
线性
独立
正态分布
等方差
线性回归注意事项
注意回归系数的解释
不宜进行外推预测
回归方程不可逆转使用
绝对数:调查或实验研究中清点定性资料得到的实际数据被称为绝对数。
2.资料的分布呈明显偏态
3.含有不确定数值
4.资料的分布不清
方差应用条件:
对称分布,尤其正态分布
变异系数应用
1.量纲不一致
2.均数相差较大
散点图作用
观察两组数据的总体趋势和明显偏离趋势的观察点
判断两组数据的关联形式、方向和密切程度
相关分类
线性相关
秩相关
分类变量相关
线性相关意义
r>0表示正相关,r=1表示完全正相关;r<0表示负相关,r=-1表示完全负相关。
谨慎追求统计学意义,结论不能绝对化,因为每次推断都面临I类错误和II类错误中的一个。
t分布特征
单峰、高峰位于中央、0处最高、两边对称下降
t分布曲线下面积规律
有一个参数ν;ν减小,曲线峰下降,尾部上升;ν增加,曲线峰上升,尾部下降
ν增加,t分布逼近z分布
ν趋向无穷大时,t变成z分布
单样本t检验的条件
1.总体σ未知
偏态分布,无法转换成正态分布。
等级资料。
含有不能或没有精确测量的数据,如大于或小于。
分布不易确定或未知。
秩和检验:是一类重要的非参数检验,基于秩转换,对原始数据从小到大编秩次。
线性相关系数:定量反映两变量线性相关的密切程度和方向的指标,又称Pearson相关系数。
线性相关分析注意事项
线性相关分析,先画散点图,再计算线性相关系数。
如何绘制频数表?
求组距
确定各组段的两个端点
归组计数
频数分布表与分布图作用
1.揭示变量分布形态
2.揭示变量分布趋势
3.便于发现特大的或特小的极端值
4.便于进一步计算统计指标和分析
5.作为一种数据陈述的形式
算数应用条件:
对称分布,尤其正态分布
几何应用条件:
1.对数对称分布、等比资料
2.变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。
不可能事件:在任何一次随机试验中都不可能发生的事件。
古典概型
样本空间只包含有限个元素。
每个基本事件发生的可能性相同,称为“等可能的”。
几何概型
样本空间包含的元素数是无限的。
每个基本事件发生的可能性相同,称为“等可能的”
概率:反映随机事件发生可能性大小的数值度量。
小概率事件:发生概率P≤0.05或P≤0.01的随机事件
|r|→0表示相关性越弱,|r|→1表示相关性越强。
r=0表示没有线性相关,不代表没有相关。
如何判断线性相关
画散点图
计算线性相关系数
假设检验
如何进行秩相关
编秩次
计算秩相关系数
假设检验
回归分析:利用样本信息,找到变量间数量依存关系。
线性回归分析:利用样本信息,找到变量间线性数量依存关系。
决定系数:反映回归贡献的相对程度,即Y的变异被X解释的比例。
如何进行分类变量的相关分析
交叉表的制作,计算各种概率
计算列联系数
假设检验
相关分析的条件
线性相关系数:二元正态分布的定量变量
秩相关系数:非二元正态分布的定量变量、有序分类变量
列联系数:无序分类变量
轶闻数据:由坊间流传或各种媒体报道的一些个案数据,由于其特殊性往往给公众留下突出和深刻的印象。
特点:缺乏代表性,常诱导人们进行简单的推论,得到一些具有倾向性的结论。
可得数据:为了某些特定目的已收集或积累的数据。如:各类监测数据、统计年鉴等。
特点:可免费或以低廉价格获取,但通常难以完全满足某些特定的研究目的。
观察性研究:研究者观察并测量研究对象的一个或多个变量,但不施加任何干预措施。
实验性研究:研究者对研究对象施加处理因素即干预措施,并测量一个或多个变量。
实验性研究的因果关联推断更具说服力。
曲线下面积为1
样本均数的抽样误差
由抽样引起的样本均数与总体均数之间,以及样本均数与样本均数之间的差异。
直接原因:抽样
根本原因:个体变异
标准误 :样本均数的标准差
参数估计:用样本的统计量估计总体参数称为参数估计。
分类
点估计:是直接用样本统计量作为总体参数的估计值。
区间估计:是按事先给定的包含总体参数的概率(1-α)估计一个范围。其中1-α称为可信度或置信度,区间称为1-α的可信区间或置信区间。
假设检验的思想
反证法
小概率事件
应用假设检验注意事项
统计推断并非对所有数据有效,要有严密的设计,设计与分析是一个整体。
选择假设检验方法时,要符合相应条件。
权衡I类错误和II类错误,选择合适的检验水准。
正确选择单双侧检验。
正确理解P值得意义,区分统计学意义和专业意义,有统计学意义不意味着有专业意义。P值很小反映如果拒绝H0犯一类错误的概率很小,不代表差异很大。不要忽略无统计学意义的结果,有专业意义不意味着有统计学意义。
2.不能混淆概念,尤其不能以构成比代替率。
3.正确计算合计率(平均率)。
4.在比较相对数时应注意可比性。
5.比较多组样本率(或构成比)时,需假设检验。
为什么要标准化?
当比较多组间率的大小时,各组之间某一因素的构成比不一致(不具有可比性),并且该因素与率有关,此时不能比较合计率,需要进行标准化。
标准化思想
R×C列联表资料卡方检验注意事项
理论频数不能太小(T < 1或1≤T < 5的格子数超过20%):如果出现,可采用如下方法:
1.增加样本量
2.合并相应的列或者行
3.删除相应的列或者行
4.用Fisher确切概率法
参数检验:对总体参数进行的假设检验,对总体分布要求严格。
非参数检验:对总体分布进行的假设检验,对总体分布不作严格要求,不依赖于总体分布类型。
正态分布
定义:若随机变量X的密度函数为
则称X服从参数为μ,σ的正态分布,记为
正态分布曲线
正态分布的概率密度函数决定的一条,高峰位于中央、均数处最高、两边对称下降、永远不与横轴相交的光滑钟形曲线。
特征
单峰、钟形,均数处最高,两边对称下降,不与横轴相交。
曲线在x=u±σ处为拐点。
μ为位置参数(决定对称轴位置)、σ为尺度参数(决定曲线分散性)。当固定μ时,σ越大,曲线的峰越低,落在μ附近的概率越小,取值就越分散,σ是反映X的取值分散性的一个指标。
两独立样本资料的t检验的条件
两总体σ未知
两样本相互独立,来自正态分布总体的随机样本
样本量小(不是必须条件)
为什么要进行两两比较?
当方差分析拒绝H0时,表明多组均数之间不全相同。我们要面临着发现哪些组之间不相同,哪些组之间是相同的问题。
为什么不能直接进行t检验?
两两比较的方法
构成比
作用说明某一事物内部各组成部分占总的比重或分布。
计算
1.无单位
2.取值范围[0,1]
相对比,简称比,是两个有关指标A、B之比,说明A是B的若干倍或者百分之几。
1.A、B可以是绝对数、相对数、平均数
2.A、B性质可以相同、可以不相同
相对数应用注意事项:
1.计算相对数时分母一般不宜过小,如果太小用绝对数描述。
首先寻找统一分布作为标准组,然后计算各组在标准组下的率,此时的率是相对于标准组计算的,故称为标准化率或调整率。
可信区间的含义是:总体均数被包含在该区间内的可能性是1-α,没有被包含的可能性为α。
影响区间估计的因素
准确度:包含总体参数的概率大小
精密度:区间的宽度
影响区间的宽度的因素
置信概率
样本量
标准差
假设检验的概念
首先将我们要推断的总体参数或者总体分布(我们要研究的问题)描述成一对假设,然后利用样本的信息判断是否拒绝其中一个假设,接受另一个假设的过程。
样本空间:随机试验的所有可能的结果构成的集合被称为随机试验的样本空间,记为S。样本空间的元素,即随机试验的每个可能结果,被称为样本点。
事件:具有特定特征的随机试验的结果构成的集合。
随机事件:在随机试验中可能发生也可能不发生的事件,简称事件,用A、B、C等表示。
必然事件:在每次随机试验中都必然发生的事件。
二项分布的应用条件
互斥性
稳定性
独立性
泊松分布
定义:随机变量X的概率分布为
则称X服从参数为的泊松分布,记为X~P()。
作用:用于描述罕见事件,单位时间、空间等发生概率极低的事件,是二项分布的极端情况。
Poisson分布的图形特点(对称性)
当<20时,Poisson分布对称性差
当≥20时,Poisson分布对称性好,可以近似为正态分布。
意义:人为认为在一次随机试验中,小概率事件不会发生。
二项分布的图形特点(对称性)
当n固定时,越远离0.5,二项分布对称性越差;越靠近0.5,二项分布对称性越好;等于0.5,二项分布对称。
当越远离0.5时,n越小,二项分布对称性越差;n越大,二项分布对称性越好;n越大且n和n(1-)大于5,二项分布近似正态分布。
抽样调查数据:对总体中的样本进行了解,即通过观察性研究获得的数据。
特点:观察者对被观察事物或现象在不进行任何干预的情况下所作的观察。
实验数据:通过实验性研究所得到的数据。
特点:研究对象所处的状态是由研究者决定的。研究者决定研究对象状态的过程称为给予人为的干预措施。
随机抽样:总体中每个个体有相同的机会被选中作为样本参与调查。
相对数:选择一个数作为参照,计算比值。
率
构成比
比
率
作用:反映随机事件(现象)发生的频率或强度。
按照作用分为:
ቤተ መጻሕፍቲ ባይዱ频率型指标
强度型指标
频率型指标
作用
反映随机事件发生的频率,用于估计概率。
1.无单位
2.取值范围[0,1]
强度型指标
作用反映随机事件发生的强度,用于估计单位时间的概率。
1.有单位(人/人时)
2.取值范围[0,∞)
SNK法、Dunnett法、Bonferroni法
方差分析条件
1.样本是正态分布总体的随机样本
2.方差齐
3.观察值相互独立
卡方分布:n个相互独立的标准正态分布的平方和。
拟合优度检验
定义:利用样本频数分布,检验样本是否来自一个理论总体。
原理:判断样本观察频数(Observed frequency)与理论频数(Expected frequency )之差是否由抽样误差所引起
简单随机抽样、系统抽样、分层抽样、整群抽样
简单随机抽样:从总体中以相同机会抽取一定数量个体的一种抽样方式,没有应用复杂的抽样技术。
随机对照试验设计原则
对照
随机化
重复
均衡
随机试验的特点
可重复性:在相同的条件下,可以重复进行。
可观察性:每次试验的可能结果不止一个,并且试验前能明确试验的所有可能结果。
不确定性:进行每次试验之前,不能确定哪一个结果会发生。
中位数条件:
所有分布、尤其偏态分布:
1.变量值中出现个别特小或特大的数值
2.资料的分布呈明显偏态
3.含有不确定数值
4.资料的分布不清
极差应用条件:所有分布、尤其偏态分布
不足:
不能全面的反映所有值的偏离程度
不稳定、小样本小于大样本、样本小于总体
四分位数间距应用条件
所有分布、尤其偏态分布:
1.变量值中出现个别特小或特大的数值
2.样本是正态分布总体的随机样本
3.样本量小(不是必须条件)
单样本Z检验的条件
1.总体σ已知或σ未知但样本量大
2.样本是正态分布总体的随机样本
配对设计:将两个受试对象按配对条件(相同属性)配成配对子,每对配对子中的个体接受不同的处理。
同体配对
异体配对
配对设计t检验的条件
1.差值总体σ未知
2.差值样本是正态分布总体的随机样本
线性相关分析要求资料服从二元正态分布。
出现异常值时慎用线性相关分析。
分层资料盲目合并,易出现假象。
某一变量值人为选定时,不要进行线性相关分析。
相关不代表有因果关系。
样本需要进行假设检验。
线性回归条件
线性
独立
正态分布
等方差
线性回归注意事项
注意回归系数的解释
不宜进行外推预测
回归方程不可逆转使用
绝对数:调查或实验研究中清点定性资料得到的实际数据被称为绝对数。
2.资料的分布呈明显偏态
3.含有不确定数值
4.资料的分布不清
方差应用条件:
对称分布,尤其正态分布
变异系数应用
1.量纲不一致
2.均数相差较大
散点图作用
观察两组数据的总体趋势和明显偏离趋势的观察点
判断两组数据的关联形式、方向和密切程度
相关分类
线性相关
秩相关
分类变量相关
线性相关意义
r>0表示正相关,r=1表示完全正相关;r<0表示负相关,r=-1表示完全负相关。
谨慎追求统计学意义,结论不能绝对化,因为每次推断都面临I类错误和II类错误中的一个。
t分布特征
单峰、高峰位于中央、0处最高、两边对称下降
t分布曲线下面积规律
有一个参数ν;ν减小,曲线峰下降,尾部上升;ν增加,曲线峰上升,尾部下降
ν增加,t分布逼近z分布
ν趋向无穷大时,t变成z分布
单样本t检验的条件
1.总体σ未知
偏态分布,无法转换成正态分布。
等级资料。
含有不能或没有精确测量的数据,如大于或小于。
分布不易确定或未知。
秩和检验:是一类重要的非参数检验,基于秩转换,对原始数据从小到大编秩次。
线性相关系数:定量反映两变量线性相关的密切程度和方向的指标,又称Pearson相关系数。
线性相关分析注意事项
线性相关分析,先画散点图,再计算线性相关系数。
如何绘制频数表?
求组距
确定各组段的两个端点
归组计数
频数分布表与分布图作用
1.揭示变量分布形态
2.揭示变量分布趋势
3.便于发现特大的或特小的极端值
4.便于进一步计算统计指标和分析
5.作为一种数据陈述的形式
算数应用条件:
对称分布,尤其正态分布
几何应用条件:
1.对数对称分布、等比资料
2.变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。
不可能事件:在任何一次随机试验中都不可能发生的事件。
古典概型
样本空间只包含有限个元素。
每个基本事件发生的可能性相同,称为“等可能的”。
几何概型
样本空间包含的元素数是无限的。
每个基本事件发生的可能性相同,称为“等可能的”
概率:反映随机事件发生可能性大小的数值度量。
小概率事件:发生概率P≤0.05或P≤0.01的随机事件
|r|→0表示相关性越弱,|r|→1表示相关性越强。
r=0表示没有线性相关,不代表没有相关。
如何判断线性相关
画散点图
计算线性相关系数
假设检验
如何进行秩相关
编秩次
计算秩相关系数
假设检验
回归分析:利用样本信息,找到变量间数量依存关系。
线性回归分析:利用样本信息,找到变量间线性数量依存关系。
决定系数:反映回归贡献的相对程度,即Y的变异被X解释的比例。
如何进行分类变量的相关分析
交叉表的制作,计算各种概率
计算列联系数
假设检验
相关分析的条件
线性相关系数:二元正态分布的定量变量
秩相关系数:非二元正态分布的定量变量、有序分类变量
列联系数:无序分类变量
轶闻数据:由坊间流传或各种媒体报道的一些个案数据,由于其特殊性往往给公众留下突出和深刻的印象。
特点:缺乏代表性,常诱导人们进行简单的推论,得到一些具有倾向性的结论。
可得数据:为了某些特定目的已收集或积累的数据。如:各类监测数据、统计年鉴等。
特点:可免费或以低廉价格获取,但通常难以完全满足某些特定的研究目的。
观察性研究:研究者观察并测量研究对象的一个或多个变量,但不施加任何干预措施。
实验性研究:研究者对研究对象施加处理因素即干预措施,并测量一个或多个变量。
实验性研究的因果关联推断更具说服力。
曲线下面积为1
样本均数的抽样误差
由抽样引起的样本均数与总体均数之间,以及样本均数与样本均数之间的差异。
直接原因:抽样
根本原因:个体变异
标准误 :样本均数的标准差
参数估计:用样本的统计量估计总体参数称为参数估计。
分类
点估计:是直接用样本统计量作为总体参数的估计值。
区间估计:是按事先给定的包含总体参数的概率(1-α)估计一个范围。其中1-α称为可信度或置信度,区间称为1-α的可信区间或置信区间。
假设检验的思想
反证法
小概率事件
应用假设检验注意事项
统计推断并非对所有数据有效,要有严密的设计,设计与分析是一个整体。
选择假设检验方法时,要符合相应条件。
权衡I类错误和II类错误,选择合适的检验水准。
正确选择单双侧检验。
正确理解P值得意义,区分统计学意义和专业意义,有统计学意义不意味着有专业意义。P值很小反映如果拒绝H0犯一类错误的概率很小,不代表差异很大。不要忽略无统计学意义的结果,有专业意义不意味着有统计学意义。
2.不能混淆概念,尤其不能以构成比代替率。
3.正确计算合计率(平均率)。
4.在比较相对数时应注意可比性。
5.比较多组样本率(或构成比)时,需假设检验。
为什么要标准化?
当比较多组间率的大小时,各组之间某一因素的构成比不一致(不具有可比性),并且该因素与率有关,此时不能比较合计率,需要进行标准化。
标准化思想
R×C列联表资料卡方检验注意事项
理论频数不能太小(T < 1或1≤T < 5的格子数超过20%):如果出现,可采用如下方法:
1.增加样本量
2.合并相应的列或者行
3.删除相应的列或者行
4.用Fisher确切概率法
参数检验:对总体参数进行的假设检验,对总体分布要求严格。
非参数检验:对总体分布进行的假设检验,对总体分布不作严格要求,不依赖于总体分布类型。
正态分布
定义:若随机变量X的密度函数为
则称X服从参数为μ,σ的正态分布,记为
正态分布曲线
正态分布的概率密度函数决定的一条,高峰位于中央、均数处最高、两边对称下降、永远不与横轴相交的光滑钟形曲线。
特征
单峰、钟形,均数处最高,两边对称下降,不与横轴相交。
曲线在x=u±σ处为拐点。
μ为位置参数(决定对称轴位置)、σ为尺度参数(决定曲线分散性)。当固定μ时,σ越大,曲线的峰越低,落在μ附近的概率越小,取值就越分散,σ是反映X的取值分散性的一个指标。