第五章第2节医学统计学基本知识
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
·位置指标
·中位数是第50百分位数,用 表示
·常用于描述偏态分布资料在某百分位置上的水平及确定偏态分布资料医学参考值范围。
·四分位数间距:
√中位数:描述集中趋势
√四分位数间距:描述离散趋势
4)变异系数
·用CV表示:CV=S/ ×100%
(二)分类资料的统计描述
1.频数表
2.相对数(见流行病学,本章第一节)
Baidu Nhomakorabea·适用情况:
√当资料呈明显的偏态分布;
√资料一端或两端无确定数值(如大于或小于某数值);
√资料的分布情况不清楚。
√例如,某些传染病或食物中毒的潜伏期、人体的某些特殊测定指标(如发汞、尿铅等),集中趋势多用中位数来表示。
3)几何平均数
·是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)
三、统计表和统计图
(一)统计表
以表格的形式,表述被研究对象的特征、内部构成及研究项目分组之间的数量关系。
原则:统计表要重点突出,简单明了。
1.标题:描述表格内容,包括研究对象和统计分析指标;
2.标目:
·横标目:指研究对象(主语),一个横标目对应一横行的内容;
·纵标目:统计分析指标(谓语或宾语),一个纵标目对应一纵列的内容;
·G:表示几何均数
·适用条件
①等比资料
√抗体的平均滴度
√药物的平均效价
√人口几何增长资料
②对数正态分布资料(偏态分布资料经过对数转换后服从正态分布)
4.描述离散趋势的指标
1)方差和标准差
·描述对称分布离散趋势的重要指标
·值越大,离散程度越大,数据越分散,均数的代表性越差。
·σ :表示总体方差
·S :表示样本方差
·箱体: ~ ;
T型图标:最大值,最小值
5)直条图:适用于比较、分析独立的或离散变量的多个组或多个类别的统计指标(绝对数、相对数)。
6)百分条图和圆图:适用于描述分类变量的各类别所占的构成比。
四、统计推断
1.统计推断:用样本信息推断总体信息→统计学的核心内容
·总体参数估计
·假设检验→也称作显著性检验,是统计推断的核心
·一般用希腊字母表示,如总体均数μ、总体标注差σ、总体率π
2.统计量:指样本的统计指标
·一般用拉丁字母表示,如:样本均数 、样本标准差s。
3.参数估计:用样本统计量推论总体参数。
·参数估计
·参数检验(假设检验)
4.误差(error):测量值与真值之差。
包括:
1)系统误差——非随机误差
2)随机测量误差
数值变量资料的统计推断
·总体均数估计
·t检验
·方差分析
·数值变量的秩和检验(非参数检验)
分类变量资料的统计推断
·总体率的估计
·分类变量的z检验
·卡方检验
·秩和检验(非参数检验)
2.假设检验的基本原理
1)统计假设(简称假设):指推断的总体特征
·指用样本信息判断假设是否成立的统计方法
2)参数检验
·假定总体分布类型已知,对其参数进行假设检验
(一)数值变量资料的统计描述
1.频数表
·相同观察结果出现的次数称为频数。
·将所有观察结果的频数按一定的顺序排列在一起就是频数表。
·用统计表的形式将互不相容的各情形列出,就是频数表。
1)目的:
·简化数据
·考察观察结果的分布特征
组段
频数
频率
124~
1
0.0083
128~
2
0.0167
132~
10
0.0833
医学统计学基本知识
一、基本概念
(一)医学统计学定义和对象
1.医学统计学
·根据统计学的原理和方法,研究医学数据收集、表达和分析的一门应用各学科。
2.研究对象
·医学数据
(二)医学统计学定义和对象
1.统计设计:调查设计和实验设计
·保证设计描述和统计推断正确的基础
2.统计描述:均数、率
3.统计推断:对统计指标的差别和关联性进行分析和推断
3.描述集中趋势的指标
1)算数平均数(均数)
·适用条件:资料呈正态分布(或近似正态或对称分布)
·μ:表示总体均数
· :表示样本均数
2)中位数
·把一组观察值,按从小到大的顺序排列,位置居中的变量值(n奇数)或位置居中的两个变量值的均值(n偶数)。
·M:表示中位数
·中位数是位次平均指标,以中位数为界,将观察值分为左右两半。
2)基本结构:标题、标目、刻度、图例4部分组成。
·标题:一般放在图的下方,左侧加图号
·标目:分为横标目和纵标目,分别表示横轴和纵轴数字刻度的意义,纵横轴的比例5:7
(标注原点、尺度、单位等)
·图例:说明统计图中各种图形所代表的事物。放在右上角或下方中间。
2.常用统计图类型
1)直方图:适用于表示数值变量的频数分布
2)全距
·用R表示,又称作极差
·是一组资料的最大与最小值之差
·全距越大,说明资料的离散程度越大
·缺点:
√仅考虑两端数值之间的差异,未考虑其它其他数据的变异情况,不能全面反映一组资料的离散程度。
√易受个别特大值、特小值的影响,不稳定
3)百分位数(percentile, ):是把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。
3.线条:最简单的统计表为“三横线”,不允许有竖线和斜线;
4.数字:阿拉伯数字,同一指标的小数位数一致,位次对齐;
5.备注:在表的下方,补充说明表格的内容。
(2)统计图
是通过点的位置、线段的升降、直条的长短和面积的大小来表现事物的数量关系。
特点:
直观、形象、利于对比
1.制图的基本要求
1)根据资料的性质和分析目的,选择合适的图形。
·P值的范围在0和1之间
·P值越接近1,表明某事件发生的可能性越大
·P值越接近0,表明某事件发生的可能性越小
2)频率:指一次实验结果计算得到的样本率。是对样本而言。
3)小概率事件:P≤0.05或P≤0.01的随机事件
·表示某事件发生的可能性很小,进而统计学上认为其在一次抽样中是不可能发生的。
二、统计描述
根据研究者是否对研究对象施加干预分为:
1)调查设计
·了解客观实际情况的现场工作
2)实验设计
·实验研究
·动物实验
2.收集资料
1)统计资料的来源
·经常性资料
·一时性资料
2)统计资料的要求
·资料的完整、正确、及时
·样本量足够
·资料的代表性和可比性
3.整理资料
1)原始资料的检查与核对
·统计数据的常规检查
·数据的取值范围检错
3)抽样误差
·抽样误差:样本指标与总体指标只差,被称为随机抽样误差,简称抽样误差。
·抽样误差是客观存在,不可避免的,但有一定的规律性
√可通过统计方法估计
√可通过增大样本量使其减小
5.概率(probability)与频率(freguency)
1)概率:描述随机事件发生可能性大小的度量,常用P表示。是对总体而言。
1)有限总体:总体中的个体数科数(有限的)
2)无限总体:总体中的个体数不可数(无限)(或假设总体,或虚拟总体)
如:某地2007年45岁以上健康男性的血清总胆固醇含量,测定值的全部构成了一个总体。
如:研究糖尿病人的空腹血糖测定值,由于对时间和空间未加限制,全部糖尿病人的空腹血糖测定值则是一个无限总体。
·数据间的逻辑关系检错
2)数据的分组设计和归纳汇总
·按资料的性质分组:分类变量,如性别、疗效等
·按资料的数量特征分组:数值变量,如年龄等
4.分析资料
1)描述资料的数量特征和分布规律
·统计指标·统计图表
2)用样本信息推断总体特征
·参数估计·假设检验
(五)统计学中的几个基本概念
1.同质和变异(homogeneity and variation)
·二分类
·多分类
2)有序分类变量(等级资料):各类别间有程度上的差别,如:临床疗效可分为治愈、显效、好转、无效四级。
3.三类资料类型
1)计量资料(quantitative data)
2)计数资料(qualitative data)
3)等级资料(ranked data)
(四)统计工作的基本步骤
1.研究设计(统计工作最关键的一步)
·根据P值大小,做出拒绝或不拒绝 的统计推断。
·当P>a时,按a检验水准,不拒绝 ,差异无统计学意义,不能认为两总体均数不相等;
·若P≤a,按a检验水准,拒绝 ,接受 ,差异有统计学意义,两总体均数不相等。
4)假设检验的基本思想
·总体假设成立
·计算样本统计量
·判断抽到目前样本的可能性是否为小概率事件
2)选定检验方法,计算检验统计量
·根据统计推断的目的、研究设计类型、资料的分布、样本量大小、公式的适用条件计算相应的统计量。
·t值、P值、 值
3)确定概率(P值),作出统计推断
·用算得的统计量与相应的界值作比较确定P值
·P值:是指从 所规定的总体进行随机抽样,获得等于及大于(或等于及小于)现有杨版本统计量的概率。
136~
22
0.1834
140~
37
0.3083
144~
26
0.2167
148~
15
0.1250
152~
4
0.0333
156~
2
0.0167
160~164
1
0.0083
合计
120
1.0000
2.频数分布图
·以组段为横轴(底),以相应频数为纵轴(高)作系列密闭的矩形。又称直方图。
·用途:反映计量资料的分布特点(连续变量各种取值出现的机会)
·样本量大,所以差异有统计学意义
·但提高临床疗效的作用不明显,没有临床意义。
·社区194名老年人跌倒风险评分频数分布
2)折线图:适用于描述某统计量随另一连续性数值变量变化而变化的趋势,常用于描述统计量随时间变化而变化的趋势
·纵横轴的刻度可以不从0开始
·不应将折线绘制成光滑曲线
3)误差条图:适用于比较多组连续变量的均值和标准差(或可信区间)。
4)箱式图:适用于连续变量的偏态分布资料。
·若为小概率事件,则拒绝 ;否则,不拒绝 。
3.计量资料的检验方法
1)参数检验
·t检验:两个独立样本均数的比较
·P分析:多个独立样本均数的比较
·配对设计t检验:配对设计资料
·随机区组设计的方差分析:随机区组资料
2)非参数检验
·计量资料不符合参数检验条件
·秩和检验
4.案例
某新进口的抗高血压药(加高)组1000例与传统的复方降压片(价廉)组1000例的临床试验结果显示:新药组比传统药组的降压幅度提高了1mmHg,是否有实际意义?
:总体参数相同(μ= )
②备择假设,记作
差异不是由于抽样误差所致,总体参数不相同
:总体参数不同(μ≠ 或μ> 或μ< )
·检验水准(size of a test)亦称显著性水准(signnifcance level),用表示,通常取0.05,或0.01。
·检验水准的含义:指无效假设 实际上成立,但样本信息不支持 ,统计上拒绝无效假设 可能性大小的度量。事先确定的I类错误的概率。
(三)医学统计资料类型
变量(variable):观察对象的特征或指标称为变量。
1.数值变量(计量资料):变量值师定量的,表现为数值的大小,有度量衡单位,如:身高(cm)、体重(kg)
2.分类变量:变量值是定性的,表现为互不相容的类别或属性。
1)无序分类变量(计数资料):各类别间无程度上的差别,如:性别分男女两类。
从总体中随机抽取有代表性的一部分观察单位,其测量值(或观察值)的集合称为样本(sample)
·来自总体
·随机:机会均等≠随便
·有代表性
·样本含量是指样本中观察单位数,常用n表示
·抽样研究的目的:用样本信息推论总体特征
3.参数和统计量(parameter and statistic)
1.参数:指总体的统计指标
·如:t检验,z检验,方差分析
3)非参数假设检验
·不对总体分布类型进行假设
·若总体分布类型未知,或偏态分布资料
·假设检验不是对总体参数进行检验
·如:秩和检验
3.假设检验的基本步骤
1)建立检验假设,设定检验水准
·推断样本所代表的总体是否相同
①无效假设,或称为零假设,记作 。
假设差异是由于抽样误差所致,总体参数相同
1)同质:研究对象具有相同的背景、条件、属性称为同质。
2)变异:同一性质的事物,个体观察值(变量值)之间的差异,称为变异。
※同质是研究的前提
如同性别、同年龄、同地区、同体重儿童的肺活量有大有小,并不完全相同。
2.总体和样本(population and sample)
根据研究目的确定的、同质的全部研究对象称作总体。
·中位数是第50百分位数,用 表示
·常用于描述偏态分布资料在某百分位置上的水平及确定偏态分布资料医学参考值范围。
·四分位数间距:
√中位数:描述集中趋势
√四分位数间距:描述离散趋势
4)变异系数
·用CV表示:CV=S/ ×100%
(二)分类资料的统计描述
1.频数表
2.相对数(见流行病学,本章第一节)
Baidu Nhomakorabea·适用情况:
√当资料呈明显的偏态分布;
√资料一端或两端无确定数值(如大于或小于某数值);
√资料的分布情况不清楚。
√例如,某些传染病或食物中毒的潜伏期、人体的某些特殊测定指标(如发汞、尿铅等),集中趋势多用中位数来表示。
3)几何平均数
·是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)
三、统计表和统计图
(一)统计表
以表格的形式,表述被研究对象的特征、内部构成及研究项目分组之间的数量关系。
原则:统计表要重点突出,简单明了。
1.标题:描述表格内容,包括研究对象和统计分析指标;
2.标目:
·横标目:指研究对象(主语),一个横标目对应一横行的内容;
·纵标目:统计分析指标(谓语或宾语),一个纵标目对应一纵列的内容;
·G:表示几何均数
·适用条件
①等比资料
√抗体的平均滴度
√药物的平均效价
√人口几何增长资料
②对数正态分布资料(偏态分布资料经过对数转换后服从正态分布)
4.描述离散趋势的指标
1)方差和标准差
·描述对称分布离散趋势的重要指标
·值越大,离散程度越大,数据越分散,均数的代表性越差。
·σ :表示总体方差
·S :表示样本方差
·箱体: ~ ;
T型图标:最大值,最小值
5)直条图:适用于比较、分析独立的或离散变量的多个组或多个类别的统计指标(绝对数、相对数)。
6)百分条图和圆图:适用于描述分类变量的各类别所占的构成比。
四、统计推断
1.统计推断:用样本信息推断总体信息→统计学的核心内容
·总体参数估计
·假设检验→也称作显著性检验,是统计推断的核心
·一般用希腊字母表示,如总体均数μ、总体标注差σ、总体率π
2.统计量:指样本的统计指标
·一般用拉丁字母表示,如:样本均数 、样本标准差s。
3.参数估计:用样本统计量推论总体参数。
·参数估计
·参数检验(假设检验)
4.误差(error):测量值与真值之差。
包括:
1)系统误差——非随机误差
2)随机测量误差
数值变量资料的统计推断
·总体均数估计
·t检验
·方差分析
·数值变量的秩和检验(非参数检验)
分类变量资料的统计推断
·总体率的估计
·分类变量的z检验
·卡方检验
·秩和检验(非参数检验)
2.假设检验的基本原理
1)统计假设(简称假设):指推断的总体特征
·指用样本信息判断假设是否成立的统计方法
2)参数检验
·假定总体分布类型已知,对其参数进行假设检验
(一)数值变量资料的统计描述
1.频数表
·相同观察结果出现的次数称为频数。
·将所有观察结果的频数按一定的顺序排列在一起就是频数表。
·用统计表的形式将互不相容的各情形列出,就是频数表。
1)目的:
·简化数据
·考察观察结果的分布特征
组段
频数
频率
124~
1
0.0083
128~
2
0.0167
132~
10
0.0833
医学统计学基本知识
一、基本概念
(一)医学统计学定义和对象
1.医学统计学
·根据统计学的原理和方法,研究医学数据收集、表达和分析的一门应用各学科。
2.研究对象
·医学数据
(二)医学统计学定义和对象
1.统计设计:调查设计和实验设计
·保证设计描述和统计推断正确的基础
2.统计描述:均数、率
3.统计推断:对统计指标的差别和关联性进行分析和推断
3.描述集中趋势的指标
1)算数平均数(均数)
·适用条件:资料呈正态分布(或近似正态或对称分布)
·μ:表示总体均数
· :表示样本均数
2)中位数
·把一组观察值,按从小到大的顺序排列,位置居中的变量值(n奇数)或位置居中的两个变量值的均值(n偶数)。
·M:表示中位数
·中位数是位次平均指标,以中位数为界,将观察值分为左右两半。
2)基本结构:标题、标目、刻度、图例4部分组成。
·标题:一般放在图的下方,左侧加图号
·标目:分为横标目和纵标目,分别表示横轴和纵轴数字刻度的意义,纵横轴的比例5:7
(标注原点、尺度、单位等)
·图例:说明统计图中各种图形所代表的事物。放在右上角或下方中间。
2.常用统计图类型
1)直方图:适用于表示数值变量的频数分布
2)全距
·用R表示,又称作极差
·是一组资料的最大与最小值之差
·全距越大,说明资料的离散程度越大
·缺点:
√仅考虑两端数值之间的差异,未考虑其它其他数据的变异情况,不能全面反映一组资料的离散程度。
√易受个别特大值、特小值的影响,不稳定
3)百分位数(percentile, ):是把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。
3.线条:最简单的统计表为“三横线”,不允许有竖线和斜线;
4.数字:阿拉伯数字,同一指标的小数位数一致,位次对齐;
5.备注:在表的下方,补充说明表格的内容。
(2)统计图
是通过点的位置、线段的升降、直条的长短和面积的大小来表现事物的数量关系。
特点:
直观、形象、利于对比
1.制图的基本要求
1)根据资料的性质和分析目的,选择合适的图形。
·P值的范围在0和1之间
·P值越接近1,表明某事件发生的可能性越大
·P值越接近0,表明某事件发生的可能性越小
2)频率:指一次实验结果计算得到的样本率。是对样本而言。
3)小概率事件:P≤0.05或P≤0.01的随机事件
·表示某事件发生的可能性很小,进而统计学上认为其在一次抽样中是不可能发生的。
二、统计描述
根据研究者是否对研究对象施加干预分为:
1)调查设计
·了解客观实际情况的现场工作
2)实验设计
·实验研究
·动物实验
2.收集资料
1)统计资料的来源
·经常性资料
·一时性资料
2)统计资料的要求
·资料的完整、正确、及时
·样本量足够
·资料的代表性和可比性
3.整理资料
1)原始资料的检查与核对
·统计数据的常规检查
·数据的取值范围检错
3)抽样误差
·抽样误差:样本指标与总体指标只差,被称为随机抽样误差,简称抽样误差。
·抽样误差是客观存在,不可避免的,但有一定的规律性
√可通过统计方法估计
√可通过增大样本量使其减小
5.概率(probability)与频率(freguency)
1)概率:描述随机事件发生可能性大小的度量,常用P表示。是对总体而言。
1)有限总体:总体中的个体数科数(有限的)
2)无限总体:总体中的个体数不可数(无限)(或假设总体,或虚拟总体)
如:某地2007年45岁以上健康男性的血清总胆固醇含量,测定值的全部构成了一个总体。
如:研究糖尿病人的空腹血糖测定值,由于对时间和空间未加限制,全部糖尿病人的空腹血糖测定值则是一个无限总体。
·数据间的逻辑关系检错
2)数据的分组设计和归纳汇总
·按资料的性质分组:分类变量,如性别、疗效等
·按资料的数量特征分组:数值变量,如年龄等
4.分析资料
1)描述资料的数量特征和分布规律
·统计指标·统计图表
2)用样本信息推断总体特征
·参数估计·假设检验
(五)统计学中的几个基本概念
1.同质和变异(homogeneity and variation)
·二分类
·多分类
2)有序分类变量(等级资料):各类别间有程度上的差别,如:临床疗效可分为治愈、显效、好转、无效四级。
3.三类资料类型
1)计量资料(quantitative data)
2)计数资料(qualitative data)
3)等级资料(ranked data)
(四)统计工作的基本步骤
1.研究设计(统计工作最关键的一步)
·根据P值大小,做出拒绝或不拒绝 的统计推断。
·当P>a时,按a检验水准,不拒绝 ,差异无统计学意义,不能认为两总体均数不相等;
·若P≤a,按a检验水准,拒绝 ,接受 ,差异有统计学意义,两总体均数不相等。
4)假设检验的基本思想
·总体假设成立
·计算样本统计量
·判断抽到目前样本的可能性是否为小概率事件
2)选定检验方法,计算检验统计量
·根据统计推断的目的、研究设计类型、资料的分布、样本量大小、公式的适用条件计算相应的统计量。
·t值、P值、 值
3)确定概率(P值),作出统计推断
·用算得的统计量与相应的界值作比较确定P值
·P值:是指从 所规定的总体进行随机抽样,获得等于及大于(或等于及小于)现有杨版本统计量的概率。
136~
22
0.1834
140~
37
0.3083
144~
26
0.2167
148~
15
0.1250
152~
4
0.0333
156~
2
0.0167
160~164
1
0.0083
合计
120
1.0000
2.频数分布图
·以组段为横轴(底),以相应频数为纵轴(高)作系列密闭的矩形。又称直方图。
·用途:反映计量资料的分布特点(连续变量各种取值出现的机会)
·样本量大,所以差异有统计学意义
·但提高临床疗效的作用不明显,没有临床意义。
·社区194名老年人跌倒风险评分频数分布
2)折线图:适用于描述某统计量随另一连续性数值变量变化而变化的趋势,常用于描述统计量随时间变化而变化的趋势
·纵横轴的刻度可以不从0开始
·不应将折线绘制成光滑曲线
3)误差条图:适用于比较多组连续变量的均值和标准差(或可信区间)。
4)箱式图:适用于连续变量的偏态分布资料。
·若为小概率事件,则拒绝 ;否则,不拒绝 。
3.计量资料的检验方法
1)参数检验
·t检验:两个独立样本均数的比较
·P分析:多个独立样本均数的比较
·配对设计t检验:配对设计资料
·随机区组设计的方差分析:随机区组资料
2)非参数检验
·计量资料不符合参数检验条件
·秩和检验
4.案例
某新进口的抗高血压药(加高)组1000例与传统的复方降压片(价廉)组1000例的临床试验结果显示:新药组比传统药组的降压幅度提高了1mmHg,是否有实际意义?
:总体参数相同(μ= )
②备择假设,记作
差异不是由于抽样误差所致,总体参数不相同
:总体参数不同(μ≠ 或μ> 或μ< )
·检验水准(size of a test)亦称显著性水准(signnifcance level),用表示,通常取0.05,或0.01。
·检验水准的含义:指无效假设 实际上成立,但样本信息不支持 ,统计上拒绝无效假设 可能性大小的度量。事先确定的I类错误的概率。
(三)医学统计资料类型
变量(variable):观察对象的特征或指标称为变量。
1.数值变量(计量资料):变量值师定量的,表现为数值的大小,有度量衡单位,如:身高(cm)、体重(kg)
2.分类变量:变量值是定性的,表现为互不相容的类别或属性。
1)无序分类变量(计数资料):各类别间无程度上的差别,如:性别分男女两类。
从总体中随机抽取有代表性的一部分观察单位,其测量值(或观察值)的集合称为样本(sample)
·来自总体
·随机:机会均等≠随便
·有代表性
·样本含量是指样本中观察单位数,常用n表示
·抽样研究的目的:用样本信息推论总体特征
3.参数和统计量(parameter and statistic)
1.参数:指总体的统计指标
·如:t检验,z检验,方差分析
3)非参数假设检验
·不对总体分布类型进行假设
·若总体分布类型未知,或偏态分布资料
·假设检验不是对总体参数进行检验
·如:秩和检验
3.假设检验的基本步骤
1)建立检验假设,设定检验水准
·推断样本所代表的总体是否相同
①无效假设,或称为零假设,记作 。
假设差异是由于抽样误差所致,总体参数相同
1)同质:研究对象具有相同的背景、条件、属性称为同质。
2)变异:同一性质的事物,个体观察值(变量值)之间的差异,称为变异。
※同质是研究的前提
如同性别、同年龄、同地区、同体重儿童的肺活量有大有小,并不完全相同。
2.总体和样本(population and sample)
根据研究目的确定的、同质的全部研究对象称作总体。