计量资料的统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
负偏态分布时:均数<中位数<众数
在计算和应用平均数指标时的注意事项
1.同质事物或现象才能求平均数 2.要根据数据分布类型正确选用平均数 3.要与下一节的离散趋势分析相结合,以弥补反 映不出差异和易受极端值影响的缺陷。
变异指标
Variation Number
变异指标(variation number)又称离散 指标( Dispersion number),用以描述一组 计量资料各观察值之间参差不齐的程度。
为半定量资料。
资料的转化
根据分析的需要,变量可以转化,但只能由高 级向低级转化。连续型→有序→分类→二值
血红蛋白(g/dl) 等级 计数 <6 重度贫血 异常 6~ 中度贫血 异常 9~ 轻度贫血 异常 12~16 血红蛋白正常 正常 >16 血红蛋白增高 异常 但必须明确,凡能计量的,应尽可能采用计量资 料;因为计量资料可以得到较多的信息。
常用 x s 的形式表达资料。
方差与标准差的应用
方差是样本观察值的离均差平方的平均值, 它全面地反映了数据的变异大小;方差越 大,观察值与均数间的差异就越大,数据 的变异程度就越大,反之亦然; 标准差的量纲与原始数据一致,适用于对 称分布的资料;标准差保持了方差的优点, 其单位与观察值单位一致。
18.9
血清胆固醇变异系数: CV2
1.036 100 % 21.40% 4.84
显然,体脂变异大于血清胆固醇变异。
变异系数的特点
变异系数主要用于量纲不同的指标间,或均数相差较 大的指标间的变异程度的比较;
极差、四分位数间距与标准差有单位; 变异系数为标准差与均数的比值,无单位;
1.定义:将观察单位按某种属性的不同程度而顺序
分组,所得各组的观察单位数称为等级资料,通常有两个 以上等级。这类资料具有计数资料的特点,但所分各组之
间又有等级顺序,如由轻到重、由小到大排列。
2.特点:等级是有序分组。同计数资料的区别是:属 性的分组有程度或等级的差别,各组按一定顺序排列;与
计量资料的区别是:每个观察单位未确切定量,所以又称
常用医学统计方法
Medical Statistics
教 学 内 容
9.7 3学时
9.7 2学时 9.9 3学时 9.9 2学时
计量资料的统计分析(理论课)
计量资料的软件实现(操作演示)
计数资料的统计分析(理论课) 计数资料的软件实现(操作演示)
计量资料的统计描述
Descriptive Statistics
平均数与变异指标的使用范围
•
均数与标准差:
适用是均匀分布的小样本数据或近似正态分布数据,对样本含 量没有要求。
•
中位数与四分位数间距:
适用于大样本偏态分布资料。
•
众数与极差:
适用于描述未知分布的小样本数据。
•
几何均数:
描述近似对数正态分布数据的平均水平或平均发展速度
•
变异系数:
比较不同资料或同类资料均数相差悬殊时变异程度的比较。
应对数的反对数。
几何均数就是变量对数值的算术均数的反对数。
实例
5人的血清滴度为:1:2 , 1:4, 1:8 , 1:16 ,
1:32,求平均滴度。
log 2 log 4 log8 log16 log32 G log 8 5
1
同一资料,几何均数<均数
几何均数的应用与特点
AVERAGE、MEAN GEOMEAN MEDIAN MODE
算术均数
几何均数
中位数
众数
HARMEAN调和均数 STDEV VAR
公式为:
x( n 1 ) / 2 Md xn / 2 x1 n / 2 2
n为奇数 n为偶数
中位数的计算
实例 12个数据如下:
顺序号 (1) (11) 数据值 15.0 (2) (3) (4) (5) (6) (7) (8) (9) (10) (12) 7.4 15.6 8.6 8.6 10.8 11.6 11.6 11.6 12.1 12.3 14.3
变异指标越大,观察值之间差异愈大,说 明平均数的代表性就越差;反之亦然。
三组同性别、同年龄儿童体重
甲组 乙组 丙组
丙组 3 乙组 2 甲组 1
26 24 26
28 27 29
30 30 30
32 33 31
ቤተ መጻሕፍቲ ባይዱ
34 36 24
0 20 24 28 32 36 40
极差(Range)
意义:是一批数据中最大值与最小值之差,反映
实例: 某市10名7岁男童体重(kg)分别为:
17.3,18.0,19.4,20.6,21.2,21.8,
22.5,23.2,24.0,25.5,求其平均体重。
17.3 18.0 ... 25.5 x 21.35kg 10
均数的应用与特点
适用条件:算术均数适合于对称分布的资料, 如分布均匀的小样本数据或近似正态分布的大 样本数据; 特点:算术均数容易受极端值的影响.
四分位数间距(Quartile range)
意义:包括了全部变量值中居于中间水平
的一半数据的分布范围。
符号及计算:
Q =P25 –P75
Q
四分位数间距(Quartile range)
缺点:比较稳定,但不能反映其余数据的变异情 况,没有充分利用每个变量值的信息。 适用条件:四分位数间距用来描述大样本偏态资 料的变异情况。通常与中位数结合使用。
适用条件: 众数主要应用在对小样本的探索性数据进
行分析。 特点:它不受变量数列极端数值的影响,但众值的计 算只有在总体单位数足够多,而且又具有明显的集中趋 势时,才有意义。
中位数(median)
将一组变量值按大小顺序排列,位次居中的
变量值即为中位数。中位数将变量值一分为二,
一半比它小,一半比它大。符号为M、Md。计算
28 27 29
30 30 30
32 33 31
34 36 34
3.16228 4.74342 2.91548
0 20 24 28 32 36 40
方差与标准差的应用
方差或标准差属同类变异指标,它们多用 来描述均匀分布或近似正态分布的资料,大、
小样本均可,其中以标准差的应用最广,通常
与均数结合使用。比如在许多医学研究报告中
方差(Variance)
意义:样本观察值的离均差平方和(sum of square,SS)的均值。表示一组数据的平均离散情况。 符号及计算:方差分为样本方差和总体方差。样本 方差符号为
s
2
,相应的总体方差符号为 2 。
2 2 2 ( x x ) x ( x ) / n 2 2 s s n 1 n 1
变异系数( coefficient of variation ,CV)
符号及计算: 适用条件:
s CV 100% x
均数 170 cm 标准差 6 cm 变异系数 3.5%
变异系数可用于不同类型资料间变异程度的比较,
青年男子 身高
体重
60 kg
7 kg
11.7%
变异系数也可用于均数相差悬殊时同单位资料间变异 程度的比较,如不同年龄段同性别儿童的体重变异大
中位数的应用与特点
适用条件:适合各种类型的资料。尤其适合于
①大样本偏态分布的资料; ②资料有不确定数值;
③资料分布不明等。
特点:由于中位数总处在居中的位置上,将频数等
分为二,它不受特大或特小值的影响,仅仅利用了中
间的1~2个数据。
均数、中位数、众数三者关系
正态分布时: 均数=中位数=众数
正偏态分布时:均数>中位数>众数
计数资料(或无序分类变量)
1. 定义:将观察单位按某种属性或类别分组计
数,得到各组观察单位数称为计数资料。 2. 特点:计数排列是无序分组,同组各观察单 位之间没有量的差别,但各组间有质的不同,不同 质的观察单位不能归入一组。 变量值是定性的,表现为互不相容的属性或类别 二项分类和多项分类
等级资料(或有序等级变量)
适用条件:几何均数常用以描述观察值为等比
级数资料(呈倍数关系的等比资料)或对数正态分
布资料的集中趋势。
◆ 呈等比级数的资料,如血清滴度、抗体效价等;
特点:同一资料,几何均数<均数
众数(mode)
众数是指在一群观察值中,出现频率最高(即次
数最多)的数据,在频数表上表现为频数最多组的组 中值,数理上指曲线上的最高点。用符号Mo表示。
统计资料的分类
1、计量资料(或定量变量)
2、计数资料(或无序分类变量) 3、等级资料(或有序等级变量)
计量资料(或定量变量)
1.定义:测定每个观察单位的某项指标量的大小, 所得的资料称为计量资料。其变量值是定量的,表 现为数值大小,一般带有度量衡或其它单位。 2. 特点:每个观察单位的观察值之间有量的区别。
计数 计量
计数 等级
等级 计数
计量
计量
实例(二)
城市脑力劳动者调查资料部分指标摘录
体重指数 身高 班制 劳动强度 紧张程度 心率 嗜肥肉史 (1 ) (2 ) (3 ) (4 ) (5 ) (6 ) (7 ) 12.24 1.62 1 1 3 70 1 16.47 15.19 15.59 12.60 ┆ 1.63 1.64 1.63 1.64 ┆ 3 1 1 3 ┆ 1 2 1 1 ┆ 3 2 3 3 ┆ 72 72 84 68 ┆ 0 0 1 1 ┆ 收缩压 (8 ) 146 110 100 114 116 ┆ 舒张压 中风家族史 (9 ) (1 0 ) 90 有 70 70 70 68 ┆ 无 无 无 无 ┆
实例(一)
胆管癌患者部分指标
编号 性别 年龄(岁) 部位 分化程度 分期 肝转移 (1) ( 2 ) ( 3 ) (4) ( 5 ) (6) ( 7 ) 1 2 3 4 5 „ 男 女 女 女 男 „ 61 58 63 71 59 „ 上 中 上 下 上 „ 低分化 高分化 高分化 中分化 高分化 „ Ⅰ Ⅱ Ⅳ Ⅱ Ⅲ „ 阳性 阴性 阴性 阳性 阴性 „ P C N A 指数 (8 ) 52 89 93 78 85 „ 生存时间 ( 月 ) (9 ) 14 20 19 5 35 „
中位置的特征值,用以说明同类现象或事物数量的 中等水平(集中趋势)。
常用的有算术均数、中位数、众数、几何均数等
算术均数(arithmetic mean),简称均 数( mean )
符号为
x(相应的总体均数记为μ )。
算术均数的计算
x1 x2 x3 xn x x n n
几何均数(geometric mean)
符号为G。
几何均数的计算
几何均数的定义公式为: n 个变量值 x 的连乘
积的n次方根。
G n x1 x2 xn
当 n>3 时,上式计算不便,而常采用以
下计算公式:
log x G log n
1
式中 logx 表示对观察值 x 求对数, log-1 为相
标准差(standard deviation)
意义:标准差即为方差的平方根。其单位与原变 量X 的单位相同。
符号及计算:样本标准差符号为s ,相应的总体标
准差符号为σ
s
x x
2
2
n
n 1
三组同性别、同年龄儿童体重
甲组 乙组 丙组
26 24 26
丙组 3 乙组 2 甲组 1
了数据散布范围。
符号及计算:
R xmax xmin
极差(Range)
优点:简便。
缺点:①不能反映在该范围以内的其它数据的离散度;
②各样本含量大小悬殊时,不宜比较其极差;
③极差的抽样误差较大,样本的例数越多,极
差越大,不够稳定 。 适用条件:极差仅适用于对未知分布的小样本资料作 粗略的分析。样本量增大,极差会增大。通常与众数 结合使用。
计量
计量 计数 等级
等级
计量
计数
计量
计量
计数
注:体重指数=体重/身高3 (Kg/m3); 嗜肥肉史 劳动强度 轻1,中等2,重3 紧张程度 不紧张1,一般2,紧张3 班制 日班制1,两班制2,三班制3
有1,无0
平均数指标
Average Number
平均数指标
平均数(average) 是描述一群同质变量值集
小比较等。
实例 :某部队干部体检得到体脂的均数和标准差分别
为18.9%和5.8%,血清胆固醇的均数与标准差分别为 4.84mmol/L 和 1.03mmol/L,试比较两者的变异情况。 由于体脂和血清胆固醇是两个不同的观察指标, 不能直接比较其标准差大小,而应比较变异系数。 对本例: 5.8 CV 100 % 30.69% 体脂变异系数: 1
在计算和应用平均数指标时的注意事项
1.同质事物或现象才能求平均数 2.要根据数据分布类型正确选用平均数 3.要与下一节的离散趋势分析相结合,以弥补反 映不出差异和易受极端值影响的缺陷。
变异指标
Variation Number
变异指标(variation number)又称离散 指标( Dispersion number),用以描述一组 计量资料各观察值之间参差不齐的程度。
为半定量资料。
资料的转化
根据分析的需要,变量可以转化,但只能由高 级向低级转化。连续型→有序→分类→二值
血红蛋白(g/dl) 等级 计数 <6 重度贫血 异常 6~ 中度贫血 异常 9~ 轻度贫血 异常 12~16 血红蛋白正常 正常 >16 血红蛋白增高 异常 但必须明确,凡能计量的,应尽可能采用计量资 料;因为计量资料可以得到较多的信息。
常用 x s 的形式表达资料。
方差与标准差的应用
方差是样本观察值的离均差平方的平均值, 它全面地反映了数据的变异大小;方差越 大,观察值与均数间的差异就越大,数据 的变异程度就越大,反之亦然; 标准差的量纲与原始数据一致,适用于对 称分布的资料;标准差保持了方差的优点, 其单位与观察值单位一致。
18.9
血清胆固醇变异系数: CV2
1.036 100 % 21.40% 4.84
显然,体脂变异大于血清胆固醇变异。
变异系数的特点
变异系数主要用于量纲不同的指标间,或均数相差较 大的指标间的变异程度的比较;
极差、四分位数间距与标准差有单位; 变异系数为标准差与均数的比值,无单位;
1.定义:将观察单位按某种属性的不同程度而顺序
分组,所得各组的观察单位数称为等级资料,通常有两个 以上等级。这类资料具有计数资料的特点,但所分各组之
间又有等级顺序,如由轻到重、由小到大排列。
2.特点:等级是有序分组。同计数资料的区别是:属 性的分组有程度或等级的差别,各组按一定顺序排列;与
计量资料的区别是:每个观察单位未确切定量,所以又称
常用医学统计方法
Medical Statistics
教 学 内 容
9.7 3学时
9.7 2学时 9.9 3学时 9.9 2学时
计量资料的统计分析(理论课)
计量资料的软件实现(操作演示)
计数资料的统计分析(理论课) 计数资料的软件实现(操作演示)
计量资料的统计描述
Descriptive Statistics
平均数与变异指标的使用范围
•
均数与标准差:
适用是均匀分布的小样本数据或近似正态分布数据,对样本含 量没有要求。
•
中位数与四分位数间距:
适用于大样本偏态分布资料。
•
众数与极差:
适用于描述未知分布的小样本数据。
•
几何均数:
描述近似对数正态分布数据的平均水平或平均发展速度
•
变异系数:
比较不同资料或同类资料均数相差悬殊时变异程度的比较。
应对数的反对数。
几何均数就是变量对数值的算术均数的反对数。
实例
5人的血清滴度为:1:2 , 1:4, 1:8 , 1:16 ,
1:32,求平均滴度。
log 2 log 4 log8 log16 log32 G log 8 5
1
同一资料,几何均数<均数
几何均数的应用与特点
AVERAGE、MEAN GEOMEAN MEDIAN MODE
算术均数
几何均数
中位数
众数
HARMEAN调和均数 STDEV VAR
公式为:
x( n 1 ) / 2 Md xn / 2 x1 n / 2 2
n为奇数 n为偶数
中位数的计算
实例 12个数据如下:
顺序号 (1) (11) 数据值 15.0 (2) (3) (4) (5) (6) (7) (8) (9) (10) (12) 7.4 15.6 8.6 8.6 10.8 11.6 11.6 11.6 12.1 12.3 14.3
变异指标越大,观察值之间差异愈大,说 明平均数的代表性就越差;反之亦然。
三组同性别、同年龄儿童体重
甲组 乙组 丙组
丙组 3 乙组 2 甲组 1
26 24 26
28 27 29
30 30 30
32 33 31
ቤተ መጻሕፍቲ ባይዱ
34 36 24
0 20 24 28 32 36 40
极差(Range)
意义:是一批数据中最大值与最小值之差,反映
实例: 某市10名7岁男童体重(kg)分别为:
17.3,18.0,19.4,20.6,21.2,21.8,
22.5,23.2,24.0,25.5,求其平均体重。
17.3 18.0 ... 25.5 x 21.35kg 10
均数的应用与特点
适用条件:算术均数适合于对称分布的资料, 如分布均匀的小样本数据或近似正态分布的大 样本数据; 特点:算术均数容易受极端值的影响.
四分位数间距(Quartile range)
意义:包括了全部变量值中居于中间水平
的一半数据的分布范围。
符号及计算:
Q =P25 –P75
Q
四分位数间距(Quartile range)
缺点:比较稳定,但不能反映其余数据的变异情 况,没有充分利用每个变量值的信息。 适用条件:四分位数间距用来描述大样本偏态资 料的变异情况。通常与中位数结合使用。
适用条件: 众数主要应用在对小样本的探索性数据进
行分析。 特点:它不受变量数列极端数值的影响,但众值的计 算只有在总体单位数足够多,而且又具有明显的集中趋 势时,才有意义。
中位数(median)
将一组变量值按大小顺序排列,位次居中的
变量值即为中位数。中位数将变量值一分为二,
一半比它小,一半比它大。符号为M、Md。计算
28 27 29
30 30 30
32 33 31
34 36 34
3.16228 4.74342 2.91548
0 20 24 28 32 36 40
方差与标准差的应用
方差或标准差属同类变异指标,它们多用 来描述均匀分布或近似正态分布的资料,大、
小样本均可,其中以标准差的应用最广,通常
与均数结合使用。比如在许多医学研究报告中
方差(Variance)
意义:样本观察值的离均差平方和(sum of square,SS)的均值。表示一组数据的平均离散情况。 符号及计算:方差分为样本方差和总体方差。样本 方差符号为
s
2
,相应的总体方差符号为 2 。
2 2 2 ( x x ) x ( x ) / n 2 2 s s n 1 n 1
变异系数( coefficient of variation ,CV)
符号及计算: 适用条件:
s CV 100% x
均数 170 cm 标准差 6 cm 变异系数 3.5%
变异系数可用于不同类型资料间变异程度的比较,
青年男子 身高
体重
60 kg
7 kg
11.7%
变异系数也可用于均数相差悬殊时同单位资料间变异 程度的比较,如不同年龄段同性别儿童的体重变异大
中位数的应用与特点
适用条件:适合各种类型的资料。尤其适合于
①大样本偏态分布的资料; ②资料有不确定数值;
③资料分布不明等。
特点:由于中位数总处在居中的位置上,将频数等
分为二,它不受特大或特小值的影响,仅仅利用了中
间的1~2个数据。
均数、中位数、众数三者关系
正态分布时: 均数=中位数=众数
正偏态分布时:均数>中位数>众数
计数资料(或无序分类变量)
1. 定义:将观察单位按某种属性或类别分组计
数,得到各组观察单位数称为计数资料。 2. 特点:计数排列是无序分组,同组各观察单 位之间没有量的差别,但各组间有质的不同,不同 质的观察单位不能归入一组。 变量值是定性的,表现为互不相容的属性或类别 二项分类和多项分类
等级资料(或有序等级变量)
适用条件:几何均数常用以描述观察值为等比
级数资料(呈倍数关系的等比资料)或对数正态分
布资料的集中趋势。
◆ 呈等比级数的资料,如血清滴度、抗体效价等;
特点:同一资料,几何均数<均数
众数(mode)
众数是指在一群观察值中,出现频率最高(即次
数最多)的数据,在频数表上表现为频数最多组的组 中值,数理上指曲线上的最高点。用符号Mo表示。
统计资料的分类
1、计量资料(或定量变量)
2、计数资料(或无序分类变量) 3、等级资料(或有序等级变量)
计量资料(或定量变量)
1.定义:测定每个观察单位的某项指标量的大小, 所得的资料称为计量资料。其变量值是定量的,表 现为数值大小,一般带有度量衡或其它单位。 2. 特点:每个观察单位的观察值之间有量的区别。
计数 计量
计数 等级
等级 计数
计量
计量
实例(二)
城市脑力劳动者调查资料部分指标摘录
体重指数 身高 班制 劳动强度 紧张程度 心率 嗜肥肉史 (1 ) (2 ) (3 ) (4 ) (5 ) (6 ) (7 ) 12.24 1.62 1 1 3 70 1 16.47 15.19 15.59 12.60 ┆ 1.63 1.64 1.63 1.64 ┆ 3 1 1 3 ┆ 1 2 1 1 ┆ 3 2 3 3 ┆ 72 72 84 68 ┆ 0 0 1 1 ┆ 收缩压 (8 ) 146 110 100 114 116 ┆ 舒张压 中风家族史 (9 ) (1 0 ) 90 有 70 70 70 68 ┆ 无 无 无 无 ┆
实例(一)
胆管癌患者部分指标
编号 性别 年龄(岁) 部位 分化程度 分期 肝转移 (1) ( 2 ) ( 3 ) (4) ( 5 ) (6) ( 7 ) 1 2 3 4 5 „ 男 女 女 女 男 „ 61 58 63 71 59 „ 上 中 上 下 上 „ 低分化 高分化 高分化 中分化 高分化 „ Ⅰ Ⅱ Ⅳ Ⅱ Ⅲ „ 阳性 阴性 阴性 阳性 阴性 „ P C N A 指数 (8 ) 52 89 93 78 85 „ 生存时间 ( 月 ) (9 ) 14 20 19 5 35 „
中位置的特征值,用以说明同类现象或事物数量的 中等水平(集中趋势)。
常用的有算术均数、中位数、众数、几何均数等
算术均数(arithmetic mean),简称均 数( mean )
符号为
x(相应的总体均数记为μ )。
算术均数的计算
x1 x2 x3 xn x x n n
几何均数(geometric mean)
符号为G。
几何均数的计算
几何均数的定义公式为: n 个变量值 x 的连乘
积的n次方根。
G n x1 x2 xn
当 n>3 时,上式计算不便,而常采用以
下计算公式:
log x G log n
1
式中 logx 表示对观察值 x 求对数, log-1 为相
标准差(standard deviation)
意义:标准差即为方差的平方根。其单位与原变 量X 的单位相同。
符号及计算:样本标准差符号为s ,相应的总体标
准差符号为σ
s
x x
2
2
n
n 1
三组同性别、同年龄儿童体重
甲组 乙组 丙组
26 24 26
丙组 3 乙组 2 甲组 1
了数据散布范围。
符号及计算:
R xmax xmin
极差(Range)
优点:简便。
缺点:①不能反映在该范围以内的其它数据的离散度;
②各样本含量大小悬殊时,不宜比较其极差;
③极差的抽样误差较大,样本的例数越多,极
差越大,不够稳定 。 适用条件:极差仅适用于对未知分布的小样本资料作 粗略的分析。样本量增大,极差会增大。通常与众数 结合使用。
计量
计量 计数 等级
等级
计量
计数
计量
计量
计数
注:体重指数=体重/身高3 (Kg/m3); 嗜肥肉史 劳动强度 轻1,中等2,重3 紧张程度 不紧张1,一般2,紧张3 班制 日班制1,两班制2,三班制3
有1,无0
平均数指标
Average Number
平均数指标
平均数(average) 是描述一群同质变量值集
小比较等。
实例 :某部队干部体检得到体脂的均数和标准差分别
为18.9%和5.8%,血清胆固醇的均数与标准差分别为 4.84mmol/L 和 1.03mmol/L,试比较两者的变异情况。 由于体脂和血清胆固醇是两个不同的观察指标, 不能直接比较其标准差大小,而应比较变异系数。 对本例: 5.8 CV 100 % 30.69% 体脂变异系数: 1