2.1 定量资料的统计描述
定量资料的统计描述解析
第一节 频数分布表与频数分布图
统计描述是统计分析的最基本内容,也 是统计分析的重要一部分.在统计学中经常 用统计指标和统计图表来揭示和反映原始 资料的数量特征和信息.
频数分布表
➢ 用于反映各变量(观察单位的某种特征)值及其 相应频数之间关系的一类表格,我们称之为频 数表.这里频数指对一种变量在多个观察单位 中进行多次观察,其中某一变量值重复出现的 次数.
数表法两种。
(1)直接法 当观察例数 n 不大时,此法常用。
先将观察值按大小顺序排列,选用下列公式
求 M。
当 n 为奇数时
为偶数时
M=
X
n 2
X
n 1 2
2
例 某病患者 8 人的潜伏期(天)分别为 2,3,3,4,7,8, 10,18,求它们的中位数。
本例 n=8 为偶数,将 8 人潜伏期从小到大排列,用公式算 得
➢ 不同的资料类型编制频数表难易程度不同,其 中计数资料和等级资料比较简单,而计量资料 相对较繁杂些.
计量资料频数表的编制
一般情况下,样本含量小于30的统计资料 无须编制频数表,但对于大样本含量的资料, 编制频数表有利于进一步的统计分析、且频 数表本身也具有统计描述的作用.
编制频数表的步骤
一般 8- 15 之间
3、方差(variance) 离均差平方和的算术平均数,即为方差。总体方差用
符号σ2(σ读seigama)表示,样本方差用S2表示。计算公 式分别为:
N
xi 2
2 i1
N
n
xi
X
2
S 2 i1
n 1
4、标准差(standard deviation) 方差的平方根即为标准差。总体标准差用σ表示,
2.1 频率分布表与频率分布图
频数 (2)
1 3 6 8 12 20 27 18 12 8 4 1 120
频率(%) (3) 0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67 3.33 0.83
100.00
累计频数 (4) 1 4 10 18 30 50 77 95 107 115 119 120 —
100.0
累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0
4
频率分布 图
30 频 率 25 (%)
20
15
10
5
0
0
1
2
3
4
5 >5
产前检查次数
图21 某地96名妇女产前检查次率分布
横坐标:产前检查次数; 纵坐标:频率, 检查k次的妇女 所占的比例(%) 等宽矩形长条:高度为检查次 数的频率
试编制血清含量的频率分布表。
6
编 制 步 骤 : 2
计 算 全 距 (range,R),又 称 极 差
(1)找• 出R = 最最大 值小-值最=小7值.4=229.647.42 = 22.22
3
确 定 组 段 数最与大组值距 = 29.64
•组 段 数 一 般 在 10 左 右 下 限 : 组 段 的 左 端 点
第二章 定量资料的统计描述
一、频率分布表与频率分布图
定
义
当变量值个数较多时,对各变量值出现的频率列表即为频 率分布表(frequency distribution table),简称频率表。
频率分布表的图形表示即为频率分布图。
2
1、离散型定量变量的频率分布
医学统计学-第二章 统计描述
1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
医学统计学:定量资料的统计描述
统计学家在实际应用时发现,按 x x 2 式求出的值总是比实际偏小,于是再
n
做一些校正,得到 x x 2 。
n 1
这就是离散趋势的衡量指标——标准差,其表达式是 S= x x 2 ,计算式是
n 1
第 3 页 共 22 页
《医学统计学》定量资料的统计描述讲稿
x2 x2
S
n。
n 1
依此,例 1 的四组数据可得到标准差为:1.5811,7.9057,15.8113,9.5131。
《医学统计学》定量资料的统计描述讲稿
定量资料的统计描述
课时:3 学时
教学目的与要求: 正确理解平均水平和离散趋势的概念 学会均数、标准差、变异系数的计算 理解频数分布表的含义 理解正态分布的特征,学会医学参考值范围的估算
本课重点与难点: 1、求均数和标准差是定量资料统计描述的基本功。关键还要记
第 2 页 共 22 页
《医学统计学》定量资料的统计描述讲稿
三组数据更加松散,第四组数据有紧有松,可是均数是一模一样,怎么谈得上是“特 征”呢?
这提示我们,对于一组数据,光靠一个指标来描述“特征”是不够的,就像要记 住一个人的特征,不能只看眼睛,要眼睛加上嘴巴,或鼻子加上身材,等等。看来我 们要再寻找一个描述数据内在松紧形式的指标。
X2 =170.0cm,S2 =7.1cm,如何评价? 从总体上说,两个学校三年级男生的身高是一样的(因为身高的平均水平一样),
但从个体上看,甲校男生的身高十分一致(因为身高的标准差很小),形象地说,是 标准的“仪仗队”,而乙校男生的高度就显得参差不齐(因为身高的标准差很大)。
也可以用变异系数(CV)来考量。 CV= S 100%
离均差平方和—— x x2 ,它克服了离均差之和恒等于零的缺点,在统计学中
卫生统计学 第二章 定量资料的统计描述
偏态分布型
负偏态分布:集中位置偏向数值大的一侧。
32
3、描述资料的分布特征
集中趋势:血清铁含量向中央部分集中,即中
等含量者居多,集中在18 这个组段,这种现
象为集中趋势
离散趋势:从中央部分到两侧的频数分布逐渐
减少,而且血清铁含量的值参差不齐,最低的 接近6 最高的接近30,这种现象称为离散趋势
组段下限(L):每个组段的起点 组段上限(U):每个组段的终点
①两端的组段应分别包含最小值或最大值; ②尽量取较整齐的数值作为组段的端点,便于对 数据进行表述; ③最后一个组段应同时写出上限和下限来
17
L X U
4、列表整理、统计各组段的频数、频率
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 一 上 正一 正上 正正丅 正正正正 正正正正正丅 正正正上 正正丅 正上 止 一
28
25 人 数 20 15 10 5 0 14 17 20 23 26 29 32 35 38 41 44 47
血清转氨酶(mmol/L)
115名正常成年女子血清转氨酶的频数分布
29
负偏态(峰)分布
101名正常人的血清肌红蛋白( g/mL )含量分布
肌红蛋白含量 0~ 5~ 10~ 15~ 20~ 25~ 30~ 35~ 40~ 45~50 人 数 2 3 7 9 10 22 23 14 9 2
划记
频数
1 3 6 8 12 20 27 18 12 8 4 1
合计
120
18
数据
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65 8.65 8.40 23.04 17.40 18.37 19.26 13.77 14.37 19.47 18.48 23.02 17.32 24.22 22.55 19.50 26.13 12.50 24.75 15.51 19.83 21.61 29.64 24.13 17.55 17.08 16.99 20.40 12.73 10.86 23.12 21.31 19.69 21.53 16.10 18.12 18.89 20.30 17.25 27.81 19.22 21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22 9.97 23.90 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72 22.73 17.45 18.26 21.00 13.81 17.51 12.67 17.19 20.75 27.90 14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74 20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66 21.62 24.14 15.38 19.82 15.83 17.40 25.61 19.12 17.55 14.18 23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52
定量资料的统计描述
1.集中趋势 (算术)平均数: 几何均数: 中位数:
2.离散趋势 全距: 四分位数间距: 离均差平方和: 方差: 标准差: 变异系数:
3.正态分布 特征: (P16) 应用 估计频率分布
确定医学参考值范围
4.t 分布
(正态近似法和百分位数法)
质量控制 理论基础 特征: (P22) 应用 区间估计 假设检验
(P42)
Ni N
p NNi pi
标准组选取方法 有代表性的
(P42)
两组合并 择其一
定量资料(计量资料)统计推断
一、定量资料的参数估计 (P23)
1.点估计: X
2.区间估计 σ未知,n较小: Xt.SX
σ已知: Xu.X
σ未知但n足够大:
Xu.SX
二、定量资料的假设检验 (P26)
t
检验
单个样本t检验:
3. yˆ 的含义( P138或见讲义) 。
4.回归与相关的区别和联系(见讲义) 5.等级相关的适用范围(P147)。 6.直线回归的应用(P142~ P143 )。
统计表与统计图
1.统计表的分类(P255) 2.统计表的编制要求(P253) 3.统计表的改错(P255)
4.常用统计图的适用条件及要求
(P256 ~ P259 )
基本概念(见讲义)
1.总体和样本(P3) 2.参数和统计量(见讲义)
3.变异(见讲义)
4.抽样误差(见讲义) 5.概率(P4) 6.样本含量(P3) 7.定量资料(P4) 8.定性资料(P4)
9.正偏态分布(P8) 10.负偏态分布(P8) 11.中位数(P11) 12.百分位数(P13) 13. 医学参考值范围(P18) 14.统计推断(P20) 15. 标准误(P22) 16.参数估计(P23)
定量资料的统计描述
编制频数分布表的步骤
第一组段包括最小值,最后 一组段包括最大值,除最后 一组段可同时标出上下限, 其他组段只标出下限。
一般 8- 15 之间 求出极差 确定组段数 确定组距
列出各个组段
确定每一组段频数 选 根据变量值大小 把各观察单位归 入各个组段
极差即最大值 与最小值之差
组距=R/组段数, 但一般取一方便 计算的数字
常用的平均数有: 算术平均数(均数)(mean) 几何平均数(geometric mean)
中位数 (median)与百分位数(percentile)
众数(mode)
一、算术平均数
算术平均数:简称均数(mean)
可用于反映一组呈对称分布的变量值
在数量上的平均水平或者说是集中位置
的指标值。
1、算术平均数的计算方法
M X 9 1 X 5 15
2
பைடு நூலகம்
如果只调查了8家外企,则
2 14 15 2 14.5 M X X 8 8 1 2 2
频数分布表资料的中位数
M 所在组段下限值 (n 50% 至该下限值的累计频数) 组距 所在组段下限值至上限值间的频数 (n 50% f L ) M L i fm
i , fm
下限值L
中位数M
上限值U
例1 频数表中位数的计算
N=∑f
中位数=71+3x[(130x50%-59)/26]=71.69
2、中位数的应用
各种分布类型的资料
特别适合大样本偏态分布资料或者 分布末端无确切数值的资料。
第二节 描述集中趋势的统计指标
统计上使用平均数(average)这一指标体系来描述 一组变量值或观察值的集中位置或平均水平。
定量资料的统计描述
四分位数 间距
方差与标 准差 变异系数
频数分析(Frequencies )
下面我们结合人群的年龄(age)数据学习如何使用SPSS计算统计指 标。
部分中英文对照:
描述统计(Descriptives )
对于近似正态分布的资料,我们还可以通过Descriptives获取统计指 标。这是一组使用某法多次测定某水样中碳酸钙含量的数据,符从正态分 布,下面我们用Descriptives的方法计算这组数据的统计指标。
打开SPSS软件自带的数据demo.sav,找到car,这是一组 私家车价格的资料,我们将结合这组数据学习连续型定量资料 频数分布表和频数分布图的绘制。
变量视图
一般步骤
1.求极差 2.确定组段数和组距 3.根据组距写出组段 4.制作频数表和频数图
求极差
求极差
确定组段数和组距
1.极差:R=95.7≈100
定量资料统计描述
定量变量
定量变量可以分为两种类型: 1.离散型变量:只能取整数值,例如,一个月中的
手术病人数,一年里的新生儿数。
2.连续型变量:可以取实数轴上的任何数值,例如, 血压,身高,体重等。
统计描述
统计描述是通过绘制统计表、统计图 或计算相应的统计指标来说明资料的分布 规律及其数量特征,是进一步统计推断的
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分
1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
统计指标 正态性检验
正态性检验
探索分析(Explore )
四分位数间距
探索分析(Explore )
探索分析(Explore )
定量资料的统计描述
表2.2 120名正常成年男子血清铁含量(umol/L)频数分布表
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 27 18 12 8 4 1 120
频率 (%)
0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67 3.33 0.83 100.00 .
.
(一)编制频数表 1.编制频数表的步骤
(1)求极差R R=Xmax - Xmin
(2)划分组段
➢两端组段分别包含 最大值或最小值;
➢尽量取较整齐的数 值作为组段的端点;
➢组距以相等为宜。
确定组数:一般分10~15组;
确定组距i :可相等,可不等 ;
确定各组段的上、下限。
.
(3) 划计归组:按照x大于或等于下限小于上 限的原则确定每一例数据应归属的组段,依 次清点频数、计算频率、累计频数、累计频 率。
.
2.频数分布表的用途 (1)揭示资料的分布类型; (2)可看出频数分布的两个特征:集中趋势、离 散趋势; (3)便于发现特大或特小的可疑值; (4)便于进一步作统计处理。
.
(二)绘制直方图 直方图也称频率直方图。 横轴为所研究的变量(即组段的上下限),纵轴 为频率密度。 频率密度=频率/组距,直条面积等于相应组段的 频率。
.
(2)加权法:当相同观察值较多时,用加权法。 适用于频数表资料。公式:
XfX0 fX0 f n
X0为各组的组中值,f为各组的频数。
10
5
0
0
1
2
3
4
检查次数
某地96名产妇产前检查次率分布
.
频数
定量资料统计描述
定量资料统计描述概述定量资料是指数据以数字形式呈现的资料,与定性资料(如文字、图片等)不同,定量资料的数据具有明确的数值意义,常常需要进行统计分析。
在众多的数据分析方法中,统计是最为基础和重要的一种。
在统计分析中,描述统计是对搜集的数据进行基本的描述和概括,为进一步分析打下基础。
本文将从以下几个方面介绍定量资料的统计描述:1.定量资料的类型2.定量资料的统计描述方法3.定量资料的图表展示定量资料的类型定量资料通常可分为连续型和离散型两种。
具体来说,连续型数据是指在一定区间范围内可以取任意值的数据,如身高、体重等。
而离散型数据则是指一个变量只能取有限个取值的数据,例如血型、班级人数等。
定量资料的统计描述方法1. 集中趋势集中趋势是描述一组数据中心位置的统计指标,常用来表征该组数据的一般水平。
主要指标包括均值、中位数及众数。
其中,均值是指某组数据所有数据之和除以数据的个数,中位数是在一组数据中,数值按照从小到大排列,处于中间位置的数据,众数则是指整个数据中出现最频繁的那个数据。
2. 离散程度离散程度是描述一组数据分散程度的统计指标,常用来表征该组数据的分布情况。
主要指标包括极差、方差和标准差。
其中,极差是指一组数据最大值与最小值的差,方差是各数据偏离它们算术平均数的平方和的平均数,标准差则是方差的非负平方根。
3. 偏态与峰态偏态和峰态是描述一组数据偏离正态分布情况的统计指标。
偏态是指一组数据分布的不对称程度,主要指标包括偏态系数。
而峰态是指一组数据分布峰值的高低程度,主要指标包括峰态系数。
定量资料的图表展示图表展示是定量资料描述的一种重要手段。
常用的图表形式包括直方图、折线图、箱线图等。
1. 直方图直方图是一种对连续性定量数据分布情况的图形表示。
在直方图中,数据被划分为几个区间,每个区间的数据频数用柱形的高度来表示。
直方图能够反映数据的集中趋势和分散程度。
2. 折线图折线图是一种用折线表示数据值的图形,常用来描述离散型定量数据的变化趋势。
定量资料统计描述(1)
7
25 频数20
15 10 5 0
年龄(岁)
某市某年乙脑患者的年龄分布
8
0.5
2.5
4.5
6.5
8.5 10.5 12.5 14.5
16.5 18.5 20.5 22.5 24.5
26.5 28.5 30.5 32.5 34.5
36.5 38.5 40.5 42.5 44.5
46.5 48.5 50.5 52.5 54.5
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征
集中趋势(Central tendency) 离散趋势(Tendency of dispersion)
9
3) 利于发现某些特大或特小的可疑值 4) 便于进一步进行统计分析
10
4. 频数分布图 以观测变量为横轴,频数(或频率)为纵轴
所作的直方图,称为频数分布图。用途与频 数表类似,但更直观、形象。
11
二、集中趋势的描述
描述定量资料数量特征和分布规律的统计 指标有两类:
一类是描述数据分布集中趋势的指标,即 平均数(average);
另一类是描述数据分布离散程度(或变异 程度)的指标。
12
1. 算术均数(arithmetic mean) 简称均数(mean),它描述一组数据在
累计频数等于该组段及前面各组段的频数 之和;累计频率等于累计频数除以总例数。 累计频率描述了累计频数在总例数中所占比 重。
6
2. 频数分布的类型
① 对称分布:集中位置在正中,左右两侧大体对称。
② 偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
频数分布类型不同,统计描述的方法不同。
医学统计学02 定量资料的统计描述
120名8岁男孩身高频数表 组段 112~
频数 f 25
频数 2
114~
21
18
7
9 14
116~
15 10 5 3
20
15 10 5 0 7
14 15 9
118~
120~
122~
1
15
21 18 15 10 5 3 1
10
2 1 身高( cm )
124~ 126~ 128~ 130~ 132~ 134~136
• 加权法
G log
1
f log X f log X ( ) log ( ) n f
1
31
注意事项
几何均数常用于等比级资料或对数正态分布资料。 观察值中若有0或负值,则不宜直接使用几何均 数。 观察值一般同时不能有正值和负值。若全是负值, 计算时可先将负号去掉,得出结果后再加上负号。
7
9 14 15 21 18 15 10
130~
132~ 134~136
5
3 1
5
• 频数(frequency)
– 观察数据的个数
• 频数分布(frequency distribution)
– 观察数据在其取值范围内的分布情况
• 定量资料的频数分布情况可以用频数表 (frequency distribution table)或直方图表 示。
9
14 15 21 18 15
7.5
11.7 12.5 17.5 15.0 12.5
18
32 47 68 86 101
15.0
26.7 39.2 56.7 71.7 84.2
– 组段的起点叫“下限”,终点叫“上
【精品】定量资料的统计描述
【精品】定量资料的统计描述定量资料的统计描述是指通过定量数据分布的一系列统计量来描述一个样本或总体的特征。
常用的统计量包括中心位置、离散程度、分布形态和相关性等。
中心位置中心位置是指数据分布的平均水平。
常用的中心位置统计量包括平均数、中位数和众数。
平均数是所有数据值的总和除以数据个数。
它具有良好的代表性,但受极端值的影响较大,因此需要谨慎使用。
中位数是将数据按大小排序后位于中间的数值,当数据存在极端值时,中位数比平均数更能正确反映数据的中心位置。
众数是数据中出现次数最多的数值,适用于分布具有明显峰值的情况。
离散程度离散程度是指数据分布的距离平均值的大小。
常用的离散程度统计量包括标准差、方差、极差和四分位数差等。
标准差是数据离均值的平均距离,是最常用的衡量数据分散程度的统计量。
方差是标准差的平方,由于平方的量级较大,因此比标准差不易解释。
极差是数据最大值与最小值之差,不考虑数据内部的分布情况,因此不具有代表性。
四分位数差是在数据中将数值分为四个部分,即25%、50%、75%三个分位点,然后用75%分位点减去25%分位点,用于描述数据离散程度。
分布形态分布形态是指数据分布的偏态和峰态。
常用的分布形态统计量包括偏度和峰度。
偏度是反映数据分布偏斜程度的统计量,正偏分布表示分布的长尾在分布的右侧,负偏分布表示分布的长尾在分布的左侧。
当偏度为0时,表示分布是对称的。
峰度是反映数据分布峰态的统计量,正峰分布表示分布的峰在分布的中心较高,负峰分布表示分布的峰在分布的中心较低。
当峰度为0时,表示分布的峰态基本接近正态分布。
相关性相关性是指两个变量之间的关联程度。
常用的相关性统计量包括相关系数和协方差。
相关系数是反映两个变量之间线性相关程度的统计量,取值范围为-1~1之间,正值表示正相关,负值表示负相关,0表示不相关。
协方差是反映两个变量之间相关性的统计量,数值大小表示两个变量之间的相关程度,但由于单位的影响,不易比较。
医学统计学(李晓松主编 第2版 高等教育出版社)附录 思考与练习95%答案
一、SPSS 基本功能SPSS基本功能数据管理统计分析图表分析:条图、直方图、饼图、线图、散点图等输出管理:对输出结果复制、编辑等描述性分析均数比较一般线性模型相关与回归分析非参数检验生存分析FrequenciesDescriptivesExploreCrosstabs 统计资料的类型资料类型定量资料:用定量的方法获得的数值资料计数资料:按性质或类别分组后清点各组个数等级资料:半定量资料定量资料的统计推断正态分布两组均数比较单样本设计t检验配对设计t检验成组设计t检验三组及以上均数比较完全随机设计方差分析随机区组设计方差分析重复测量方差分析析因设计方差分析偏态分布配对设计秩和检验单样本设计秩和检验成组设计秩和检验资料类型定量资料计数资料等级资料统计分析统计描述统计推断相对数总体率的估计假设检验u检验卡方检验4假设检验参数检验非参数检验正态分布等级资料偏态分布资料分布类型未知方差不齐,且不易变换达到齐性数据一端或两端不确定的资料1.参数检验:已知总体分布类型,对未知的总体参数做推断的假设检验方法。
故参数检验依赖于特定的分布类型,比较的是总体参数2.非参数检验:不依赖于总体分布类型、不针对总体参数的检验方法。
故非参数检验对总体的分布类型不做任何要求,不受总体参数的影响,比较的是分布或分布位置。
适用范围广,可适用于任何类型资料 参数检验➢ 优点:资料信息利用充分;检验效能较高 ➢ 缺点:对资料的要求高;适用范围有限 2.非参数检验➢ 优点:适用范围广,可适用于任何类型的资料 ➢ 缺点:检验效能低,易犯Ⅱ型错误 凡适合参数检验的资料,应首选参数检验对于符合参数检验条件者,采用非参数检验,其 检验效能低,易犯Ⅱ型错误研究人员通常需要了解和研究某一类个体,这个类就是总体。
总体是根据研究目的所确定的所有同质观察单位某种观察值(即变量值)的集合,通常有无限总体和有限总体之分,前者指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体是有限的,它是指特定时间、空间中有限个研究个体。
第二章定量资料的统计描述
1.算数均数 1.算数均数(arithmetic mean) )
表2-3 加权法计算均数 组段 (1 ) 6~ 8~ 10~ 10~ 12~ 12~ 14~ 14~ 16~ 16~ 18~ 18~ 20~ 20~ 22~ 22~ 24~ 24~ 26~ 26~ 28~ 28~30 合计 组中值( 组中值(XO) (2 ) 7 9 11 13 15 17 19 21 23 25 27 29
X + X 2 + ... + X n = 1 X n=∑n来自i =1Xi n
=
∑
i
Xi n
=
∑
n
X
1.算数均数 1.算数均数(arithmetic mean) )
测得8 例2-3 测得8只正常大鼠血清总酸性磷 酸酶(TACP)含量(U/L) 4.20,6.43, 酸酶(TACP)含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42,3.38。 2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。 试求其算术均数。 算术均数= 算术均数= (4.20+6.43+2.08+3.45+2.26+4.04+5.4 2+3.38)/8=3.9075 2+3.38)
1998年某地96名妇女产前检查次数分布 1998年某地96名妇女产前检查次数分布 年某地96
频数 (2) 4 7 11 13 26 23 12 96 频率(%) 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计人数 (4) 4 11 22 35 61 84 96 累计频率(%) 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0 -
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定义:将一组观察值从小到大排序后居 于中间位置的那个数值 计算:
离散型变量
1 当n为偶数时: M ( X ( n ) X ( n 1) ) 2 2 2
当n为奇数时: M X
(
n 1 ) 2
中位数的计算
连续型变量:
i50 n M L50 ( fL ) f 50 2
对称分布 偏态分布: 对数正态分布 偏态分布
集中趋势
均数
离散趋势
方差、标准差 变异系数 对数值的方差 或标准差 极差、四分位 数间距
几何均数 中位数ຫໍສະໝຸດ 本章重点
频数表的意义和应用。 集中趋势的各个描述指标及其应 用条件。 离散趋势的各个指标及其应用条 件。 正态分布和偏态分布资料的描述 指标选择。
iX 公式:PX LX (n X % f L ) fX
式中符号的意义同中位数所用公式,只是把 中位数改为第X百分位数。
小结
频数表和频数图的制作以及频数分布类 型和频数表的用途。 算术均数的定义、特性、适用条件和两 种计算方法。 几何均数的定义、适用条件和两种计算 方法。 中位数的应用及计算
1.该生为优等生,总评成绩为92; 2.该生为良等生,总评成绩为80; 3.该生为中等生,总评成绩为74.55; 4.该生为差等生,总评成绩为17.
几个实例
甲、乙两实验员在实验技术考核中,分 别对同一标准样品进行5次平行样测定, 结果如下,问哪一个的实验技术好(标样 的真值为100)?
甲 乙 80 90 90 96 100 100 110 104 120 110
求极差 R=Xmax-Xmin
划分组段 统计各组段内的数据频数
频率与累计频率
表1. 100名HIV阳性男子年龄的频数分布表
年龄 (岁) 25~
30~ 35~ 40~ 45~
频数 18
38 24 13 4
频率(%) 18.0
38.0 24.0 13.0 4.0
50~ 合计
3 100
3.0 100.0
各种平均数的意义、计算及其应用场合 平均数 均数 意义 平均数量水平 计算 应用场合 适用于对称分布,特别是正态分布的 资料。 (1)等比级数资料 几何均数 平均增(减)倍数 (2)对数正态分布 (3)观察值不能有 0 (4)观察值不能同时有正值和负值 n 为奇数时: M M
( n1 ) 2
四分位数间距(Q)=QU(P75)-QL(P25)
优缺点:
包括了全部变量值中居于中间水平的一半, 比极差稳定。
仍未考虑到每个观察值的变异度。
3、方差和标准差 variance and standard deviation
方差是每个观察值与总体均数离差的 平方的平均值,可以较全面的反映该 组资料的变异情况,方差的单位是原 始数据单位的平方。 将方差开方即得标准差。标准差与原 始数据的单位相同,描述了个体值间 的变异。 样本方差与总体方差分别用S2和σ2表示。
内
容
频数分布表与频数分布图
集中趋势的描述
离散趋势的描述
定量资料的统计分析
集中趋势 统计描述 离散趋势 统计分析 参数估计 假设检验
统计推断
例:100名HIV阳性男子的年龄(岁)
49 35 28 30 32 33 36 42 42 30 36 36 30 32 28 34 34 34 30 35 33 40 38 37 29 33 28 34 42 52 30 27 34 46 36 34 44 49 25 48 30 31 37 29 30 30 30 25 26 32 27 33 29 36 33 35 40 40 28 27 30 39 32 30 36 27 39 42 41 33 41 40 38 51 29 31 40 30 35 31 34 29 37 34 38 51 33 39 27 37 32 31 37 33 38 38 40 32 26 36
x
x
n
G Lg
1
Lgx) (
n
将一组观察值从小到大 中位数 排序后,位次居中的观 察值水平
n 为偶数时:
M [ x n x n
2
(1)偏态分布
( 1) 2
]/ 2
(2)分布不明 (3)分布末端无确定值
若为频数表资料:
M L i n ( fL ) * fX 2
4、变异系数 (Coefficient of variation CV)
公式:
S CV 100% X
应用:
a: 比较度量衡单位不同的多组资料 的变异度。 b: 比较均数相差悬殊的多组资料的 变异度。
小结
极差、四分位数间距、方差、标准差的 定义、适用条件和计算方法。
指标
极差 R
四分位 数间距 Q
众数
频数最多的取值或组段 (组中值为代表) 观察值 x 倒数之均数的 倒数
M0 L
H
fU (i ) * f L fU
1
定量资料的集中趋势描述
调和均数
1 1 n x
求平均速度、平均样本含量
* 式中 L 为 M0 所在组段(即频数最多的组段)的下限,U 为上限,i 为组距;fL 为小于 L 的相邻组段的频数,fU 为大于 U 的相 邻组段的频数。
平均差 M.D. 方差 σ2 或 s2
标准差 s
描述离散趋势统计指标的意义及其应用场合 指标含义 计算公式 应用场合及特点 用于小样本或分布不清时。 简单明了,但缺点是: 亦称全距。即一组观察值 1. 除最大值和最小值外,不能反映 中, 最大值与最小值之差。 R=最大值-最小值 组内其他数据的变异度; 单位与原观察值相同。 2. 样本例数悬殊时不宜比较其极 差; 3. 极差的抽样误差较大, 不够稳定。 四分位数间距 Q 即上四分 适用于描述偏态分布资料的离散趋 位数 QU(即第 75 百分位 数)与下四分位数 QL(即 势。 Q=QU-QL 第 25 百分位数)之差,包 四分位数间距比极差稳定,但仍未考 括了全部变量值中居于中 虑到每个观察值的变异度。 间水平的一半。 指数列中各项数值对其平 | xx | 用来测定数列中各项数值对其平均 均数离差绝对值之和的算 M .D. 数离散趋势的一种尺度。 N 术平均数。 方差是每个观察值与总体 正态分布资料。 (x x)2 2 均数离差的平方的平均 可以较全面地反映该组资料的变异 s n 1 值。 情况。单位是原始数据单位的平方。 标准差的计算有直接法和加 权法两种。 直接法: 将方差开方即得标准差。 正态分布资料。主要用于: (x x)2 同质两组资料,在两组均 s 1. 表示观察值的变异程度; 数相近的条件下,S 大, n 1 2. 结合均数描述正态分布特征; 说明该组的资料分散,均 x 2 ( x ) 2 / n 3. 结合均数计算变异系数; 数的代表性差;S 小,说 4. 结合样本含量计算标准误等。 n 1 明该组的资料集中,均数 加权法: 的代表性好。
定量资料的统计描述
Descriptive of quantitative data
几个实例
记者的贫困山村调查 某记者到某山村进行了两次调查,基本 数据为:
改革前: 100人,总年纯收入3万元 改革三年后: 100人,总年纯收入100万元
美国房地产开发
几个实例
某学生在某年的几门功课考试中,成绩分别为 98、92、92、92、83、80、78、75、65、48、 17。在对该生进行评价时,四位教师有四种意 见:
标准差:Standard Deviation
标准差的计算:
( X X )2 直接法:S n 1
2 2 fX ( fX ) / f f 1
频数表法:S
其中,X是各组段的组中值,f是相应的频数。
标准差的应用
a:表示观察值的变异程度
b: 结合均数描述正态分布特征 c: 结合均数计算变异系数 d: 结合样本含量计算标准误等
几何均数(Geometric mean)
中位数(Median)
算术均数(均数)Mean
计算:
直接法(小样本): x
x1 x2 xn n
加权法(大样本,频数表资料):
x
fx f
应用:用于对称分布,特别是正态 分布资料的集中趋势描述。
几何均数:Geometric mean
一、频数分布表与频数分布图
频数表的概念
频数表的编制 频数表的用途
常用频数分布图
1. 频数表(frequency table)的概念
频
数:将资料的观察值按组段分组,
各组段所包括的变量值个数。
频数表:描述各组段及相应频数分布的 统计表称为频数分布表,简 称频数表。
2. 频数表的编制
计算
直接法:
G n x1 x2 xn
f lg x G lg f
1
加权法:
几何均数的应用
等比资料的统计 对数正态分布资料 注意:
观察值不能为0 观察值不能同时包含正、负值
例:某村某年的家庭总收入分布图
?
均数
中位数 Median
3.频数表的用途
揭示频数分布特征
集中趋势 离散趋势
对称分布 正偏态分布 偏态分布 负偏态分布
揭示资料的分布类型
便于发现过大或过小可疑值 便于进一步的统计工作 资料的陈述形式