第二章 定量资料的统计描述02

合集下载

第二章--定量资料的统计描述

第二章--定量资料的统计描述
定量资料的统计描述
分类变量(名义变量 分类变量 名义变量) 名义变量 定性变量 有序变量(等级变量 有序变量 等级变量) 等级变量
变量
离散型变量 定量变量 连续型变量 统计描述: 统计描述:用统计图表或计算统计指标的方法表达一个特定群 这个群体可以是总体也可以是样本)的某种现象或特征, 体(这个群体可以是总体也可以是样本)的某种现象或特征, 称为统计描述。 称为统计描述。 统计描述可以使人们对资料有一个大致的了解, 统计描述可以使人们对资料有一个大致的了解,为进一步的统 计分析打下基础。 计分析打下基础。
图2-1 某地96名妇女产前检查次数频率分布 某地96名妇女产前检查次数频率分布 96
30 25 20
频率(%)
15 10 5 0 0 1 2 3 4 产前检查次数 5 >5
横坐标为产前检查 横坐标为产前检查 频率, 次数,纵坐标为频率 次数,纵坐标为频率, 即产前检查k次的妇 即产前检查 次的妇 女在被统计妇女中所 占的比例(%) 占的比例( ) 从表2-1和图 和图2-1可 从表 和图 可 以看出, 以看出,产前检查次 数为4次或 次或5次的孕妇 数为 次或 次的孕妇 数目最多, 数目最多,不检查或 检查次数很多的孕妇 不多, 不多,产前检查很多 次的孕妇也不多。 次的孕妇也不多。
与表2-2相比, 与表 相比,直方图可以更直观 相比 地表达出血清铁数据在各组段的分 布情况。 布情况。
三、频率分布表(图)的用途 频率分布表( (一)揭示资料的分布类型 1、对称分布 集中位置位于中央,左右两侧频数对称。 集中位置位于中央,左右两侧频数对称。
12 10 频 率 密度 (%) 8 6 4 2 0 7 9 11 13 15 17 19 血清铁 21 23 25 27 29

第2章定量资料的统计描述

第2章定量资料的统计描述
用于描述一组对称分布数据在数量上的平均水平。 样本均数用 X 表示,总体均数用希腊字母µ表示。
1、计算方法 (1)直接法:当样本含量较小时,用直接法。公 式:
X
X
n
例2.3 测得8只正常大鼠血清磷 酸酶含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42, 3.38。试求其算术均数。
10
5
0
0
1
2
3
4
检查次数
某地96名产妇产前检查次率分布
频数
5
>5
>5
二、连续型定量变量的频数分布
例2.2 某地120名18~35岁健康男性居民血清铁含量 (umol/L),编制频数表。
7.42 8.65 23.02 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 20.38 8.04 17.32 29.64 19.69 23.90 17.45 19.08 20.52 24.14 23.77 18.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 14.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 14.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 24.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 17.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 14.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 21.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52

统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案

统计学方积乾 第七版 第二章  定量资料的统计描述课后练习题答案

第2章 定量资料的统计描述案例2-1(P27)答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。

统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。

对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。

应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下:25507523.5(23825%20) 4.7(mol/kg)6625.5(23850%86) 6.6(mol/kg)6027.5(23875%146)8.9(mol/kg)48(%)x xL xiP L n x f f P u P u P u离散程度指标:四分位间距=P75-P25=8.9-4.7=4.2umol/kg。

故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,思考与练习(P31)1.答:(1)某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布(2)Descriptive StatisticsN Range Min Max Mean Std. Deviation 胸围120 12.7 49.1 61.8 55.120 2.3188(3) 利用频数分布表数据计算均数和标准差0149.5161.56623.01112055.19(cm)fX X f∑=∑⋯⨯++⨯==⋯++=(4)………..S 2.33(cm)=255075153.0(12025%19)53.58(cm)19155.0(12050%56)55.29(cm)14156.0(12075%70)56.77((cm)26%)x x L xiP L n f f P x P P2.答:该资料最大值为一不确定值,根据此特点,宜用中位数和四分位间距进行统计描述.M=16.5(天) P25=15(天) P75=20(天) Q=20-15=5(天)3.答:根据资料中血凝抑制抗体滴度指标呈等比数列变化的特点,计算其平均滴度应选用几何均数,由于是频数表资料,故用加权法计算几何均数。

定量资料统计描述2

定量资料统计描述2
加权法计算的均数是近似的。
数据分布对称时,均数位于分布的中心, 它是频数分布最集中的位置。
若数据分布不对称,均数不位于分布的中 心,不能反映分布的集中趋势和平均水平。
2. 几何均数(Geometric mean. G)
适用于原始数据分布不对称,但经对数转换后对 称分布的资料;或各观察值之间呈倍数变化(等比关 系)的资料。
用于:① 比较单位不同的多组资料的变异度 ② 比较均数相差悬殊的多组资的变异度
感谢大家的关注!
四分位间距:QU — QL ,它包括全部观察值的一半。可看作 中间一段观察值的极差。它比极差稳定,但仍未考虑每个观察值 的变异。
3. 方差(Variance)
S2 (xx)2
n1
式中 n – 1 称为自由度(Degree of freedom), 反映了当均数确定时, n 个数据中能自由变动的 数据个数。
双侧:WBC的95%参考值范围: P2.5 和 P97.5 单侧:肺活量的95%参考值范围:P5
尿铅的95%参考值范围:P95
三、离散程度的描述
三组同性别、同年龄的儿童体重(㎏)
A 26 28 30 32 34 B 24 27 30 33 36 C 26 29 30 31 34
1. 极差(Range,R)
0.5
2.5
4.5
6.5
8.5 10.5 12.5 14.5
16.5 18.5 20.5 22.5 24.5
26.5 28.5 30.5 32.5 34.5
36.5 38.5 40.5 42.5 44.5
46.5 48.5 50.5 52.5 54.5
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征

02-医学统计学定量数据的统计描述

02-医学统计学定量数据的统计描述

X为组段的组中值。 X=(组段上限+组段下限)/2
【例】120名健康男性居民血清铁含量的频数分布表,试求 其算术均数。
组段 频数 组中值 6~ 1 7 8~ 3 9 10~ 6 11 12~ 8 13 14~ 12 15 16~ 20 17 fX 7 27 66 104 180 340 组段 频数 组中值 18~ 27 19 20~ 18 21 22~ 12 23 24~ 8 25 26~ 4 27 28~30 1 29 fX 513 378 276 200 108 29
概 述 平均数(average),是描述一组观察值集中位置或 平均水平的统计指标,常作为一组数据的代表值用于 分析和进行组间的比较。 常用的有算术均数、几何均数、中位数、百分位 数等。
算术均数 算术均数(arithmetic mean),等于一个变量所有观 察值的和除以观察值个数。 总体均数用希腊字母μ表示,样本均数用符号 X 表示。 算术均数适用于对称分布的资料,如分布均匀的小 样本数据或近似正态分布的大样本数据。 算术均数易受极端值的影响,并且受极大值的影响 大于受极小值的影响。
n为总频数。
【例】52例慢性肝炎患者的HBsAg滴度数据表,试求其 几何均数。
抗体滴度 1:16 1:32 1:64 1:128 1:256 1:512 合计 频数 2 7 11 13 12 7 52 滴度倒数 16 32 64 128 256 512 lgX 1.20412 1.50515 1.80618 2.10721 2.40824 2.70927 f (lgX) 2.40824 10.53605 19.86798 27.39373 28.89888 18.96489 108.06977
中位数 中位数(median,M),是在按大小顺序排列的变 量的所有观察值中,位于正中间的一个或两个数值。 当数据呈偏态分布、或频数分布两端无确定数值, 均宜采用中位数描述集中趋势。 中位数的确定取决于它在数据序列中的位置,因此 对极端值不敏感。

第二章定量资料的统计描述02

第二章定量资料的统计描述02

3)方差,又称均方差(mean square deviation)
2
X
i
i

2
N
x 26 28 29
X-u -4 -2
(x-u)2 16 4
30
32 34 合计
0
2 4 0
i
0
4 16 40
2

2

X
i
N
40 8 5
S
2
X X
i i
2
n1
变量频数分布的类型: 1)对称分布 2)偏态分布: 正偏峰(positive skew )分布(向左偏) 负偏峰 (negative skew) 分布(向右偏)
变量频数分布的两个特征 1)集中趋势(central tendency) 2)离散趋势 (tendency of dispersion)
式中:L为所求百分位数所在组段的下限; i为该组段的组距; f x为该组段的频数; n为总频数; f L为该组段之前的累计频数。
4)众数:总体中指出现机会最高的数值; 样本众数则是在样本中出现次数最多的数值。 表2-1 1998年某地96名妇女产前检查次数频数分布
检查次数 0 1 2 3 4 5 >5 合计 频数 4 7 11 13 26 23 12 96 频率(%) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100.0 累计人数 4 11 22 35 61 84 96 —— 累计频率(%) 4.2 11.5 22.9 36.5 63.5 87.5 100.0 ——
5)调和均数:先求原始数据的倒数的算术均数, 该算术均数的倒数便称为原始数据的调和均数。
H

卫生统计学第二章定量资料的统计描述2

卫生统计学第二章定量资料的统计描述2

正态分布曲线,当μ恒定时,σ越大
A. 曲线沿横轴越向左移动
B. 观察值变异程度越小,曲线越陡峭
C. 观察值变异程度越大,曲线越平缓
D. 曲线沿横轴越向右移动
E. 曲线位置和形状不变
正确答案: C
答案解析:正态分布的形态参数σ描述正态分布的离散程度。σ越大,则观察值的变异越大,表现为曲线峰值越矮,两端越上翘,即曲线越平缓。反之,曲线越陡峭。位置参数μ决定曲线对称位置,或峰值的位置,当μ不变时,曲线的对称位置就固定不变。
做答人数:0
做对人数:0
所占比例: 0
题号: 18 本题分数: 2.4
常用的平均数指标不包括
A. 算术平均数
B. 几何均数
C. 均数
D. 极差
E. 中位数
正确答案: D
答案解析:常用的平均数指标有:算术均数、中位数、几何均数,其中算术均数简称均数,极差为离散程度指标。
正确答案: C
答案解析:医学参考值范围是指绝大多数正常人某指标测量值的波动范围,一般取95%和99%的波动范围。
做答人数:0
做对人数:0
所占比例: 0
题号: 14 本题分数: 2.4
频数分布的类型有
A. 对称分布和偏态分布
B. 对称分布和正偏态分布
一、题型:A1
题号: 1 本题分数: 2.4
编制组段数为10的频数表,在确定组距时
A. 常取最大值的1/10取整作为组距
B. 常取最小值的1/10取整作为组距
C. 常取极差的1/10取整作为组距
D. 组距等于极差
E. 常取极差的一半取整作为组距
做答人数:0

定量资料的统计描述 (2)

定量资料的统计描述 (2)
定量资料的统计描述
刘娅 公共卫生学院流病统计教研室
复习
统计工作的基本步骤
复习
总体与样本 参数和统计量 抽样误差 小概率事件
复习
资料的两种类型
数值变量资料 分类变量资料 问题:患者的白细胞分类百分比?
注意
人们有一种误导作用,即所有的叫“百分比或 百分率”的资料都应当是定性资料。
定量资料的统计描述
频数表和频数图 集中趋势的统计描述 离散趋势的统计描述
定量资料的频数表
频数表(frequency table):将变量值和相 应频数列表,即为频数分布表,简称频数表。
在什么情况下需编频数表?
离散型定量变量的频数表
按变量的取值(次数)为单位分组,再列出各 组的频数
妇女的子女数 引体向上次数
变量类型的区分与分析的基本单位有关。
例如,患病与否的问题,若以人为基本测量和分 析单位,它是二项分类变量,但若以乡为基本测 量和分析单位,患病率则为定量变量。
统计分析的内容
统计描述:用适当的统计指标和统计图表 来表达资料的特征或规律,是统计推断的 基础 。
统计推断:用样本信息推断总体特征。
连续型定量变量频数表的编制
求全距(range):全距又称为极差,是全部数
据中最大值与最小值之差,用符号 R表示
2002年某市150名20~29岁正常成年男子的尿酸浓度 (umol/L)
362.6 359.7 285.9 300.2 333.6 334.0 288.8 338.5 341.9 344.6 337.5 298.3 364.2 367.1 338.1 316.9 332.7 324.0 282.6 369.8 398.7 338.7 308.9 392.1 368.7 352.6 378.2 346.1 278.6 318.3 323.2 322.6 382.1 322.6 309.6 352.0 372.5 399.8 335.6 341.1 371.0 355.9 362.7 368.1 332.4 405.6 328.8 358.8 405.9 362.7 316.3 338.7 402.6 379.4 329.6 354.6 331.4 349.6 419.5 324.6 329.8 357.8 312.0 313.6 338.7 328.6 291.3 329.7 361.8 392.4 414.9 319.7 327.6 395.8 358.9 289.4 366.2 387.4 298.4 408.7 389.8 362.5 354.9 352.7 316.6 348.9 348.7 401.6 334.6 308.9 367.0 345.6 401.6 357.1 304.6 338.5 388.2 355.8 329.4 321.1 320.4 313.5 339.8 409.4 387.4 378.5 392.0 352.7 376.2 388.4 344.6 308.6 347.0 428.7 369.1 311.4 376.3 349.4 289.2 366.8 371.0 387.5 413.6 348.7 392.7 401.0 313.6 366.8 387.2 319.7 329.4 357.5 348.5 346.8 406.6 357.6 338.7 341.6 349.8 289.4 366.2 357.5 298.4 336.8 387.5 342.3 366.7 387.6 332.7 329.4

02定量数据的统计描述(医学统计学)

02定量数据的统计描述(医学统计学)
-
累积频率(%)
4.3
31.1
57.6
M
72.5 85.4 92.1 96.5 98.7 99.4 99.8
100.0 -
思考
三组白鼠体重情况 甲组:26 28 30 32 34 乙组:24 27 30 33 36 丙组:27 28 28 32 35
X甲 X乙 X丙
三组体重的离散程度?
方差( variance )是将离均差平方和再取平均, 即
平均数(average):描述一组变量值的集中位置或 平均水平的指标。
常用的平均数有(算术平)均数、几何(平)均数、中 位数。
不同的分布使用不同的平均数。
一、算术均数
应用:主要适用于单峰对称分布或偏斜度不 大的资料,尤其适合正态分布资料。
例2-3 测得8只正常大白鼠总酸性磷酸酶含量(U/L) 为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。
变异系数(coefficient of variation):用于对均数相
差较大或单位不同的几组观察值的变异程度进行比较。
例3.3 测得某地成年人舒张压均数为77.5mmHg,标准差 10.7mmHg;收缩压均数为122.9mmHg,标准差为 17.1mmHg。试比较舒张压和收缩压的变异程度。
例: 某地120名7岁男孩身高的均数为 123.10cm,标准差为4.71cm;体重均数为 22.29kg,标准差为2.26kg,比较其变异度。
频数
27 169 167
94 81 42 28 14
4 3 1 630
累积频数
27 196 363 457 538 580 608 622 626 629 630

医学统计学02 定量资料的统计描述

医学统计学02 定量资料的统计描述
9
120名8岁男孩身高频数表 组段 112~
频数 f 25
频数 2
114~
21
18
7
9 14
116~
15 10 5 3
20
15 10 5 0 7
14 15 9
118~
120~
122~
1
15
21 18 15 10 5 3 1
10
2 1 身高( cm )
124~ 126~ 128~ 130~ 132~ 134~136
• 加权法
G log
1
f log X f log X ( ) log ( ) n f
1
31
注意事项
几何均数常用于等比级资料或对数正态分布资料。 观察值中若有0或负值,则不宜直接使用几何均 数。 观察值一般同时不能有正值和负值。若全是负值, 计算时可先将负号去掉,得出结果后再加上负号。
7
9 14 15 21 18 15 10
130~
132~ 134~136
5
3 1
5
• 频数(frequency)
– 观察数据的个数
• 频数分布(frequency distribution)
– 观察数据在其取值范围内的分布情况
• 定量资料的频数分布情况可以用频数表 (frequency distribution table)或直方图表 示。
9
14 15 21 18 15
7.5
11.7 12.5 17.5 15.0 12.5
18
32 47 68 86 101
15.0
26.7 39.2 56.7 71.7 84.2
– 组段的起点叫“下限”,终点叫“上

2定量资料的统计描述

2定量资料的统计描述

离散型变量的频数分布图
直条图
横坐标为产前检查次数;纵坐标为 频率,即产前检
查K次的妇女在被统计妇女中所占的比例%。图中等宽矩
形长条的高度与相应检查次数的频率呈正比。
二、连续型定量变量的频数分布
例2-2 抽样调查某地120名18岁~35岁健康男性居民血清铁 含量(μmol/L)见P12,试编制频数分布表。
二、描述离散趋势的特征数 例2-11 试观察3组数据的离散情况。 A组 26 28 30 32 34 B组 24 27 30 33 36 C组 26 29 30 31 34
1.极差(range ,R) 也称为全距,用R表示,一组资料中最大值与最小值之差。
缺点: 1)除了最大、最小值外,不能反映组内其他数据的变异度。 2)样本例数越多,抽到较大或较小变量值的可能性越大,
G
lg 1
f1 lg
X1 f2 lg X 2 ... fn f1 f2 ... fn
lg
Xn
lg
1
f lg f
X
X1,X2…Xn 为各组段的滴度或滴度倒数。 f1,f2…fn分别为各组段的频数。
例2-6 52例慢性迁延性肝炎患者的HBsAg滴度数据见表2-4, 求其平均滴度。
四、频数分布的类型
频数分布
对称分布型 偏态分布型
正偏态分布 负偏态分布
频数表的用途 1.文献中常将频数表作为陈述资料的形式。揭示频数分 布的分布特征和分布类型。 2. 便于进一步计算统计指标和进行统计分析处理。 3. 便于发现某些特大或特小的可疑值。
第二章 定量资料的统计描述
第一节 频数与频数分布 第二节 定量变量的特征数 第三节 常用统计图表
第二章 定量资料的统计描述

【精品】定量资料的统计描述

【精品】定量资料的统计描述

【精品】定量资料的统计描述定量资料的统计描述是指通过定量数据分布的一系列统计量来描述一个样本或总体的特征。

常用的统计量包括中心位置、离散程度、分布形态和相关性等。

中心位置中心位置是指数据分布的平均水平。

常用的中心位置统计量包括平均数、中位数和众数。

平均数是所有数据值的总和除以数据个数。

它具有良好的代表性,但受极端值的影响较大,因此需要谨慎使用。

中位数是将数据按大小排序后位于中间的数值,当数据存在极端值时,中位数比平均数更能正确反映数据的中心位置。

众数是数据中出现次数最多的数值,适用于分布具有明显峰值的情况。

离散程度离散程度是指数据分布的距离平均值的大小。

常用的离散程度统计量包括标准差、方差、极差和四分位数差等。

标准差是数据离均值的平均距离,是最常用的衡量数据分散程度的统计量。

方差是标准差的平方,由于平方的量级较大,因此比标准差不易解释。

极差是数据最大值与最小值之差,不考虑数据内部的分布情况,因此不具有代表性。

四分位数差是在数据中将数值分为四个部分,即25%、50%、75%三个分位点,然后用75%分位点减去25%分位点,用于描述数据离散程度。

分布形态分布形态是指数据分布的偏态和峰态。

常用的分布形态统计量包括偏度和峰度。

偏度是反映数据分布偏斜程度的统计量,正偏分布表示分布的长尾在分布的右侧,负偏分布表示分布的长尾在分布的左侧。

当偏度为0时,表示分布是对称的。

峰度是反映数据分布峰态的统计量,正峰分布表示分布的峰在分布的中心较高,负峰分布表示分布的峰在分布的中心较低。

当峰度为0时,表示分布的峰态基本接近正态分布。

相关性相关性是指两个变量之间的关联程度。

常用的相关性统计量包括相关系数和协方差。

相关系数是反映两个变量之间线性相关程度的统计量,取值范围为-1~1之间,正值表示正相关,负值表示负相关,0表示不相关。

协方差是反映两个变量之间相关性的统计量,数值大小表示两个变量之间的相关程度,但由于单位的影响,不易比较。

第02章 计量资料的统计描述课件

第02章 计量资料的统计描述课件

组段数 5;组距 10分
表2.1 某医院产科某月顺产婴儿出生身长(单位:cm) 48 48 47 42 53 49 45 50 48 52 49 57 46 48 46 42 49 51 50 51 56 42 59 49 48 52 42 49 55 53 51 45 47 47 47 50 48 51 51 53 46 47 57 45 46 51 46 51 47 51 55 47 52 47 48 54 47 54 49 44 53 54 45 48 44 48 42 47 48 50 55 50 53 56 49 50 56 41 53 53 49 44 49 48 45 52 52 46 54 50 44 53 49 47 48 45 51 45 50 53
(1)直接法—根据样本含量的奇偶选择公式
n为奇数时 n为偶数时
M X ( n1) 2
1
M
2
X(n) 2
X ( n 1) 2
例2-6:9只大鼠存活天数如下: 4,10,7,3,15,2,9,13,>60 则这9只大鼠的平均存活天数为多少天?
排序:2,3, 4, 7, 9,10 ,13, 15, >60 故这9只大鼠的平均存活天数为9天。
-
二、频数分布图
图2.1 100名顺产婴儿出生身长的频数分布
频数
三、频数表和频数分布图用途
1、描述频数分布的类型
25 20 15 10
5 0
图 2 - 2 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布
血 清 总 胆 固 醇(mmol/L)
对称分布:各组段的频数以频数最多组段为中心左右两侧大体对称。
PX
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
百分位数(percentile, Px): 对总体来说,它表示总体中数值小于的Px 个体恰有x%。 对样本来说,它表示在按照升序排列的数 列里,小于Px的个体数在整个样本中所占 百分比为x%。 显然,中位数就是P50。
样本百分位的计算公式为:
i n x% f L Px L fx
5 0 7.0 11.0 15.0 19.0 23.0 27.0
ª å ú Ñ Ç Ì (umol/L)
0.08
0.04
图2-3 120名健康成年男子血清铁含量频率密度直方图
问题: 频数直方图与频率密度直方图的意义是否 一样?
表2-3 187例某种沙门氏菌食物中毒潜伏期分布
潜伏期(小时) 0--12--24--频数 35 70 40 累计频数 35 105 145
1)算术平均数:描述对称分布资料的平均水平
总体的算术均数常用表示, 样本的算术均数则在变量上加一横,如X, Y
f x X f
i i i i
i
x1 x2 ... xn X n
x
i 1
n
i
n
某公司员工工资情况(单位:元)
月工资x 800 1000 1200 1500 2000 员工数f 5 10 20 7 5 员工比重 f/Σf 0.10 0.20 0.40 0.14 0.10 f· x 4000 10000 24000 10500 10000 x· f/Σf 80 200 480 210 200
1)极差: R= 最大值 – 最小值
A: 26 28 30 32 34 B: 24 27 30 33 36 C: 26 29 30 31 34
极差: 计算方便; 只考虑两个极值; 与n有关,用于比较是需注意。
2)四分位数间距:
QR = P75 – P25
四分位数间距:
包抱总体中数值居中的50%的个体;与 全距的区别仅仅在于计算范围较窄。 计算时没用到每个个体的数值; 其值越大,说明变量变异越大。
2、连续型定量变量的频数分布 问题: 1)何为连续型定量变量? 2)其与离散型定量变量有何区别? 3)连续型定量变量的频数分布表该如何绘 制?
例2-2 抽样调查某地120名18岁到38岁健康男性居民 血清铁含量(umol/L),数据如下。试编制血清铁资 料的频数分布表。 7.42 8.65 23.02 21.61 9.97 22.73 14.94 20.18 21.62 23.07 20.38 8.40 17.32 29.64 19.69 21.69 23.90 17.45 19.08 20.52 24.14 ……. 14.18 16.52
变量频数分布的类型: 1)对称分布 2)偏态分布: 正偏峰(positive skew )分布(向左偏) 负偏峰 (negative skew) 分布(向右偏)
变量频数分布的两个特征 1)集中趋势(central tendency) 2)离散趋势 (tendency of dispersion)
3)中位数:可用于各种分布的定量资料。指总体中有一半个体 的数值低于这个数,一半个体的数值高于这个数。 对于样本资料,有如下计算公式:
n为奇数时:
M X n 1
2
n为偶数时:
1 M Xn Xn 1 2 2 2
对于频数表资料,可用百分位数的方法计 算中位数。
3、与中位数相比,算术平均数对数据变化的 “灵敏度”很高。但算术平均数极容易受到 个别极端值的影响,即对极端值的“耐抗性” 较低。“灵敏度”与“耐抗性”是一对矛盾, 实际应用中,可根据这些特点和分析的要求, 审慎的选择有关指标。(分布类型) 4、适用资料的类型:算术平均数和中位数均 适用于定量资料,但中位数还适用于有序分 类资料。
甲市 乙市 人均年收入 6000 12000 标准差 150 180 四分位数 3200 3500 变异系数% 2.5 1.5
乙市年收入与标准差均高于甲市,是否可认为乙市收入差距高于 甲市呢? 变异系数显示:乙市居民的收入差距相对于他们的平均收入来说, 比甲市要低的多。 故以居民对收入差距所承受的压力而言,甲市比乙市要高。
描述统计量的一般应用总结表 对称分布 平均 水平 变异 程度 算术均数 偏态分布 中位数 开口数据 中位数 等比级数资料 几何均数 中位数
标准差 方差 变异系数 全距
四分位数间距 四分位间距 对数标准差 全距 全距
问题: 均数、方差(标准差)常用来描述对称分布 资料,为什么?
3)方差,又称均方差(mean square deviation)

2

X
i
i

2
N
x 26 28 29
X-u -4 -2
(x-u)2 16 4
30
32 34 合计
0
2 4 0
i
0
4 16 40
2

2

X
i

N
40 8 5
S
2
X
i
i
X
2
n 1
Xi i n n 1
频率(%)
4.2 7.3 11.5 13.5 27.1 24.0 12.5 100.0
累计人数
4 11 22 35 61 84 96 ——
累计频率(%)
4.2 11.5 22.9 36.5 63.5 87.5 100.0 ——
¼ Í 2-1 Ä µ 96Ã ¸ Å ² Ç ¼ ² ´ Ê ²² Í ³ Ø û ¾ ® ú °ì é Î ý Ö ¼ ¼ µ ý Æ Ê 30 25 20 15 10 5 0 0 1 2 3 4 ú °ì é Î ý ² Ç ¼ ² ´ Ê 5 >5
表2-2 120名正常成年男子血清铁含量( umol/L)频数表
组段
6--8--10--12--14--16--18--20--22--24---
频数
1 3 6 8 12 20 27 18 12 8
频率(%)
0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67
1、离散型定量变量的频数分布 例2-1 1998年某山区96名孕妇产前检查次 数资料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5,……,4,7。
表2-1 1998年某地96名妇女产前检查次数频数分布
检查次数
0 1 2 3 4 5 >5 合计
频数
4 7 11 13 26 23 12 96
2500
合计
3
50
0.06
1.00
7500
66000
150
1320
四个同学成绩: 20, , , ,则平均成绩 60 70 75 20 60 70 75 225 X= = =56.25 4 4
2)几何平均数:个体变化范围越过多个数量级的资料
G
n
x1 x2 ...xn
log X 1 i G log n
变异系数无量纲,可用于量纲相同、或不同的变量变 异程度大小的比较。
变异程度指标总结:
全距、四分位数间距:具有绝对数的形式 方差:离均差平方的算术平均数 标准差:离均差平均数的形式。
共同点:都有具体计量单位,都受计量单位 的影响(英尺、米;美元、英镑)
变异系数:是一类相对数形式的变异指标。排除计 量单位对计算结果的影响。
二、
定量变量的特征数
(描述定量变量的统计指标、 或定量变量的数值特征)
1、描述集中趋势的统计指标(平均数 average) 1)算术均数(arithmetic mean),简称均数 2)几何均数(geometric mean, G) 3)中位数(median, M) 4)众数(mode) 5)调和均数(harmonic mean, H)
第二章 定量资料的统计描述
问题1: 何为定量资料? 问题2: 何为统计描述(statistical description)?
统计描述:用统计表、或统计图、或 统计指标(描述统计量)概括和揭示 资料(data)的数量信息和特征。 目的使资料简洁、明了,便于人们了 解资料的规律性。
一、变量的频数分布
频数(frequency):重复某随机试验,某 随机事件出现的次数,称为频数。 频数分布表(frequency distribution table) 简称频数表(frequency table):含有组 段与频数的统计表,称频数表。 直方图(histogram):为直观反映频数表, 利用直角坐标系绘制频数图,横轴表示变 量的“各种情形”,纵轴表示频数、或频 率、或频率密度。
2
S
2

X
i
2 i
4)标准差:方差的算术平方根,即为标准差。
S
X
i
i
X
2
n 1
标准差与方差的含义类似, 值越大,说明变量的变异越大, 都适合用来表达对称分布的离散趋势。 两者不同的是量纲不一样。
5)变异系数:标准差与均数之比,即为变异系数。 用于描述对称分布资料的变异程度。
S CV 100% X
5)调和均数:先求原始数据的倒数的算术均数, 该算术均数的倒数便称为原始数据的调和均数。
H
1 1 n

i
1 xi
问题:算术平均数与中位数的区别与联系 1、都是用来表示总体的一般水平或分布的集 中趋势,都属于抽象化的代表值。 2、代表的意义不同: 算术平均数是对所有变量值来计算的平均 数,它能概括反映整个数列中每个变量值的 平均水平; 中位数则是根据总体中处于中间位置上的 少数变量值来确定的代表值。 从这一点来说,算术平均数对数据的概括 能力比中位数显然来的更强一些。
式中:L为所求百分位数所在组段的下限; i为该组段的组距; f x为该组段的频数; n为总频数; f L为该组段之前的累计频数。
相关文档
最新文档