第十五章 数值变量的统计分析1- 2013.1.28
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6561
20667 57800 75690 150499 190463 224874
94~
96~ 98~ 100~ 102~ 104~106
2013-11-2 合计
24
17 10 6 2 1 150
95
97 99 101 103 105 6
2280
1649 990 606 206 105 13918
3,8,9,15,19,20,23,25,30,求中位数。
解:n=10 为偶数
特点:仅 利用了中 间的1~2 个数据
1 n为偶数时:M X n X n 2 2 1 2 1 1 M X 5 X 6 15 19 17(天) 2 2
84~
86~ 88~
8
10 19
85
87 89
680
870 1691
57800
75690 150499
90~
92~ 94~ 96~ 98~ 100~ 102~
23
26 24 17 10 6 2
91
93 95 97 99 101 103
2093
2418 2280 1649 990 606 206
190463
…
… …
…
… …
…
… …
…
… …
…
…
…
…
…
… … … … … … … … … … … …
表15-1
组段
某市150名3岁女孩身高的频数分布
f x fx fx2
80~
82~ 84~ 86~ 88~ 90~ 92~
1
3 8 10 19 23 26
81
83 85 87 89 91 93
81
249 680 870 1691 2093 2418
从中央部分到两侧(身高值从中等水平到较低或较高水平) 的频数分布逐渐减少,是为离散趋势。
集中趋势和离散趋势是频数分布的两个重要侧面,从 这两方面就可全面的分析所研究的事物。
(三)频数分布的类型 频数分布又可分为对称分布和偏态分布 对称分布:集中位置在正中,左右两侧频数分布大
体对称
偏态分布:集中位置偏向一侧,频数分布不对称
(一)算术均数
(arithmetic mean)
又简称为均数(mean)
定义:是反映一组观察值在数量上的平均水平。 总体均数用希腊字母 表示,样本均数用 x 表示 应用: 对称分布,特别是正态分布或近似正态分 布的数值变量资料 计算方法: 直接法: 加权法:
一、算术均数
计算方法
• 离散趋势指标:极差、标准差
第一节 数值变量资料的频数分布表与频数分布图 (一)频数分布表的编制 一、频数分布表的编制 例15-1 某巿用随机测量了150名3岁女孩身高 (CM)资料如下,试编制频数分布表。
80.1
100.1
97.0
96.7
97.9
100.7 …
…
…
…
…
82.5
84.4 87.2 89.3 89.1 91.3 90.5
f1 x1 f 2 x2 f 3 x3 ... f n xn x f1 f 2 f 3 ... f n
fi为各组段的频数 xi为各组段的组中值
fx f
i
i
表15-1
组段 80~ 82~
某市150名3岁女孩身高的频数分布
f 1 3 x 81 83 fx 81 249 fx2 6561 20667
第十五章
数值变量的统计分析
第十五章
数值变量的统计分析
第一节
一、数值变量资料的频数分布表与频数分布 图 二、集中趋势的描述
三、离散趋势的描述
四、正态分布和医学参考值范围的估计
常用的描述定量资料分布规律的统计方法 有两类:
统计图表:频数分布表/图 选用适当的统计指标:
• 集中趋势指标:均数、中位数
频数分布明显偏态,各观察值之间呈倍数变化(等比 关系),此时宜用几何均数反映其平均增减倍数。 应用:等比资料或对数正态分布资料 计算方法:
直接法 加权法
(二)几何均数 计算方法: 直接法:直接将n个观察值( x1,x2,x3,…,xn )的乘
积开n次
公式
G=n x1 x2 x3 ..., xn
请大家思考下:计算中位数和其他平均数有什么不同?
计算方法:
• 用频数表计算中位数, – 按所分组段,由小到大计算累计频数和累计频率。 – 再按下面公式计算为:
i M L (n 50% f L ) fm
i M L (n 50% f L ) fm
(n 50% f L )
下限值L 中位数M
i; fm
上限值U
表15-4 181名食物中毒患者的潜伏期 天数 0~ 12~ 24~ f 30 63 47 累计频数 30 93 140 累计频率% 16.57 51.38 77.35
36~
48~ 60~
20
12 8
160
172 180
88.40
95.03 99.45
72~84
写成对数形式为
lg x1 lg x2 ... lg xn G lg ( ) n 几何均数: 变量对数值 lg x ) lg 1 ( 的算术均数 n 的反对数。
1
二、几何均数
例15-2 体效价。
本例先求抗体效价的倒数,再求几何均数
设有5人的血清抗体效价为1:10,1:
(positive skewed)
正偏态分布:峰偏左,尾部向右侧延伸 如:以儿童为主的传染病发病人数的分布 右偏态
负偏态分布:峰偏右,尾部向左侧延伸
如:以老年人为主的慢性病发病人数的分布
负偏态分布
(negative skewed)
左偏态
频数分布图 绘制频数分布直方图 坐标轴
横坐标:变量值即研究指标,无需从0开始,以单位尺度 划分。 纵坐标:为频数f,必须从0开始(f为每一组段内的人数)
2
n为偶数时:M X n X n 2 1 2 2
n 1 n n ( )、 )、 1)为有序数列中观察值的位次 ( ( 2 2 2 位次上的观察值 x n 1、x n、x n 为相应为此上的观察值
2 2 2 1
例15-4 某病患者10人的潜伏期从小到大排列为1,
直条
直条的宽度:组距 直条的高度:每一组段的频数
10
15
20
25
30
0
80 ~ 82 ~ 84 ~ 86 ~ 88 ~ 90 ~ 92 ~ 94 ~ 96 ~ 98 ~ 10 0~ 10 2~ 10 4~ 10 6
5
频数分布图
图15-1 某市150名3岁女孩身高的频数分布
二、 集中趋势的描述
224874 216600 159953 98010 61206 21218
104~106
2013-11-2 合计
1
150
105
20
105
13918
11025
1294566
(一)算术均数
组中值=(下限+上限)/ 2
fx x f
i i
13918 92.79(cm) 150
(一)算术均数
100,1:1000,1:10000,1:100000,求平均抗
lg10 lg100 ... lg100000 G lg 1000 5
1
血清抗体的平均效价为1:1000
二、几何均数 计算方法:
加权法:当资料中相同观察值得个数f(即频数)较
多时,如频数表资料
(一)算术均数(arithmetic mean) (二)几何均数(geometric mean) (三)中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组变 量值的集中位置,代表其平均水平或是集中位置 的特征值。
某公司员工工资,请描述平均水平 1、1800,1900,1900,2000,2000,2000, 2000,2100,2100,2200, 平均工资为2000.
…
… … … … … …
…
… … … … … …
…
… … … … … …
…
… … … … … …
92.4
92.6 94.7 94.8
90.0
90.0 92.8 92.3
88.0
90.8 90.3 93.3
90.7
90.1 92.8 93.1
90.1
93.2 93.6 95.1
93.8 …
94.4 … 97.0 … 97.0
f1, f2,…,fk分别为各组段的频数,这里的f起到 了“权数”的作用,它权衡了各组中值由于频数 不同对均数的影响。即频数多,权数大,作用也 大;频数少,权数小,作用也小,故称为加权法。 92.79≈93.27cm
(二)几何均数
(geometric mean)
定义:有些医学资料,如抗体滴度、细菌计数等,其
2、1800,1900,1900,2000,2000,2000, 2000,2100,2100,10000 平均工资为2800,合理吗?
请描述以下资料中变量的平均水平 1、8名某病患者血清抗体滴度为:1:2,1 :4,1:8,1:16,1:32,1:64,1: 128。 2、某医院收治某癌症患者6人,其生存时 间(月)分别为10,8,19,6,20,≥25
正偏态分布:集中位置偏向年龄小的一侧 负偏态分布:集中位置偏向年龄大的一侧
不同类型的分布,应采用相应的统计分析方法。
正态分布 ( normal distribution )
中间高、两边低、左右对称属于对称分布的一种 许多医学资料都属于这种分布,例如人体正常的生理生化指标
正态分布
正偏态分布
216600
159953 98010 61206 21218 11025 1294566
(二)频数分布的特征 从频数表可以看到频数分布的两个重要的特征
集中趋势(central tendency)
身高值向中央部分(中等水平)集中,以中等水平的身高值 者居多,是为集中趋势。
离散趋势(tendency of dispersion)
102.6
104.8 83.5 84.2 86.5 89.7 88.9
99.1
101.3 103.2 82.3 85.0 87.4 88.1
96.6
98.7 101.6 84.5 87.6 89.8 88.2
99.3
101.5 84.4 87.9 89.3 88.7 90.7
85.2 …
87.1 … 88.4 … 89.4 … 90.4 … 90.2 … 93.0 …
三、中位数 (median)
定义:是将一组观察值从小到大按顺序排列,位 次居中的观察值就是中位数。
X: 5,5, 6, 7, 20,
位次: 1 2 3 4 中位数(M): 6 5
23
6
6.5
计算方法: • 直接由原始数据计算中位数 先将观察值按大小顺序排列,再按下面公式计算:
n为奇数时:M X n 1
直接法:即将所有观察值x1,x2,x3,…,xn直接相加 再除以观察值的个数,写成公式
x1 x 2 x3 ... x n x n
x 为样本均数, n为变量值个数,
Σ表示求和
x
n
一、算术均数
例 有10名3岁女孩身高(CM)分别为92.5,82.5,
102.6,99.1,96.6,99.3,85.2,89.2,90.6,95.1,求 算术均数。
1
181
100.00
M L i
n 50% f L fm
12 12 (181/ 2 30) 23.52(h) 63
中位数的特征
1. 反映了位次居中的观察值的水平 优点:不受两端特大值和特小值影响 缺点:并非考虑到每个观测值
2. 适用于各种分布类型的资料,
写成公式wenku.baidu.com
G lg
1
f lg x ) ( f
二、几何均数 注意事项
等比资料,如:抗体的平均滴度、药物的平均效价、卫生事业平 均发展速度、人口的几何增长 对数正态分布:是右偏态分布
观察值不能有0,因为0不能去对数,不能与任何其他数呈倍数
关系。 观察值不能同时有正值和负值。若全是负值,计算是可以把负号 去掉,得出结果后再加上负号。 同一组资料求得的几何均数小于算术均数。
x (92.5 82.5 95.1) /10 93.27(CM)
(一)算术均数
计算方法 加权法(weighting method)
当资料中相同观察值的个数较多时,可将相同观察值的个数, 即频数f,乘以该观察值x,以代替相同观察值逐个相加。
对于频数表资料,用各组段的频数作f,以相应的组中值 (class mid-value)作x。组中值=(下限+上限)/ 2 公式