计量资料的统计指标
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
小结
z 同质的资料计算平均数才有意义 z 根据资料分布的特征选用适当的平均数
{ 均数:正态分布、单峰对称分布的资料 { 几何均数:等比资料、滴度资料、正偏态资料,呈对数正态分布 资料 { 中位数:理论上可用于任何分布资料,但当资料适合计算均数或 几何均数时,不宜用中位数。 (偏态分布、分布不明资料、有 不确定值的资料)
频数分布和频率分布性质
110名7岁男孩身高频数表
组段 106109112115118121124127130133-136 频数 2 6 13 21 24 17 15 9 2 1 累计频数 2 8 21 42 66 83 98 107 109 110 频率 1.82 5.45 11.82 19.09 21.82 15.45 13.64 8.18 1.82 0.91 累计频率 1.82 7.27 19.09 38.18 60 75.45 89.09 97.27 99.09 100
组
段 (1) 124 ~ 128 ~ 132 ~ 136 ~ 140 ~ 144 ~ 148 ~ 152 ~ 156 ~ 160 ~
频
数 (2) 1 2
累计频数 (3) 1 3 13 35 72 98 113 117 119 120
累计频率 (4) 0.83 2.50 10.83 29.17 60.00 81.67 94.17 97.50 99.17 100.00
频率密度图性质(n→∞)
•现(n≠110),假定在该地区随机抽了n个7岁男孩并 且n→∞,则各个组段的频率→各自的概率 •身高为各个组段的概率=各个组段的直方条面积 •各个组段的面积(概率)之和为1
频率密度图性质概率)为0.064 [118,121)的直方条面积(概率)为0.073 则身高在[115,121)的概率为 [115,121)的直方条面积= 0.064+0.073= 0.137
年龄组 1~2 月 5~6 月 3~3.5 岁 5~5.5 岁
人数 100 120 300 400
均数 56.3 66.5 96.1 107.8
n甲=5 n乙=5
24, 27, 30, 33, 36 X 乙 =30 kg
z 上述两组数据的特点:
{ 集中位置 相同:均为30kg { 离散程度不同:各观察值离均数的远近不同
二、描述离散程度的指标
全距(Range) 亦称极差,记为R,是一组变量值中最大值 与最小值之差。 优点:简单明了 缺点:不灵敏、不稳定
10 22 37 26 15 4 2 1 120
合
计
百分位数例
z 利用上表,求P50,P25,P75
P50 = 140 + 4 × (120 × 50% − 35) = 142.94(cm) 37
4 P25 = 136 + × (120 × 25% − 13) = 139.09(cm) 22 P75 = 144 + 4 × (120 × 70% − 72 ) = 146.78(cm) 26
CV =
s X
× 100%
变异系数的两个特点及相应的用途
z 没有单位
{ 反映标准差占均数的百分比或标准差是均数的几倍 { 可用来比较度量衡单位不同的资料的变异度
例3.6 身高和体重的变异
z 不受平均水平的影响
{ 反映的是以均数为基数的相对变异的大小 { 比较均数相差悬殊的资料的变异度
表 2.4 某地年龄儿童身高(cm)的变异
各个组段的频率之和(累计频率)=1
频率密度图(纵坐标为频率/组距)
每个直方条的面积=纵坐标×组距=(频率/组距)×组距=频率 各个直方条的面积之和=各个组段的频率之和=1
频率密度图性质
•身高<112cm的频率=组段[106,109)和[109,112)的频率之和= [106,112)的直方条面积。 •112cm≤身高<118cm的频率=[112,118)的直方条面积
计量资料的统计指标
上海交通大学医学院 生物统计教研室 宋艳艳
定量资料指标描述
集中趋势(集中位置):算术平均数 几何均数 中位数 百分位数 离散趋势(变异程度):极差、四分位数间距、方差、标准差
扔“硬币”实验
实验者 德.摩根 蒲丰 K.皮尔逊 K.皮尔逊 n 2048 4040 12000 24000 m正 1061 2048 6019 12012 f n(正) 0.5181 0.5069 0.5016 0.5005
百分位数是一种位置指标,第x百分位数用Px 表示。在该序列中,有x%的观察值小于 它,(100-x)%的观察值大于它。因此, 中位数实际上是一种特殊的百分位数。
X% PX 50%分位数就是中位数
(100-X)%
PX = L + i ( n ⋅ X % − ∑ f L ) / f
z 其中 L:P所在组下限 i:P所在组组距 f:P所在组频数 n:样本例数 ΣfL:小于P所在组的各组段累计频数
小结
z 计算几何均数时:
变量值中不能有0 同一组变量值不能同时存在正、负值 若变量值全为负值,可先将负号除去,算出结果后再冠 以负号
z 样本含量较少时不宜计算靠近两端的百分位数 z 平均数要与变异指标结合使用
z 有甲、乙两组同性别同年龄儿童体重(kg):
甲组 乙组 26,28,30,32,34
X 甲 =30 kg
概率密度曲线
.08
probability density curve
.06
d e n s ity
.04
.02
0 80 100 120 x 140 160
当n→∞,直方条面积(频率)→各自的概率 然后组距→0时,直方条的宽度→0,直方条→垂直 线,各个直方条顶点间的连线构成一条光滑的曲线, 即:概率密度曲线,而曲线下(直方条)的总面积始终 为1,身高在区间[a,b]的概率=对应曲线段下的面 积(直方条面积) 。
lg G = (lg 7 + lg10 + " + lg 20) / 6 = 1.1045 G = 12.7(天)
z 适用条件: 成倍数关系的资料如抗体滴度、效价 经对数变换后呈正态分布的资料如某些传染 病的潜伏期。
z 中位数(median)用M表示,它将总体或样本的全 部观察值分成两部分,、每部分各有50%个观察 值,其计算方法为:先将原始观察值按由小到大 顺序排列后,位次于中间的那个观察值为中位 数。观察值数为奇数时,处于中间的那个数为中 位数。偶数时处于中间的两个数的均数为中位 数。
方差(Variance)和标准差(Standard Deviation)
σ
2
(X − μ) ∑ =
N
2
σ=
∑( X − μ)
N
2
s=
∑ (X − X )
n −1
2
标准差显示一组变量值与其均数的间距, 故标准差直接地、总结地、平均地描述了 变量值的离散程度。
z 变异系数(coefficient of variation) {亦称离散系数(coefficient of dispersion),是 标准差s与均数之比,即:
x1 + x2 + " + xn x =∑ x= n n
例3.1 8名7岁男童的体重分别为17.5 18.0 20.2 21.2 22.3 22.5 23.1 24.0
z 2)加权法:
z 对于频数表资料,用组中值[(下限+上限)/2]代 替某一组段的实际取值。
fx ∑ x= ∑f
组段 3.9~ 4.1~ 4.3~ 4.5~ 4.7~ 4.9~ 5.1~ 5.3~ 5.5~ 5.7~5.9
正态分布的参数
z 如果变量X的概率密度函数服从上述函数,则称该变
2 量服从正态分布。记做 X ~ N ( μ , σ )
z 总体均数(位置参数) μ :描述正态分布的集中趋势的 位置 z 总体标准差(变异度参数) σ :描述正态分布离散趋 势, 越小,分布越集中,曲线形状越 “瘦高”;反之越“矮胖”。 z 正态曲线的形状由 μ , σ 两个参数决定
2 3 4 5 适用条件: 1 正态分布或单峰对称分布的资料
6
7
8
2、几何均数(geometric mean,G)
计算公式 G = n x1 x2 " xn = (∏ x)
1 n
对数计算
log G = ∑ log x / n
log G = ∑ f log x / ∑ f
z p39
G = 6 7 × 10 × 12 × 14 × 18 × 20 = 12.7(天)
⎧ X ( n +1) / 2 M =⎨ ⎩ ( X n / 2 + X n / 2 +1 ) / 2 当 n 为奇数 当 n 为偶数
z 例3.3
7,10,12,14,18,20
M = (12 + 14) / 2 = 13(天)
z 如再增加一个数据15,则n=7,为奇数,取 中间的那个数为中位数,有: z 7,10,12,14,15,18,20这组数据的 中位数M=14。
组中值 4.0 4.2 4.4 4.6 4.8 5.0 5.2 5.4 5.6 5.8
频数(f) 4 5 8 12 19 21 31 8 9 3
∑ f = 120
特性:1. 2.
∑ (x − x ) = 0
2 2 ( x − x ) 〈 ( x − a ) ∑ ∑
几何意义: 均数代表每组观察值的平衡点,也就是重心。如:(1,4, 7,8)则均数为5。则图示如下:
频率具有波动性,但当n越来越大时,频率趋于某 个稳定的常数(概率),所以只要观察单位数充分 多,可以将频率作为概率的估计值。
通过例子介绍概率密度曲线的意义
例:在某地区7岁正常发育的男孩中随机抽110个人, 测量他们的身高,并以身高观察值(cm)为数据,试 刻画7岁男孩身高分布。
112.6 128.7 124.1 117.1 117.2 107.7 122.1 114.2 118.5 114.6 120.9 122.0 122.3 115.5 116.4 114.6 122.1 120.4 119.4 120.0 115.3 121.5 114.2 117.6 123.2 117.1 112.6 113.4 119.7 124.6 126.6 123.0 114.4 116.5 123.4 118.6 115.8 116.6 129.0 110.8 125.3 114.8 123.9 111.6 115.7 120.7 122.8 119.1 118.4 128.4 124.0 117.8 112.0 118.2 125.6 124.7 130.6 124.1 121.2 119.2 107.4 119.4 125.2 119.3 127.6 128.7 128.3 121.6 117.8 115.1 116.1 124.4 119.1 124.1 115.3 123.1 113.0 109.4 121.7 124.0 124.3 111.9 120.9 122.1 115.8 118.0 118.8 119.3 109.8 118.1 110.6 132.8 117.1 126.8 128.1 133.3 120.1 119.1 113.7 122.3 114.5 116.8 129.9 115.6 125.5 123.8 117.0 128.2 119.0 119.9
正态分布的概率密度
z 正态曲线(normal curve):高峰位于中 央,两侧逐渐下降并完全对称,曲线两段 永远不与横轴相交的钟型曲线。 z 正态曲线的函数表达式 度函数:
f (x) 称为正态分布密
( x − μ )2 2σ 2
− 1 f ( x) = e σ 2π
正态分布曲线的特点
z 始终位于横轴上方 z 关于 μ 左右对称,正态高峰位于中央 z 在 μ 处取得该概率密度函数的最大值,在 x = μ ± σ 处有拐点,表现为钟形 z 靠近 x = μ 处曲线下面积较为集中,两边减少,意 味着正态分布变量取值靠近 x = μ 处的概率较 大,两边逐渐减少 z 正态分布的总体偏度系数和峰度系数均为0
数据分布的特征
集中趋势 (位置) 离散趋势 (变异程度) 偏态和峰度 (形状)
集中位置的描述----平均数(average)
1、算术平均数( arithmetic mean, mean):简称均数 总体均数(population mean)--- μ 样本均数(sample mean)--- χ 1)直接法: