实验一计量资料频数表的整理与统计描述
医学统计学-定量资料的统计描述

11/21/2014
1
计量资料的统计描述
统计图表
频数表 频数/频率图 集中趋势 离散趋势
统计指标
2
频数表
某市1995年104名7岁男童身高资料
119.6 121.5 126.1 124.0 125.3 113.6 123.1 116.7 111.2 116.7 123.3 121.9 125.0 126.4 124.6 123.6 127.6 122.7 132.4 124.3 129.9 120.3 125.1 125.9 125.6 118.7 123.6 120.5 126.6 129.3 124.2 128.5 125.7 117.0 123.2 118.9 119.1 126.4 113.6 127.8 121.7 124.7 126.5 115.4 126.6 130.4 121.9 115.5 130.2 125.9 115.0 121.7 122.8 124.7 122.0 124.9 118.0 119.2 128.3 110.5 120.4 121.3 120.1 120.1 127.6 125.8 117.0 114.0 118.2 124.8 122.1 124.1 118.2 123.0 125.1 126.1 114.6 123.4 124.7 115.2 127.0 119.9 122.5 122.8 120.1 120.9 123.9 126.6 122.4 119.4 135.3 121.7 127.7
19
偏态分布资料统计描述---百分位 数
百分位数(percentile):位置指标,用于描述观察 值序列中某百分位上的数值大小
计量资料的统计描述2-3h

2
例 某医学院用自编生存质量量表测量3组同年 龄、同性别中年知识分子 的躯体功能维度得 分。
甲组: 8 8 9 10 11 12 12 乙组: 5 6 8 10 12 14 15 丙组: 1 2 5 10 15 18 19 求标准差?
X X S n 1
X M 10
描述集中趋势的指标: 1. 算术均数 (均数, mean)
小样本—直接计算 大样本– 加权法 均数的特点: • 各观察值与均数之差(离均差)的总和等于零 • 各观察值离均差平方和最小
适用条件:
适用于描述单峰对称分布,特别是正态分布 或近似正态分布的资料
2. 几何均数 (geometric mean, G)
横轴---要用途
1. 揭示频数分布的特征 集中 或 离散 2. 揭示频数分布的类型 对称分布: 偏态分布:
3. 便于发现特大或特小的可疑值
4. 便于进一步计算统计指标和进行统计分析
二、 平均水平指标
直接法:
例2 现有12名5岁女孩的身高值分别为112.9, 99.5,100.7,101.0,112.1,118.7,107.9, 108.1,99.1,104.8,116.5,试问平均身高是多 少?
适用条件: 原始观察值呈偏态分布,但经过对数变换 后呈正态分布或近似正态分布的资料,如 血清抗体滴度、细菌计数等。 应用时注意事项: • 几何均数常用于等比资料或对数正态分布资料
• 观察值中若有0或负值, 则不能直接使用几何 均数 • 若观察值都是负值,将负号去掉后计算,再 把结果加上负号
3. 中位数 (median,M)
i M LM n 50% fL fM
LM: 中位数所在组段下限 i : 中位数所在组段的组距 fM : 中位数所在组段的频数 ΣfL: 中位数所在组段前一组的累积频数
医学统计学计量资料的统计描述

正确应用集中趋势指标
• 算数均数:适用于单峰对称分布资料; • 几何均数:适用于变量值呈等比级数关系和呈对
数正态分布的资料; • 中位数和百分位数:适用于任何分布的资料,但
在样本含量较少时不稳定,越靠两端越不稳定; • 中位数在抗极端值的影响方面,比均数具有较好
• 计算公式: Q= QU - QL = P75 - P 25 • 意义: Q值越大,说明变异程度越大。
• 特点:包括了居于中间位置50%的变量值,该指
标比全距稍稳定,但仍未考虑每个观察值。
某传染性疾病的潜伏期(天)
平均偏差(mean difference)
• 定义:各观察值偏离平均数的绝对平均差距 • 计算公式:
差、标准差。
极差(range)
• 表示法:R • 定义:一组资料中最大值与最小值之差。
• 计算公式: R = max-min
• 意义:反映个体变异范围的大小。R越大,变异度(离
散程度)越大, R甲=188-142=46、R乙=166-158=8
• 优点:计算简便,概念清晰,如说明传染病、食物中毒 的最长、最短潜伏期等
125.5296
若应用算术均数为:
问题:
• 为什么表达该资料的平均水平宜用几何均 数?
• 几何均数适用条件是什么? • 何种情况不宜计算几何均数? • 利用频数表计算几何均数时应注意什么?
几何均数的应用
• 几何均数适用于变量值呈等比级数关系和呈对数 正态分布的资料;有些呈轻度偏态分布的资料经 过对数变换后呈对称分布的资料。
• 算术均数 • 几何平均数 • 中位数 • 众数
算术均数(mean)
实验一 计量资料的统计描述、参考值范围、可信区间

N(100 ,σ2) N(150 ,σ2)
max
N(µ,0.52) N(µ,12) N(µ,22)
σ =0.5
f(x)
f(x)
σ =1 σ =2
0
µ1 µ2
0
µ
正态曲线下的面积分布规律
µ±1σ 占正态曲线下面积的 68.27% 占正态曲线下面积的 95.00% 占正态曲线下面积的 99.00%
代替, 代替。 x代替,σ用 s 代替。
X + 1.96S
X + 2.58S
(1)百分位数法 )
表 3-2
百分范围(%) 95 99
参考值范围所对应的百分位数(偏态分布资料) 参考值范围所对应的百分位数(偏态分布资料) 位数 分布资料
单 下限 测 上限 下限 双 测 上限)
P5 P1
P95 P99
P2.5 P0.5
P97.5 P99.5
某地150名正常成年男子红细胞数(1012/L) 名正常成年男子红细胞数( 某地 名正常成年男子红细胞数 ) 正态分布图
正偏态
图4-4 某地居民 某地居民235人发汞含量(µmol/kg)分布 人发汞含量( 人发汞含量 )
负偏态
图4-5 某地居民糖尿病人年龄的频数分布图
正态分布的图形
2.正态分布的特征 2.正态分布的特征
计量资料的统计描述、 实验一 计量资料的统计描述、 参考值范围、 参考值范围、可信区间
一、目的与要求
掌握:数值变量统计描述指标( 掌握:数值变量统计描述指标(集中和离散 趋势指标)的计算、适用条件及意义。 趋势指标)的计算、适用条件及意义。 掌握:正态分布的特点和面积分布规律、 掌握:正态分布的特点和面积分布规律、参 考值范围的估计方法。 考值范围的估计方法。 掌握:总体均数的置信区间及估计方法。 掌握:总体均数的置信区间及估计方法。 熟悉:频数表的编制步骤。 熟悉:频数表的编制步骤。
计量资料的统计描述

1︰ 2 1︰4 1︰8 1︰16 1︰32 1︰64 1︰128
2 11 18 36 22 8 3
2 4 8 16 32 64 128
0.3010 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072
0.6020 6.6231 16.2558 43.3476 33.1122 14.4496 6.3216
含义 离散趋势是指计量资料所有观察值偏离中
心位置的程度,反映一组同质变量值相互之间参
差不齐的程度,即离散度或变异度。
常用指标 全距、方差、标准差、变异系数。
1、全距(range, R)
又称极差,是一组变量值中最大值与最小值的差。
优点 缺点
计算简单 仅考虑了资料的最大值和最小值,不能反映
组内其它数据的变异程度。
是其它许多统计方法的理论基础
标准正态分布
(standard normal distribution)
正态分布是一个分布簇,对应于不同参数其位置和形状均 不相同,为应用方便,可进行变量转换:
u
X
式中的u值称为标准正态变量,其频数曲线图即为标准正
态分布( u分布),一般的正态分布N(μ,σ2)即转化为标准正态 分布N(0,1)。其面积分布可直接查表。
是一个度量相对离散程度的指标。
例1: 身高 体重
CV = 4.95/166.06× 100% = 2.98% CV = 4.96/53.72 × 100% = 9.23%
例2:新生儿 CV = 3/50 × 100%= 6%
几种重要的连续性随机变量分布:
正态分布 标准正态分布X75%统
《医学统计学》统计描述 (1)

2500 2500 2500 420
500 500 500
甲 乙丙
例4-9,etc
1.极差(Range) (全距)
符号:R 意义:反映全部变量值的
R X max X min
变动范围。
580
优点:简便,如说明传染病、
560 540
食物中毒的最长、最短潜 520
伏期等。
500
缺点:1. 只利用了两个 极端值
表2-2 115名正常成年女子血清转氨酶(mmol/L)含量分布
转氨酶含量
人数
12~
2
15~
9
18~
14
21~
23
24~
19
27~
14
30~
11
33~
9
36~
7
39~
4
42~45
3
人数
25
20 15
10 5
0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
lg 表示以10为底的对数;
lg 1表示以10为底的反对数
X 0,为正值 (0,负数?)
几何均数的适用条件与实例
适用条件:呈倍数关系的等比资料或对数正态分 布(正偏态)资料;如抗体滴度资料
例 血清的抗体效价滴度的倒数分别为:10、
100、1000、10000、100000,求几何均数。
XG
lg1
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
2. 描述计量资料的分布特征
①集中趋势(central tendency):变量值集中 位置。本例在组段“4.7~4.9”。
1计量资料统计描述(08硕)

(3)计算:直接法、间接法。 计算:直接法、间接法。 计算 计算机计算 (4)特征:∑(X- x 特征: )=0 估计误差之和为 。 估计误差之和为0。 特征 (5)应用:正态分布或近似正态分布 应用: 应用 (6)注意:合理分组,才能求均数,否则没有意义。 注意:合理分组,才能求均数,否则没有意义。 注意
M=51天 (QR=28.5天) 天 天
3.标准差和方差(Standard deviation and variance) 标准差和方差( 标准差和方差 ) 总体方差 总体标准差 样本标准差
σ2 = ∑
( X − µ)2 N
σ=
∑ (X − µ)
N
2
S=
∑(X − X)
n −1
2
样本标准差的简化计算公式: 样本标准差的简化计算公式: 例数较少 频数表资料
∑ X 2 − (∑ X )2 / n n −1
S=
S=
∑ fX 2 − (∑ fX)2 / ∑ f ∑ f −1
甲组5名同龄男孩的身高值 名同龄男孩的身高值( ) 例2-5 甲组 名同龄男孩的身高值(cm) X X2 90 8100 95 9025 100 10000 105 11025 110 12100 ΣX = 500 ΣX 2 = 50250
(1)单位不同时组间变异程度的比较 )
表 体脂与胆固醇的变异系数 指标 体脂( ) 体脂(%) 胆固醇( 胆固醇(mmol)
x
18.90 4.84
S 5.80 1.04
CV 30.69 21.40
第3讲 计量资料与计数资料的统计描述

1、计量资料 (measurement data)
用仪器、工具等测量方法获得的数据,又称数值变量。 特点:有计量单位,如患者的身高(cm),体重(kg),血压(kPa)等.
2、计数资料 (count data)
按某种属性分类计数后得到的数据,又称无序分类变量,有二分 类和多分类两种情形.
366
28 34
35
10
34
78
57
248
30 11
14
11
22
39
17
114
32 14
2
3
14
24
3
60
34
4
2
5
3
12
2
28
36
2
1
1
4
5
1
14
38
3
1
1
0
2
1
8
40
0
0
2
0
0
0
2
合计 207
141
102
208 537 206 1401
2、常用相对数指标
计数资料常用的数据形式是绝对数,如某病的出院人数,治愈人数 等.但绝对数不具可比性,需要计算相对数.
2、三线表
表号 标题(包括何时、何地、何事)
横标目的 总标目 横标目
┋
总标目
纵标目 纵标目
××× ×××
××
××
总 标 目(单位)
纵标目
纵标目
××. ×× ××. ××
×. ×× ×. ××
┋ ┋ 合计
┋ ┋ ×××
┋ ┋ ×××
┋ ┋ ×:
卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)

●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不
变
2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S
医学统计学实习指导1

---------------------------------------------------------------最新资料推荐------------------------------------------------------医学统计学实习指导1实习一计量资料的统计描述、统计图表一、目的与要求:1 、了解计量资料的频数分布表的编制方法和分布规律;2 、掌握计量资料的统计描述方法;3 、掌握正态分布的概念和特征,标准正态分布的概念和标准化变换,正态分布的应用;4 、理解统计表和统计图在统计描述中的作用;5 、掌握统计表的制表原则和基本要求;6 、掌握制作统计图的基本要求和各种统计图的适用条件。
二、学时:3 学时。
三、案例:1 .某市 1974 年留驻该市一年以上,无明显肝、肾疾病,无汞作业接触史的居民 238 人的发汞值( mol/kg )检测结果见表1-1 的第 1 和 3 列所示:表 1-1 某市 1974 年 238 人的发汞检测结果组段组中值x o 人数 f 频率累计频率 fx o fx o 2 1.5 ~ 2.5 20 0.084 0.084 50 125 3.5 ~ 4.5 66 0.277 0.361 297 1336.5 5.5 ~ 6.5 60 0.252 0.613 390 2535 7.5 ~ 8.5 48 0.202 0.815 408 3468 9.5 ~ 10.5 18 0.076 0.891 189 1984.5 11.5 ~ 12.5 16 0.067 0.958 200 2500 13.5 ~1 / 314.5 6 0.025 0.983 87 1261.5 15.5 ~ 16.5 1 0.004 0.987 16.5 272.25 17.5 ~ 18.5 0 0.000 0.987 0 0 19.5 ~21.5 20.5 3 0.013 1.000 61.5 1260.75 合计 238 1.000 1699 14743.5 问题 1 :简述发汞的分布规律。
医学统计学--第二章 计量资料的统计描述

4.13 4.28 4.91 3.95 4.23 3.75 4.57 3.51
2.78 3.26 3.18 5.08 3.57 3.98 3.80 3.86
4.26 3.50 3.68 4.53 4.83 4.13 3.93 3.02
3.58 2.70 4.83 3.92 3.52 4.26 3.78 3.70
1
lg X ) lg (
n
1
ቤተ መጻሕፍቲ ባይዱ
lg10 lg 20 lg 40 lg 40 lg160 ( ) 34.8 5
(2)加权法 公式:
G lg (
1
f lg X f
)
例2-5 69例类风湿关节炎(RA)患者血清EBV-VCAlgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均 抗体滴度。
三、频数表和频数分布图用途
1.描述频数分布的 类型 (1)对称分布 :若 各组段的频数以频数 最多组段为中心左右 两侧大体对称,就认 为该资料是对称分布
25
20 15
Æ µ Ê ý
10 5
0
2.45
3.05
3.65
4.25
4.85
5.45
6.10
Ñ Ç × µ ¹ ´ £ mmol/L£ ª å Ü ¨Ì ¼ ¨ ©
G 公式: X 1 X 2 X n
n
或
G lg
1
lg X ) (
n
例2-4 某地5例微丝蚴血症患者治疗七年后用间接 荧光抗体试验测得其抗体滴度倒数分别为,10, 20,40,40,160,求几何均数。
G 10 20 40 40 160 34.8
5
G lg
计量资料统计(1)描述(骄阳书苑)

f f
加权法用于频数表资料时,式中,f为组段频数,x为
组中值,组中值 = 组段下限 组段上限 。
培训类别2
11
例 2.2 对表2.1资料用加权法求平均身高
计算方法如下:
X
1109 3111 2 1311133 13 21
13194 110
119.95
表 2.2 110名7岁男童身高均数的计算(加权法)
第三章 数值变量资料的 统计描述
培训类别
1
第一节 数值变量资料的频数表
频数就是观察值的个数。频数分布 就是观察值在其取值范围内分布的情况。 要了解数值变量资料的分布规律,当观 察单位较多时,可编制频数分布表(简称 频数表)和绘制直方图。
培训类别
2
一、频数表(frequency table)的编制
身高组段 ( 1)
频数, f ( 2)
组中值, X ( 3)
fX ( 4 ) = ( 2 )(3 )
108~
1
109
109
110~
3
111
333
112~
9
113
1017
114~
9
115
1035
116~
15
117
1755
118~
18Leabharlann 1192142120~
21
121
2541
122~
14
123
1722
124~
124.4 116.4 119.0 117.1 114.9 129.1 118.4 113.2 116.0 120.4
112.3 114.9 124.4 112.2 125.2 116.3 125.8 121.0 115.4 121.2
第二章统计描述

G ' lg1(
fi lg Xi ) lg1(
1 0.6021 4 0.9031
1 2.709Байду номын сангаас )
fi
40
lg1(67.1282) 48 40
G 1: 48
中位数(median, M)
适合于表达偏态资料、或分布不明的资料的平 均水平,尤其适合于表达只知数据的个数、但 部分较大或较小数据的具体数值未准确知道的 资料的平均水平。
血清总胆固醇 2.5~ 3.0~ 3.5~ 4.0~ 4.5~ 5.0~ 5.5~ 6.0~ 6.5~
7.0~7.5 合计
频数f 1 8 9 23 25 17 9 6 2 1
101
fx 2.75 26 33.75 97.75 118.75 89.25 51.75 37.5 13.5 7.25 478.25
13
174
单侧正常值范围的上限为 1.81
14
188
(mol/L)。
1.69~
4
192
1.93~
4
196
2.17~
1
197
2.42~
2
199
2.66~
0
199
2.90~3.14
1
200
3.四分位数间距(quartile interval, Q)
Q=P75-P25
Q=QU-QL
优缺点:用四分位数间距作为描述数据分布离散 程度的指标,比极差稳定,但仍未考虑到每个数 据的大小,常用于描述偏态频数分布以及分布的 一端或两端无确切数值资料的离散程度。
第1四分位数记作Q1,第2、第3四分位数,分别记作 Q2、Q3;第1百分位数,记作P1。同理,还有第2、第 3、 ···、第99百分位数,分别记作P2、P3、 ···、P99。
打印第四部(实习指导第页)《医学统计学》实习指导(第页)

实习指导实习一统计表与统计图计量资料的统计描述(一)统计表与统计图一、目的要求:掌握统计表的结构与制表的基本要求,掌握绘制统计图的基本要求及常用统计图的绘制方法,熟悉统计表与统计图的用途,了解统计表和种类。
二、时间安排:1学时三、内容:1.选择填空题:A.散点图 B.条图 C.百分条图或圆图 D.线图 E.直方图(1)描述某地1975-1980年肝炎发病率的变动趋势,宜绘制。
(2)分析胎儿不同出生体重(kg)和围产儿死亡率的关系,应绘制。
(3)比较甲、乙、丙三地某两种传染病的发病率时,应绘制。
(4)某地调查的863例恶性肿瘤死亡者,分别由省、市、县、乡医院最后确认,说明各级医院确认比例,应绘制。
(5)描述某地某年210名健康成人发汞含量的分布,宜绘制。
2.某县防疫站1972年开始在城关建立“预防接种卡”,使计划免疫得到加强。
为说明效果,1975年5月观察了482人的锡克氏试验反应。
其中:幼儿园101人,阳性21人,阳性率20.8%;小学生145人,阳性22人,阳性率15.2%,中学生236人,阳性15人,阳性率为6。
4%,相比起来,1974年为;幼儿园儿童144人,阳性15人,阳性率10.4%,小学生1417人,阳性323人,阳性率为22.8%;中学生为359人,阳性率为11.5%;试用适当的统计表和统计图描述上述结果。
3.某年某公社生产大队的新病例数统计结果如下,用图表示各生产大队的新发病比例。
表1-1 某年某公社各生产大队新病例统计例数百分比(%)第一生产队320 33.0第二生产队234 24.2第三生产队415 42.8合计969 100.04.下表是某地1968-1974年男妇结核病死亡率变动情况,试绘制成统计图表1-2 某年1968-1974年男女结核病率(1/10万)年份男性女性1968 50.19 37.541969 42.97 25.001970 45.37 27.881971 44.42 25.101972 35.59 24.081973 38.31 24.101974 25.29 16.005.根据表3资料绘制适当的统计图。
计量资料的统计描述

4.66 4.28 3.83 4.20 5.24 4.02 4.33 3.76 4.81 4.17 3.96 3.27
4.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.12 4.27 3.61
4.98 4.24 3.83 4.20 3.71 4.03 4.34 4.69 3.62 4.18 4.26 4.36
M
x
n
2
x
n
2
1
2
4
百分位数(percentile)
0%
PX
M 即50%分位数就是中位数
100%
27
1.直接计算法
28
例2-9 对某医院细菌性痢疾治愈者的住院天数统计, 119名患者的住院天数从小到大的排列如下, 试求第5百分位数和第99百分位数
患 者 1 2 3 4 5 6 7 8 116 117 118 119 住院天数 1 1 2 2 2 3 4 4 39 40 40 42
3.77 4.20 4.36 3.07 4.89 3.97 4.28 3.64 4.66 4.04 4.55 4.25
4.63 3.91 4.41 3.52 5.03 4.01 4.30 4.19 4.75 4.14 4.57 4.26
4.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.12 4.56 4.26
第一篇 基本统计方法
1
第二章 计量资料的统计描述
Descriptions of Measurement Data
2
Chapt 2
Frequency distribution
Description of central tendency
重医大卫生、医学统计学实习指导

实习1 计量资料的描述一、目的与要求1、掌握计量资料频数表的编制方法和用途;2、掌握均数、中位数、几何均数的意义、应用条件及计算;3、掌握极差、四分位数间距、方差、标准差、变异系数的意义、应用条件及计算;4、掌握百分位数的含义及计算方法。
二、学时3 学时。
三、案例1、2005年某市城镇8岁男孩握力(Kg)测验结果如表1-1所示。
表1-1120例8岁男孩握力(Kg)测验结果8.6 10.714.6 13.515.09.415.514.011.2 11.217.5 9.28.4 12.88.611.08.69.713.5 16.811.1 12.510.5 12.08.011.012.07.014.0 11.513.5 6.515.0 12.211.511.911.413.511.3 15.013.5 13.414.2 11.38.09.212.58.5 6.4 10.311.5 11.212.0 9.010.013.511.47.413.2 11.810.0 12.57.5 14.08.214.610.011.58.5 10.010.4 12.49.6 13.211.2 5.511.012.49.5 10.315.5 12.59.0 7.211.29.98.710.211.3 12.413.2 9.410.2 12.210.514.512.015.09.7 6.37.1 10.010.1 11.59.87.812.09.712.0 10.013.5 7.512.5 10.516.09.810.011.514.0 7.4 问题1:编制握力数据的频数表,并绘制直方图;问题2:计算握力数据的算术均数及中位数;哪一个指标表达集中趋势更合理,为什么?问题3:计算极差、方差、标准差、变异系数;问题4:计算P2.5,P50,P97.5,并计算四分位数间距;问题5:试计算样本中握力小于sx 的男孩占本次测验全部男孩的比例。
计量资料描述

计量资料的统计描述描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。
计量资料常用的统计描述指标和方法主要有:1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。
其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。
2、离散趋势指标(Dispersion):包括全距、四分位数间距、方差、标准差、变异系数、标准误等。
方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。
SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程:产生频数表;按要求给出某百分位数。
对计量资料、计数资料和等级资料的描述都适用Descriptives过程:进行一般性的统计描述,用于服从正态分布的资料,计算产生均数、标准差等;Explore过程:用于对数据概况不清时的探索性分析;Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。
本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。
Crosstabs过程在X2检验实习讲述。
Frequencies过程案例:某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.12 4.56 4.37 5.396.30 5.217.22 5.543.93 5.214.125.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.896.25 5.324.50 4.63 3.61 4.44 4.43 4.25 4.035.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.165.10 5.86 4.79 5.34 4.24 4.32 4.776.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.604.095.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.186.14 3.24 4.90 3.05一、建立数据文件1、定义变量:在数据窗口,点击,定义一个变量,变量名(Name)“x”,类型(Type)“数值()8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。
实验一计量资料频数表的整理与统计描述

实验一计量资料频数表的整理与统计描述一、测得12人的血红蛋白含量(g/L)121,118,130,120,122,118,116,124,127,129,125,132。
请计算其均数,几何均数,中位数,标准差,极差,变异系数。
二、某地101例30~49岁健康男子血清总胆固醇值(mmol/L)测定结果如下:4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.12 4.56 4.375.396.30 5.217.22 5.54 3.93 5.21 6.51 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.973.18 3.97 5.16 5.10 5.864.795.34 4.24 4.32 4.776.36 6.384.885.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.726.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.704.60 4.095.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.345.186.14 3.24 4.90 3.051、编制频数分布表并绘制直方图,简述其分布特征。
2、选择适当的集中趋势指标、离散趋势指标并计算。
三、某市1974年为了解该地居民发汞(μmol/kg)的基础水平,为汞污染的环境监测积累资料,调查了留住该市一年以上,无明显肝、肾疾病,无汞接触史地2382、计算均数X、几何均数G和中位数M,何者较大?为什么?何者用于说明本资料的集中位置较适合?3、选用何种指标描述其离散程度较好?请计算。
计量资料的统计描述

第二节 计量资料的统计描述数值变量的统计描述主要是分成两步:一是正态分布性检验,二是统计描述指标的计算。
根据资料是否正态,选择的指标不一样,如资料呈正态性分布则选用算术均数和标准差,如资料呈非正态分布则用中位数和四分位间距进行描述。
统计指标计算的具体命令有三个:Frequencies:可以产生详细的频数表,还可以按要求给出某百分位点的数值;Descriptive:适用于正态分布资料;Explore:功能最强大,直接给出四分位间距和可信区间。
一、原始资料的统计描述例16.2 某地某年测量了100名正常成年男子血清总胆固醇(mol/L)含量,数据见表16.4,请进行统计描述。
表16.4 某地某年100名成年男子血清总胆固醇(mol/L)含量3.374.795.10 4.77 5.32 4.50 5.10 4.70 4.44 5.164.37 6.255.55 4.56 3.35 4.08 4.63 3.61 4.97 4.175.77 5.09 4.38 5.18 4.79 5.15 4.79 5.30 4.77 4.404.895.86 3.40 3.38 4.55 5.15 4.24 4.32 5.85 3.245.85 3.04 3.896.16 4.58 5.72 4.87 5.17 4.61 4.124.43 4.31 6.14 4.88 2.70 4.60 6.55 4.76 4.48 6.515.18 3.91 5.39 4.52 4.47 3.64 4.09 5.966.14 4.696.36 4.60 5.09 4.47 3.56 4.23 4.34 5.18 5.69 4.25 6.30 3.95 4.03 5.38 5.217.22 4.31 4.71 5.21 3.97 5.12 4.55 4.90 3.05 5.20 4.74 5.54 3.93 3.50 6.381.建立数据文件 取变量CHO,定义为数值型,宽度为8,2位小数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验一计量资料频数表的整理与统计描述
一、测得12人的血红蛋白含量(g/L)121,118,130,120,122,118,116,124,
127,129,125,132。
请计算其均数,几何均数,中位数,标准差,极差,变异系数。
二、某地101例30~49岁健康男子血清总胆固醇值(mmol/L)测定结果如下:
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71
5.69 4.12 4.56 4.37
5.39
6.30 5.21
7.22 5.54 3.93 5.21 6.51 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97
3.18 3.97 5.16 5.10 5.86
4.79
5.34 4.24 4.32 4.77
6.36 6.38
4.88
5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72
6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70
4.60 4.09
5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34
5.18
6.14 3.24 4.90 3.05
1、编制频数分布表并绘制直方图,简述其分布特征。
2、选择适当的集中趋势指标、离散趋势指标并计算。
三、某市1974年为了解该地居民发汞(μmol/kg)的基础水平,为汞污染的环境监测积累资料,调查了留住该市一年以上,无明显肝、肾疾病,无汞接触史地238
2、计算均数X、几何均数G和中位数M,何者较大?为什么?何者用于说明本
资料的集中位置较适合?
3、选用何种指标描述其离散程度较好?请计算。
四、
和半对数线图,并说明两种图形的不同意义。
五、思考题及名词解释
1、描述计量资料集中趋势的指标有哪些?它们有何异同?
2、描述计量资料离散趋势的指标有哪些?它们有何异同?
3、说明频数分布表的用途。
4、变异系数的用途是什么?
5、常用相对数有哪些?各有何意义?
6、简述应用相对数时应注意些什么?
7、资料的对比应注意其可比性,可比性指的是什么?试举两例说明。
8、简述统计图和统计表的主要结构。
9、常见的统计图有哪些?如何根据资料性质来选择合适的统计图?
10、数值变量资料频数表的组段数是否越多越好?
11、同一资料的标准差是否一定小于均数?
12、总体与样本随机化计量、计数与等级资料统计量与参数均数
几何均数中位数标准差四分位数变异系数比率与速率构成比。