02定量资料的统计描述

合集下载

第二章 定量资料的统计描述

第二章 定量资料的统计描述

第二章定量资料的统计描述一、选择题1.资料的统计分析包括统计描述和统计推断两部分内容,而统计描述是指A.由样本统计量推断总体参数B.对总体参数进行估计C.用统计指标、统计图表描述资料的特征D.对搜集到的资料进行整理E.比较指标间的差异有无统计学意义2.定量资料频数分布的两个重要特征是A.样本与总体B.统计量与参数C.样本均数与总体均数D.集中趋势与离散程度E.标准差与标准误3.常用的平均数指标是A.样本均数、总体均数、中位数B.均数、几何均数、中位数C.均数、几何均数、标准差D.均数、几何均数、变异系数E.均数、中位数、方差4.描述一组正态分布或近似正态分布资料的平均水平宜采用A.平均数B.几何均数C.中位数D.变异系数E.均数5.反映一组血清抗体滴度资料的平均水平,常选用的指标是A.平均数B.几何均数C.中位数D.变异系数E.均数6.描述传染病的平均潜伏期宜采用A.平均数B.几何均数C.中位数D.变异系数E.均数7.某病患者8人的潜伏期(天)如下:2、3、3、3、4、5、6、30+,则平均潜伏期为A.7天B.3天C.4天D.3.5天E.大于7天8.一组数据中各观察值均加(或减)某一个不等于0的常数后A.均数不变,标准差改变B.均数改变,标准差不变C.二者均改变D.二者均不改变E.变异系数不变9.以下资料类型中,适宜用均数与标准差进行统计描述的是A.任意分布B.正偏态分布C.负偏态分布D.正态分布E.对称分布10.某研究者测量了某地237人晨尿中的氟含量(/mg L),结果如下尿氟0.2~0.6~ 1.0~ 1.4~ 1.8~ 2.2~ 2.6~ 3.0~ 3.4~ 3.8~人数75 67 30 20 16 19 6 2 1 1对该资料的集中趋势和离散趋势进行描述宜采用A.均数与标准差B.中位数与四分位数间距C.众数与标准差D.均数与变异系数E.中位数与变异系数11.比较身高和体重两组数据的变异度大小宜采用A.标准差B.全距C.方差D.变异系数E.四分位数间距12.比较某地1~2岁与5~5.5岁儿童身高的变异度大小宜采用A.全距B.四分位数间距C.标准差D.方差E.变异系数二、计算分析题1.为了解某地区健康成年女性的血清总蛋白含量水平,某研究者于2013年在该地区随机抽取了110名健康成年女子,测得其血清总蛋白含量(/g L),结果见表2-1。

定量资料的统计描述

定量资料的统计描述

正态分布的判断
1.均数与中位数的比较 2.频数表 3.直方图 4.P-P图
u=
X −µ
σ
标准正态分布
u= X −µ
σ
定义:若X服从正态分布N(µ,σ2 ),经此变换后, 则u就服从均数为0,标准差为1的正态分布,这 种正态分布称为标准正态分布 标准正态分布(standard normal 标准正态分布 distribution)。 记为N(0,1) 用途:计算曲线下面积
定量资料的统计描述
根据变量取值特点,计量资料分为: 根据变量取值特点,计量资料分为: 连续性资料:变量值可以在实数轴上连续变 动。如红细胞数、身高、体重。 离散型资料:变量取值能一一列举。只能取整 数 定量资料的统计描述: 定量资料的统计描述:
统计图表 如:频数分布表(图) 集中趋势的统计描述 离散趋势的统计描述
描述定量变量的指标的正确选择
正态或近似正态分布的资料 均数和标准差 偏态分布的资料 中位数和四分位数间距 等比级数或对数正态分布的资料 几何均数
SPSS中两个常用统计描述命令 统计描述命令: 统计描述命令
Descriptives过程 Frequencies过程 40页 例4.2 页
Frequencies过程
医学参考值范围制定: 医学参考值范围制定:
1.正态分布法 正态分布法 1.Analyze 2.Descriptive Statistic 3.Descriptives
options
医学参考值范围制定: 医学参考值范围制定:
2.百分位数法 百分位数法 1.Analyze 2.Descriptive Statistic 3.Frequencies 习题4.3
Statistics
Transform菜单 菜单

医学统计学定量资料的统计描述和变量分布

医学统计学定量资料的统计描述和变量分布

滴度 1∶8 1∶16 1∶32 1∶64 1∶128
人数 17 15
11 3
0
G lg 117 lg 8 15 lg16 11 lg 32 3 lg 64

46

=lg-1 1.2041
=16.0
46例正常人血清的HBsAg滴度的几何均数为1:16
2.几何均数应用的注意事项: 1)几何均数常用于等比级数资料或资料 呈倍数关系或对数正态分布资料。 2)观察值中不能有0。 3)观察值中不能同时有正值和负值。
第二节 定量资料的统计描述和变量分布
定量资料的 统计描述
统计图表:频数分布表(图)
集中趋势指标 统计指标:
离散趋势指标
利用统计表对数据进行概括,用统计图对分布形态 及分布间的关系做直观的表达,用于描述定量资料的统 计指标的意义与计算。
一、定量变量的频数分布
(一)连续型定量变量频数表的编制:
频数(frequency):指对一个随机变量做重复观察, 其中某变量值出现的次数。
取整数为0.5 mmol·L-1
(3) 划组段:
下限:每个组段的起点(最小值)
上限:每个组段的终点(近似最大值)
注:①第一个组段的起点数据必须为小于或等于最小值的整数
②最后一个组段应同时写出上限和下限来。
(4) 绘制整理表 “下限≤x<上限”
注:各组段的频数之和应等于总的观察例数。
表4-2-1 某地101例30~49岁骨科病人血清总胆固醇值划记表
例4-2-8 50例咽峡炎患者的潜伏期如下,求M,P25, P75,P2.5,P97.5。
表4-2-3 50例咽峡炎患者潜伏期的M和Px的计算
潜伏期(小时) (1) 12~ 24~ 36~ 48~ 60~ 72~ 84~ 96~

卫生统计学第二章定量资料的统计描述

卫生统计学第二章定量资料的统计描述
E. 总体标准差一定时,增大样本例数会减小标准误
正确答案: E
答案解析:标准差反映观察值的变异程度,标准误反映抽样误差的大小,根据其计算公式可知总体标准差一定时,增大样本例数会减小标准误。在应用中,标准差用于参考值范围的估计,而标准误用于可信区间的估计。
做答人数:1
做对人数:0
题号: 12 本题分数: 2
下列说法正确的是
A. 计量资料都服从或近似服从正态分布
B. 正态分布曲线下,横轴上,从均数μ到μ+1.96倍标准差的面积为97.5%
C. 对数正态分布是原资料的对数值服从正态分布
D. 医学参考值范围一定要定为95%或99%
E. 标准正态分布曲线下中间90%的面积所对应的横轴尺度μ的范围是-∞到+1.645
求正常人某个指标的参考值范围,在理论上要求
A. 正态分布不能用均数标准差法
B. 正态分布不能用百分位数法
C. 偏态分布不能用均数标准差法
D. 偏态分布不能用百分位数法
E. 对称分布不能用百分位数法
正确答案: C
答案解析:制定医学参考值范围一般有两种方法:正态分布法(均数标准差法)和百分位数法。正态分布法适用于正态分布或近似正态分布资料;百分位数法适用于任何类型的资料,但满足正态分布的资料多采用正态分布法。
答案解析:任意正态分布经过标准化变换:u=(x-μ)/σ,可转换为μ=0,σ=1的标准正态分布。由于其位置参数和形态参数均为常数,因此它的曲线是唯一的。
做答人数:1
做对人数:1
所占比例: 100%
题号: 11 本题分数: 2
对于偏峰分布资料且测量值过高才有临床意义,95%单侧正常值范围可定

第2章定量资料的统计描述

第2章定量资料的统计描述
用于描述一组对称分布数据在数量上的平均水平。 样本均数用 X 表示,总体均数用希腊字母µ表示。
1、计算方法 (1)直接法:当样本含量较小时,用直接法。公 式:
X
X
n
例2.3 测得8只正常大鼠血清磷 酸酶含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42, 3.38。试求其算术均数。
10
5
0
0
1
2
3
4
检查次数
某地96名产妇产前检查次率分布
频数
5
>5
>5
二、连续型定量变量的频数分布
例2.2 某地120名18~35岁健康男性居民血清铁含量 (umol/L),编制频数表。
7.42 8.65 23.02 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 20.38 8.04 17.32 29.64 19.69 23.90 17.45 19.08 20.52 24.14 23.77 18.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 14.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 14.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 24.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 17.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 14.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 21.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52

定量资料统计描述2

定量资料统计描述2
加权法计算的均数是近似的。
数据分布对称时,均数位于分布的中心, 它是频数分布最集中的位置。
若数据分布不对称,均数不位于分布的中 心,不能反映分布的集中趋势和平均水平。
2. 几何均数(Geometric mean. G)
适用于原始数据分布不对称,但经对数转换后对 称分布的资料;或各观察值之间呈倍数变化(等比关 系)的资料。
用于:① 比较单位不同的多组资料的变异度 ② 比较均数相差悬殊的多组资的变异度
感谢大家的关注!
四分位间距:QU — QL ,它包括全部观察值的一半。可看作 中间一段观察值的极差。它比极差稳定,但仍未考虑每个观察值 的变异。
3. 方差(Variance)
S2 (xx)2
n1
式中 n – 1 称为自由度(Degree of freedom), 反映了当均数确定时, n 个数据中能自由变动的 数据个数。
双侧:WBC的95%参考值范围: P2.5 和 P97.5 单侧:肺活量的95%参考值范围:P5
尿铅的95%参考值范围:P95
三、离散程度的描述
三组同性别、同年龄的儿童体重(㎏)
A 26 28 30 32 34 B 24 27 30 33 36 C 26 29 30 31 34
1. 极差(Range,R)
0.5
2.5
4.5
6.5
8.5 10.5 12.5 14.5
16.5 18.5 20.5 22.5 24.5
26.5 28.5 30.5 32.5 34.5
36.5 38.5 40.5 42.5 44.5
46.5 48.5 50.5 52.5 54.5
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征

02 定量资料的统计描述

02 定量资料的统计描述

2. 频数表的编制


求极差 R=Xmax-Xmin
划分组段 统计各组段内的数据频数
频率与累计频率
表1. 100名HIV阳性男子年龄的频数分布表
年龄 (岁) 频数 频率(%)
25~
28~ 31~ 34~ 37~ 40~
9
21 18 19 13 12
9.0
21.0 18.0 19.0 13.0 12.0
1.算术均数(均数)Mean

计算:

x1 x 2 x n 直接法(小样本): x n
加权法(大样本,频数表资料):
fx x f
应用:用于对称分布,特别是正态分 布资料的集中趋势描述。
算术均数

当资料呈正态分布时,均数位于分 布的中心。
每个观察值都加一个常数a,则均数 为原均数加常数a;每个观察值都乘 以一个常数b,则均数为原均数的b 倍。


百分位数 percentiles
百分位数是一种位置指标,它是指把数据从
小到大排列后处于第X百分位置的数值。它
把数据分为两部分,有X%的数据小于PX,
有1-X%的数据大于PX。中位数即第50百分 位数。
iX 公式:PX LX (n X % f L ) fX
式中符号的意义同中位数所用公式,只是把 中位数改为第X百分位数。

均数
3.中位数 Median


定义:将一组观察值从小到大排序后居 于中间位置的那个数值 计算 n X n ) ( 1) 2 (2) 2
当n为奇数时:
离散型变量
MX
n1 ( ) 2
中位数的计算

连续型变量:

卫生统计学第二章定量资料的统计描述2

卫生统计学第二章定量资料的统计描述2

正态分布曲线,当μ恒定时,σ越大
A. 曲线沿横轴越向左移动
B. 观察值变异程度越小,曲线越陡峭
C. 观察值变异程度越大,曲线越平缓
D. 曲线沿横轴越向右移动
E. 曲线位置和形状不变
正确答案: C
答案解析:正态分布的形态参数σ描述正态分布的离散程度。σ越大,则观察值的变异越大,表现为曲线峰值越矮,两端越上翘,即曲线越平缓。反之,曲线越陡峭。位置参数μ决定曲线对称位置,或峰值的位置,当μ不变时,曲线的对称位置就固定不变。
做答人数:0
做对人数:0
所占比例: 0
题号: 18 本题分数: 2.4
常用的平均数指标不包括
A. 算术平均数
B. 几何均数
C. 均数
D. 极差
E. 中位数
正确答案: D
答案解析:常用的平均数指标有:算术均数、中位数、几何均数,其中算术均数简称均数,极差为离散程度指标。
正确答案: C
答案解析:医学参考值范围是指绝大多数正常人某指标测量值的波动范围,一般取95%和99%的波动范围。
做答人数:0
做对人数:0
所占比例: 0
题号: 14 本题分数: 2.4
频数分布的类型有
A. 对称分布和偏态分布
B. 对称分布和正偏态分布
一、题型:A1
题号: 1 本题分数: 2.4
编制组段数为10的频数表,在确定组距时
A. 常取最大值的1/10取整作为组距
B. 常取最小值的1/10取整作为组距
C. 常取极差的1/10取整作为组距
D. 组距等于极差
E. 常取极差的一半取整作为组距
做答人数:0

02定量数据的统计描述(医学统计学)

02定量数据的统计描述(医学统计学)
-
累积频率(%)
4.3
31.1
57.6
M
72.5 85.4 92.1 96.5 98.7 99.4 99.8
100.0 -
思考
三组白鼠体重情况 甲组:26 28 30 32 34 乙组:24 27 30 33 36 丙组:27 28 28 32 35
X甲 X乙 X丙
三组体重的离散程度?
方差( variance )是将离均差平方和再取平均, 即
平均数(average):描述一组变量值的集中位置或 平均水平的指标。
常用的平均数有(算术平)均数、几何(平)均数、中 位数。
不同的分布使用不同的平均数。
一、算术均数
应用:主要适用于单峰对称分布或偏斜度不 大的资料,尤其适合正态分布资料。
例2-3 测得8只正常大白鼠总酸性磷酸酶含量(U/L) 为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。
变异系数(coefficient of variation):用于对均数相
差较大或单位不同的几组观察值的变异程度进行比较。
例3.3 测得某地成年人舒张压均数为77.5mmHg,标准差 10.7mmHg;收缩压均数为122.9mmHg,标准差为 17.1mmHg。试比较舒张压和收缩压的变异程度。
例: 某地120名7岁男孩身高的均数为 123.10cm,标准差为4.71cm;体重均数为 22.29kg,标准差为2.26kg,比较其变异度。
频数
27 169 167
94 81 42 28 14
4 3 1 630
累积频数
27 196 363 457 538 580 608 622 626 629 630

公卫助理医师-综合笔试-卫生统计学-第二单元定量资料的统计描述

公卫助理医师-综合笔试-卫生统计学-第二单元定量资料的统计描述

公卫助理医师-综合笔试-卫生统计学-第二单元定量资料的统计描述[单选题]1.一组观察值如果每个值都同时增加或减少一个不为0的常数,则A.均数改变,几何均数不变B.均数改变,中位(江南博哥)数不变C.均数,几何均数和中位数都改变D.均数不变,几何均数和中位数改变E.均数,几何均数和中位数都不变正确答案:C参考解析:一组观察值如果每个值都同时增加或减少一个不为0的常数,则均数、几何均数、中位数都改变。

本题选C。

掌握“集中趋势指标★”知识点。

[单选题]3.表示儿童体重资料的平均水平最常用的指标是A.算术平均数B.中位数C.几何均数D.变异系数E.百分位数正确答案:A参考解析:算术平均数简称均数,均数适用于描述单峰对称分布资料,特别是正态分布或近似正态分布资料的集中位置。

掌握“集中趋势指标★”知识点。

[单选题]4.变异系数越大,说明A.标准差越大B.平均数越小C.平均数越大D.标准差和均数都大E.单位均数的变异越大正确答案:E参考解析:变异系数大,说明单位均数的变异越大。

变异系数的定义是标准差与算术均数之比,描述了数值的相对离散程度,本题正确答案为E。

掌握“离散趋势指标★”知识点。

[单选题]5.某人算得某资料的标准差为-3.4,可认为A.变量值都是负数B.变量值负的比正的多C.计算有错D.变量值多数为0E.变量值一个比一个小正确答案:C参考解析:标准差一定大于或等于0,不可能为负数,故答案为C。

掌握“离散趋势指标★”知识点。

[单选题]6.下列关于方差和标准差的叙述,不正确的是A.方差的单位与标准差的单位相同B.方差的单位是标准差单位的平方C.都用于描述定量资料频数分布的变异程度D.二者值越大,说明资料的变异程度越大E.均适用于对称分布,特别是正态分布或近似正态分布资料正确答案:A参考解析:方差的单位是观察值单位的平方,在实际工作中使用不便,因此将方差开算术平方根得到标准差,故选项A不正确,选项B正确;方差和标准差均是描述对称分布,特别是正态分布或近似正态分布资料变异程度的常用指标,值越大,说明资料的变异程度越大,选项C、D、E正确,故本题应选A。

医学统计学02 定量资料的统计描述

医学统计学02 定量资料的统计描述
9
120名8岁男孩身高频数表 组段 112~
频数 f 25
频数 2
114~
21
18
7
9 14
116~
15 10 5 3
20
15 10 5 0 7
14 15 9
118~
120~
122~
1
15
21 18 15 10 5 3 1
10
2 1 身高( cm )
124~ 126~ 128~ 130~ 132~ 134~136
• 加权法
G log
1
f log X f log X ( ) log ( ) n f
1
31
注意事项
几何均数常用于等比级资料或对数正态分布资料。 观察值中若有0或负值,则不宜直接使用几何均 数。 观察值一般同时不能有正值和负值。若全是负值, 计算时可先将负号去掉,得出结果后再加上负号。
7
9 14 15 21 18 15 10
130~
132~ 134~136
5
3 1
5
• 频数(frequency)
– 观察数据的个数
• 频数分布(frequency distribution)
– 观察数据在其取值范围内的分布情况
• 定量资料的频数分布情况可以用频数表 (frequency distribution table)或直方图表 示。
9
14 15 21 18 15
7.5
11.7 12.5 17.5 15.0 12.5
18
32 47 68 86 101
15.0
26.7 39.2 56.7 71.7 84.2
– 组段的起点叫“下限”,终点叫“上

【精品】定量资料的统计描述

【精品】定量资料的统计描述

【精品】定量资料的统计描述定量资料的统计描述是指通过定量数据分布的一系列统计量来描述一个样本或总体的特征。

常用的统计量包括中心位置、离散程度、分布形态和相关性等。

中心位置中心位置是指数据分布的平均水平。

常用的中心位置统计量包括平均数、中位数和众数。

平均数是所有数据值的总和除以数据个数。

它具有良好的代表性,但受极端值的影响较大,因此需要谨慎使用。

中位数是将数据按大小排序后位于中间的数值,当数据存在极端值时,中位数比平均数更能正确反映数据的中心位置。

众数是数据中出现次数最多的数值,适用于分布具有明显峰值的情况。

离散程度离散程度是指数据分布的距离平均值的大小。

常用的离散程度统计量包括标准差、方差、极差和四分位数差等。

标准差是数据离均值的平均距离,是最常用的衡量数据分散程度的统计量。

方差是标准差的平方,由于平方的量级较大,因此比标准差不易解释。

极差是数据最大值与最小值之差,不考虑数据内部的分布情况,因此不具有代表性。

四分位数差是在数据中将数值分为四个部分,即25%、50%、75%三个分位点,然后用75%分位点减去25%分位点,用于描述数据离散程度。

分布形态分布形态是指数据分布的偏态和峰态。

常用的分布形态统计量包括偏度和峰度。

偏度是反映数据分布偏斜程度的统计量,正偏分布表示分布的长尾在分布的右侧,负偏分布表示分布的长尾在分布的左侧。

当偏度为0时,表示分布是对称的。

峰度是反映数据分布峰态的统计量,正峰分布表示分布的峰在分布的中心较高,负峰分布表示分布的峰在分布的中心较低。

当峰度为0时,表示分布的峰态基本接近正态分布。

相关性相关性是指两个变量之间的关联程度。

常用的相关性统计量包括相关系数和协方差。

相关系数是反映两个变量之间线性相关程度的统计量,取值范围为-1~1之间,正值表示正相关,负值表示负相关,0表示不相关。

协方差是反映两个变量之间相关性的统计量,数值大小表示两个变量之间的相关程度,但由于单位的影响,不易比较。

第二章定量资料的统计描述

第二章定量资料的统计描述

1.算数均数 1.算数均数(arithmetic mean) )
表2-3 加权法计算均数 组段 (1 ) 6~ 8~ 10~ 10~ 12~ 12~ 14~ 14~ 16~ 16~ 18~ 18~ 20~ 20~ 22~ 22~ 24~ 24~ 26~ 26~ 28~ 28~30 合计 组中值( 组中值(XO) (2 ) 7 9 11 13 15 17 19 21 23 25 27 29
X + X 2 + ... + X n = 1 X n=∑n来自i =1Xi n
=

i
Xi n
=

n
X
1.算数均数 1.算数均数(arithmetic mean) )
测得8 例2-3 测得8只正常大鼠血清总酸性磷 酸酶(TACP)含量(U/L) 4.20,6.43, 酸酶(TACP)含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42,3.38。 2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。 试求其算术均数。 算术均数= 算术均数= (4.20+6.43+2.08+3.45+2.26+4.04+5.4 2+3.38)/8=3.9075 2+3.38)
1998年某地96名妇女产前检查次数分布 1998年某地96名妇女产前检查次数分布 年某地96
频数 (2) 4 7 11 13 26 23 12 96 频率(%) 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计人数 (4) 4 11 22 35 61 84 96 累计频率(%) 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0 -

chapter2定量资料的统计描述

chapter2定量资料的统计描述
13
频数表的划记步骤: 1、找出最大值和最小值, 2、求全距,又称极差R(Range) R=最大值-最小值 R=29.64-7.42=22.22 3、定组段数与组距: (1)确定组数K:根据样本例数 n大小而定,一 般分10-15组之间,如样本较小,可少于10组; 如样本较大时,可大于10组,以能反映出分布规 律为原则。
频数分布表和频数分布图
原因:由于个体变异的存在,医学研究中某指 标在各个体上的观察结果不是恒定不变的,但 也不是杂乱无章的,而是有一定规律的,呈一 定的分布(distribution)。
解决:频数分布表的基本思想:将原始数据按 照一定的标准划分为若干各组,合计各组的频 数,得到频数分布表;再将频数表绘制成频数 分布图。
26
3、便于发现特大或特小的可疑值。以确定取舍。 4、便于进一步选择方法计算统计指标。
27
第二节 描述集中位置的指标
平均数(Average)
算术均数(Mean) 几何均数(Geometric Mean) 中位数(Median) 百分位数(Percentile)
4
回顾
定量资料? 统计分析包括哪两个内容?
➢ 统计描述 ➢ 统计推断
5
第一节 频数分布表及其用途
定量资料进行描述时,如果样本量 较大,需要对原始资料进行整理, 列出频数分布表,通过频数表以显 示资料的分布类型。
6
频数(frequency) 在一批样本中,相同情形出现的次数称
该情形的频数。 频数表(frequency table)
18.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 14.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 14.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 24.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 17.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 14.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 21.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计量资料的统计描述
1
计量资料的统计描述

统计图表

频数表 频数/频率图 集中趋势 离散趋势

统计指标


2
频数表

某市1995年110名7岁男童身高资料
119.2 120.3 118.8 124.9 122.8 118.4 116.9 124.7 122.3 121.8 130 128.6 121 126.4 125 118.2 124.5 123.5 122 119.1 114.2 115 116.7 121.7 128.1 132.5 116.9 127.2 112.8 121.7 122.7 119.7 122 131.1 118.3 120.2 116.8 116.3 126.1 123.5 120.4 127.8 110.2 121.6 124 131.3 116.3 115.2 123 120.9 120.2 119 123.8 126.1 118 117.4 120.1 122 124.5 116.7 119.2 122.4 123.2
1 ( X [ n ( x % )] X [ n ( x % )] 1 )
n ( x % ) [ n ( x % )]
Px
2 P x X [ n ( x % )] 1
n ( x % ) [ n ( x % )]
[ n ( x % )]为 乘 积 取 整 部 分

连续型变量
PX L X ix fx (n X %

fL )
16
离散程度的描述---极差和四分位 间距


上下四分位数(QU、QL): 第25百分位数和第75百分位数 四分位间距P75-P25:



上下四分位数之间的距离,包括了一半的数 据,越大表明离散程度越高 描述了50%数据的分布宽度 比极差稳定
20
离散程度的描述---方差和标准差

标准差(standard deviation)
S

(X X ) n 1
2

(X X )
2

X
2

( X ) n
2
21
离散程度的描述

变异系数coefficiedt of variatlion
CV=标准差/均数×100%

描述了数据的变异相对其平均水平的大小 描述的是相对离散度 无单位量纲
26
STATA命令
求均数、标准差(例2.1) use 光盘符:\例题\ex2-1 直接法 sum x 综述变量x 间接法 gen xx=int((x-110)/2)*2+111 sum xx 综述变量“xx”
27
STATA命令
求几何均数(例2.5) use 光盘符:\例题\ex2-5 means x [w=f] 以f为权重变量,求变量x的平均数 求均数、中位数、四分位数范围、标准差、 方差、偏度系数、峰度系数(例2.6) use 光盘符\例题\ex2-6 summarize x,detail 综述变量x
28
8
频数分布图

连续变量

不等距分组:横轴表示观察变量,纵轴表示每个横 轴单位的频数。
25
20
15
n um
10
5
0 0 5 10 15 20 25 30 age 35 40 45 50 55 60
9
频数表/图的用途


揭示资料分布类型:频数图较频数表更 直观 描述频数分布的重要特征:

集中趋势与离散趋势
17
离散程度的描述---极差和四分位 间距

四分位数范围P25~P75(inter-quartile range)

描述了50%数据分布的宽度 反映分布的位置特征
18
离散程度的描述---方差和标准差

方差variance :适用于对称分布的资料
总体方差
2
2

2

(X
(X
X) n
M 1 2 (X
n 2

当n为偶数时 当n为奇数时
X
n 1 2
)
M X
n 1 2
13
统计指标描述---集中趋势

中位数计算

离散型变量:直接法 连续型变量:借助频数分布表

以组中值代替公式中的X 计算公式
M LM iM fM ( n 2

fL )

LM中位数所在组前一组的累积频数
L
14
离散程度的描述---极差和四分位间距

极差(range):最大值-最小值
优点:简单明了 缺点:不能反映其它数据的变异 样本量较大时极差也较大 不宜比较
15
离散程度的描述---极差和四分位 间距

百分位数(percentile):位置指标

第x百分位数Px:将所有数据从小到大排列后,处于第 x百分位置的数值。中位数 P50
23

峰度系数g2:描述分布的尖峭程度

小 结


集中趋势指标:不同分布情况下,描述 指标的选择 离散趋势指标:各个指标的应用和特点 如何从集中趋势和离散趋势两个角度对 数据进行合理的描述
24
STATA命令
等距分组频数图(例2.1) use 光盘符:\例题\ex2-1
打开数据库文件ex2-1.dta

便于发现特大与特小的可疑值 便于进一步计算统计指标和做统计处理
10
统计指标描述---集中趋势

算术均数:简称均数

总体均数μ,样本均数 X 当数据对称分布时,位于分布的中心,是频数分布最 集中的位置
X
直接法:

n
X
加权法:
X
fX f
i
11
统计指标描述---集中趋势

几何均数G:
2

S 样本方差 S n 1 离均差平方和:描述每个数据X相对于 X 分 布的集中程度;与样本含量n有关,样本含 量不同时不宜直接比较
2
X)
2
19
离散程度的描述---方差和标准差


方差:相当于平均每个数据的离均差的 平方;可用于不同样本含量数据离散度 的比较。 自由度(degree of freedom):当 X 选定时 n个X中能自由变动的X的个数
4
频数表

频数表的制作

确定各组上下限(每个组段的起点和终点):

第一组包含最小值 组段不能重叠 每一组段都为半开半闭区间 最后一组应为闭区间 离散型资料的组段通常为一个取值
5
表2.1 110名7岁男童身高频数分布
组段 频数 频率% 累计频数 累计频率% -------------------------------------------------------1101 0.91 1 0.91 1123 2.73 4 3.64 1144 3.64 8 7.27 11610 9.09 18 16.36 11815 13.64 33 30.00 12022 20.00 55 50.00 12221 19.09 76 69.09 12414 12.73 90 81.82 12610 9.09 100 90.91 1284 3.64 104 94.55 1303 2.73 107 97.27 1322 1.82 109 99.09 134-136 1 0.91 110 100.00
6
频数分布图

连续变量

以直方顶点的纵坐标(等距分组)或直方的面 积大小(不等距分组)表示频数的多少

离散变量

以各直条的长短表示频数的多少
7
频数分布图

连续变量

等距分组:横轴表示观察变量,纵轴表示每个横轴 组段的频数。
22 20 18 16 14
F re q ue n c y
12 10 8 6 4 2 0 110 112 114 116 118 120 122 g 124 126 128 130 132 134 136

适用于经对数转换后呈对称分布的数据,如医学上的 滴度资料
G
n
X 1 X 2 .... X n
f lg X
G
lg (

) f
12
统计指标描述---集中趋势

中位数

将一组观察值从小到大排列位置居中的数 适用于

任何分布的定量数据 不完全资料(开口资料):没有确切最大值或最小值的资料

比较度量衡单位不同资料的变异度 比较均数相差悬殊资料的变异度
22
离散程度的描述---分布形状

偏度系数g1:定量描述分布的偏态;

是两个同样单位的比,无量纲; 系数的绝对值描述分布的偏斜程度 g1=0,分布对称; g1>0 分布正偏;g1<0分 布负偏 是两个同样单位的比,无量纲; g 2=0 ,正态峰;G2>0尖峭峰;G2<0平阔峰

gen f=int((x-110)/2)*2+110
产生用以作频数表的新变量“f”

tab f
对变量“f”作频数表

graph f,bin(13) freq
作频数图
25
STATA命令
不等距分组频数图(例2.2) use 光盘符:\例题\ex2-2 打开数据文件ex2-2.dta graph num age, c (J) s(.) xlab (0 5 to 60) ylab(0 5 to 25) 作频数图,其中c(J),以阶梯状横线连 接各数据点。xlab和ylab为x轴和y轴的刻 度,输出结果如下
相关文档
最新文档