2.3.定量资料的统计描述1
第二章 定量资料的统计描述 1-4节
fx x f
0
1 7 3 9 .... 1 29 2228 18.57( μ m ol/ L) 1 3 .... 1 120
2、几何均数(geometric mean,G)
有研究者测定8人血清的抗体效价分别为 1:200,1:25,1:400,1:800,1:50,1:100, 1:50,1:25,求平均抗体滴度。该研究者用倒 数求均数,得平均抗体低度为1:206.25。 1)资料的类型? 2)该研究者对资料的描述是否正确? 3)如何描述该资料的集中趋势?
第二章
定量资料的统计描述
第一节 频率分布表与频率分布图
频率分布表(frequency distribution table):
整理原始数据的一种工具,用来表示数据 各观察值在不同取值区间出现的频数分布情 况。 频数分布表: 显示数据分布的范围、分布最集中的区间 和分布形态。
一、离散型定量变量的频率分布 例2-1 某年某山区96名孕产妇产前检查次 数资料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5….4,7 试编制产前 检查次数的频率分布表
(1)直接法:直接将所有原始观察值相加, 再除以总例数。
x1 x2 ..... xn x n
x
i 1
i
n
(2 1)
例2-3 某年某医院女性晚期肺癌患者红 细胞计数(1012/L)为4.20,6.43,2.08, 3.45, 2.26,4.04,5.42,3.38。试求其算术均 数。
1.描述变量的分布类型 1)对称分布 2)偏态分布 (1)正偏态分布:峰向左侧偏移 (2)负偏态分布:峰向右侧偏移 2.揭示变量的分布特征 集中趋势:频数向中间组段集中, 离散趋势:由中间组段向两侧,频数逐渐 减少 3.便于发现某些离群值或极端值 4.便于进一步计算统计指标和统计分析
定量资料数据的统计描述
f lg X lg f
1
X1,X2…Xn 为各组段的滴度或滴度倒数。 f1,f2…fn分别为各组段的频数。
例2-6 52例慢性迁延性肝炎患者的HBsAg滴度 数据见表2-4,求其平均滴度。
2 1.20412 7 1.50515 ... 7 2.7027 G lg 1 52 lg 1 108.06977/ 52 lg 2.7017 119.74705
①两端的组段应分别包含最小值或 步骤: 最大值; (1) 求全距:(极差) R=29.64-7.42=22.22 ②尽量取较整齐的数值作为组段的 端点,便于对数据进行表述; (2) 定组段数与组距 : 8~15个组段,组距i=全距/组段数 ③组距以相等为宜。 (3) 划组段:以一个稍小于或等于最小值的整数作为第一个
理的各种因素在个体之间都不会完全相同,即个体间存在差
异,因此导致某地18-35岁健康男性居民血清铁含量不会完全 相同,而是呈现或大或小的离散趋势。
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ 表
四、频数分布的类型
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。 正偏态分布:集中位置偏向数值小的一侧。
偏态分布型
频数分布
负偏态分布:集中位置偏向数值大的一侧。
频数表的用途
1. 揭示频数分布的分布特征和分布类型。文献中常 将频数表作为陈述资料的形式。
图中横轴为血清铁含量,纵轴为频率密度,直条面 积等于相应组段的频率。
最新定量资料的统计描述
定量资料的统计描述第四章定量资料的统计描述通过调查或实验收集到资料之后,需要对资料进行统计分析。
统计分析包括统计描述和统计推断两个方面的内容。
统计描述就是对数据包含的信息加以整理、概括和浓缩,用适当的统计图表和统计指标来表达资料的特征或规律,统计描述也是统计推断的基础。
本章介绍定量资料(quantitative data)的统计描述。
第一节频数分布表与频数分布图一、频数分布表从医学实践中收集到的大量资料,如果只是简单地罗列一连串的数据,不容易看出其中蕴涵的信息和规律,所以需要进行分组整理,以便能用简明扼要的形式来全面反映资料的特点。
分组整理就是根据研究的目的,将数据按照某种标准(标志)划分成不同的组别,统计不同组别内的观察值个数。
不同组别的观察值个数就称为频数(frequence),表示观察值在各组出现的频繁程度。
将分组的标志和相应的频数列表,即为频数分布表,简称频数表(frequency table)。
不同类型的定量变量可以制作不同分组形式的频数表。
(一) 离散型定量变量的频数表例4.1 某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,根据该资料制作频数表。
本次调查资料“引体向上完成次数”是离散型定量变量,所以按变量的取值(次数)为单位分组,再列出各组的频数,如表4.1的第(1),(2)栏,就能得到相应的频数表。
将各组的频数除以总频数所得的值称为频率,见第(3)栏。
某组的累计频数是该组与前面各组频数之和,见第(4)栏。
显然,第一组的累计频数等于其频数,最后一组的累计频数等于总例数;累计频数除以总频数所得的值称为累计频率,见第(5)栏。
表4.1 2005年某市102名高中男生引体向上完成次数的频数分布完成次数频数f频率(%) 累计频数累计频率(%)(1) (2) (3) (4) (5)2 3 2.94 3 2.943 7 6.86 10 9.804 16 15.69 26 25.495 33 32.35 59 57.846 24 23.53 83 81.377 14 13.73 97 95.108 4 3.92 101 99.029 1 0.98 102 100.00合计102 100.00 ——(二) 连续型定量变量的频数表例4.2 在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。
第2章定量资料的统计描述
1、计算方法 (1)直接法:当样本含量较小时,用直接法。公 式:
X
X
n
例2.3 测得8只正常大鼠血清磷 酸酶含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42, 3.38。试求其算术均数。
10
5
0
0
1
2
3
4
检查次数
某地96名产妇产前检查次率分布
频数
5
>5
>5
二、连续型定量变量的频数分布
例2.2 某地120名18~35岁健康男性居民血清铁含量 (umol/L),编制频数表。
7.42 8.65 23.02 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 20.38 8.04 17.32 29.64 19.69 23.90 17.45 19.08 20.52 24.14 23.77 18.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 14.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 14.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 24.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 17.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 14.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 21.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52
统计学基础练习题库及参考答案
第一章定量资料的统计描述1第一部分一、单选题1、甲乙丙三位研究者评价人们对四种方便面的喜好程度。
甲让评定者先挑选出最喜欢的品牌,然后挑出剩余三种最喜欢的,最后挑出剩余两种比较喜欢的。
研究者乙让评定者把四种品牌分别给予1~5的等级评定(1表示最不,5表示最喜欢),研究者丙只是让评定者挑出自己最喜欢的品牌。
三位研究者所使用的数据类型是:BA.称名数据-顺序数据-计数数据B.顺序数据-等距数据-称名数据C.顺序数据-等距数据-顺序数据D.顺序数据-等比数据-计数数据2、调查200名不同年龄组的被试对手表的偏好程度如下:表1 200名不同年龄组的被试对手表的偏好程度该题自变量和因变量的数据类型是:DA.称名数据-顺序数据B.计数数据-等比数据C.顺序数据-等距数据D.顺序数据-称名数据3、157.5的实上限是:CA.157.75 B.157.65 C.157.55 D.158.54、随机现象的数量化表示称为:BA.自变量B.随机变量C.因变量 D.相关变量5、实验或研究对象的全体称为:AA.总体B.样本点C.个体D.元素6、下列数据中,哪个数据是顺序变量:CA.父亲月收入2400元B.迈克的语文成绩是80分C.约翰100米短跑得第2名D.玛丽某项技能测试得了5分。
二、概念题数据类型、变量、观测值、随机变量、总体、样本、个体、次数、比率、概率、参数、统计量、μ、ρ、r、σ、S、β、n。
第一章定量资料的统计描述2一、单选题1、一批数据中各个不同数据值出现的次数情况是:AA.次数分布B.概率密度C.累积概率密度D.概率2、以下各种图形中,表示连续数据频次分布的是:CA.条图B.圆图C.直方图D.散点图3、特别适用于描述具有百分比结构的分类数据的统计图:BA.散点图B.圆图C.条图D.线图5、以下各种统计图中,表示离散数据频次分布的:AA.圆图B.直方图C.散点图D.线形图6、相关变量的统计图是:AA.散点图B.圆图C.条图D.线图7、适用于描述某种事物在时间上的变化趋势,以及一事物随另外一事物的发展变化的趋势,还适用于比较不同人物群体在心理或教育现象上的变化特征以及相互联系的统计图是:D A.散点图B.圆图C.条图D.线图二、多选题1、频次分布可以为:ABCDA.简单次数分布B.分组次数分布C.相对次数分布D.累积次数分布2、以下各种图形中,表示连续数据频次分布的是:BDA.圆图B.直方图C.条图D.线图3、累加曲线的形状大约有:ABDA.正偏态B.负偏态C.F分布D.正态分布4、统计图按照形状划分为:ABCDA.直方图B.曲线图C.圆图D.散点图三、简答题1、简述条图、直方图、圆图、线图、散点图的用途。
定量资料的统计描述
1.集中趋势 (算术)平均数: 几何均数: 中位数:
2.离散趋势 全距: 四分位数间距: 离均差平方和: 方差: 标准差: 变异系数:
3.正态分布 特征: (P16) 应用 估计频率分布
确定医学参考值范围
4.t 分布
(正态近似法和百分位数法)
质量控制 理论基础 特征: (P22) 应用 区间估计 假设检验
(P42)
Ni N
p NNi pi
标准组选取方法 有代表性的
(P42)
两组合并 择其一
定量资料(计量资料)统计推断
一、定量资料的参数估计 (P23)
1.点估计: X
2.区间估计 σ未知,n较小: Xt.SX
σ已知: Xu.X
σ未知但n足够大:
Xu.SX
二、定量资料的假设检验 (P26)
t
检验
单个样本t检验:
3. yˆ 的含义( P138或见讲义) 。
4.回归与相关的区别和联系(见讲义) 5.等级相关的适用范围(P147)。 6.直线回归的应用(P142~ P143 )。
统计表与统计图
1.统计表的分类(P255) 2.统计表的编制要求(P253) 3.统计表的改错(P255)
4.常用统计图的适用条件及要求
(P256 ~ P259 )
基本概念(见讲义)
1.总体和样本(P3) 2.参数和统计量(见讲义)
3.变异(见讲义)
4.抽样误差(见讲义) 5.概率(P4) 6.样本含量(P3) 7.定量资料(P4) 8.定性资料(P4)
9.正偏态分布(P8) 10.负偏态分布(P8) 11.中位数(P11) 12.百分位数(P13) 13. 医学参考值范围(P18) 14.统计推断(P20) 15. 标准误(P22) 16.参数估计(P23)
定量资料的统计描述
编制频数分布表的步骤
第一组段包括最小值,最后 一组段包括最大值,除最后 一组段可同时标出上下限, 其他组段只标出下限。
一般 8- 15 之间 求出极差 确定组段数 确定组距
列出各个组段
确定每一组段频数 选 根据变量值大小 把各观察单位归 入各个组段
极差即最大值 与最小值之差
组距=R/组段数, 但一般取一方便 计算的数字
常用的平均数有: 算术平均数(均数)(mean) 几何平均数(geometric mean)
中位数 (median)与百分位数(percentile)
众数(mode)
一、算术平均数
算术平均数:简称均数(mean)
可用于反映一组呈对称分布的变量值
在数量上的平均水平或者说是集中位置
的指标值。
1、算术平均数的计算方法
M X 9 1 X 5 15
2
பைடு நூலகம்
如果只调查了8家外企,则
2 14 15 2 14.5 M X X 8 8 1 2 2
频数分布表资料的中位数
M 所在组段下限值 (n 50% 至该下限值的累计频数) 组距 所在组段下限值至上限值间的频数 (n 50% f L ) M L i fm
i , fm
下限值L
中位数M
上限值U
例1 频数表中位数的计算
N=∑f
中位数=71+3x[(130x50%-59)/26]=71.69
2、中位数的应用
各种分布类型的资料
特别适合大样本偏态分布资料或者 分布末端无确切数值的资料。
第二节 描述集中趋势的统计指标
统计上使用平均数(average)这一指标体系来描述 一组变量值或观察值的集中位置或平均水平。
定量资料的统计描述
四分位数 间距
方差与标 准差 变异系数
频数分析(Frequencies )
下面我们结合人群的年龄(age)数据学习如何使用SPSS计算统计指 标。
部分中英文对照:
描述统计(Descriptives )
对于近似正态分布的资料,我们还可以通过Descriptives获取统计指 标。这是一组使用某法多次测定某水样中碳酸钙含量的数据,符从正态分 布,下面我们用Descriptives的方法计算这组数据的统计指标。
打开SPSS软件自带的数据demo.sav,找到car,这是一组 私家车价格的资料,我们将结合这组数据学习连续型定量资料 频数分布表和频数分布图的绘制。
变量视图
一般步骤
1.求极差 2.确定组段数和组距 3.根据组距写出组段 4.制作频数表和频数图
求极差
求极差
确定组段数和组距
1.极差:R=95.7≈100
定量资料统计描述
定量变量
定量变量可以分为两种类型: 1.离散型变量:只能取整数值,例如,一个月中的
手术病人数,一年里的新生儿数。
2.连续型变量:可以取实数轴上的任何数值,例如, 血压,身高,体重等。
统计描述
统计描述是通过绘制统计表、统计图 或计算相应的统计指标来说明资料的分布 规律及其数量特征,是进一步统计推断的
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分
1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
统计指标 正态性检验
正态性检验
探索分析(Explore )
四分位数间距
探索分析(Explore )
探索分析(Explore )
实习1,定量资料的统计描述
Frequency过程 软件实现
Analyze/Descriptive Statistics/Frequencies/
Frequency过程
Descriptive 过程
Descriptive 过程:
可对资料进行简单统计描述; 可将原始数据标准化,并产生标准化变量 一般用于对服从正态分布的定量变量进行描述;
Frequency过程
可对资料进行统计描述
可以计算任意百分位数
可以产生相应的条图、直方图
一般用于不服从正态分布资料
Frequency过程
数据背景:调查对象为某社区 50糖尿病患
者,文件名糖尿病资料.sav。主要调查内容如 TC、LDL。
要求:1、对患者的年龄进行描述。
下:一般资料为性别、年龄;检测指标有 TG 、
Analyze/Descriptive Statistics/Descriptive/
Descriptive 过程
Mean:算术均数
Sum:求和
Dispersion:离散程度统计量 Std. deviation:标准差 Variance:方差 Range:极差 Minimum :最小值 Maximum:最大值 S.E. mean:标准误
图12-1 160名正常成年女子的血清甘油三酯的频数分布图
理论复习
2.正偏态分布:
集中位置偏向数值小
的一侧,高峰偏于左 侧,长尾向右延伸。
理论复习
3.负偏态分布:
频 数
评分 某市219名乳腺癌患者术后康复期生存质量评分的分布
定量资料的统计描述方法
Frequancy过程(偏态分布资料) Descriptive过程(正态分布资料)
小结
定量资料的统计描述
一、基本概念
总体与样本 变量 误差 概率
二、资料和统计分析
资料的两种类型
定量资料(计量资料) 定性资料(分类资料) 连续 离散 二项分类 多项分类
无序
有序(等级)
根据变量取值特点,计量资料分为:
连续性资料:变量值可以在实数轴上连续变
动。如红细胞数、身高、体重。
定量资料统计描述过程:
定量 资料 统计 描述
一、Descriptives过程
进行一般性的统计描述(统计指标) 适用于服从正态分布的定量资料 特殊功能:可对原变量进行标准正态 变换N(0,1)
Descriptives过程:
标准 正态 变换: Z+?
峰度系数、 偏度系数
二、Frequencies过程
涉及的统计指标比Descriptives过程全 面,可产生详细的频数表,并给出常用统 计图。 更适用于对分类资料以及不服从正态分 布的连续性变量进行描述。
Frequencies过程:
产生 频数 表
Frequencies过程:
正态 曲线
三、Explore 过程(探索性分析)
三个过程中功能最强大,对变量的描 述统计更深入详尽; 适用于对资料的性质、分布特点完全 不清楚时; 特殊功能:茎叶图、箱式图
2.Descriptive Statistic
3.Descriptives
optins
几何均数的计算
教材P45 例4.4 数据录入 分析过程
对数转换:Transform Compute
生成 新变 量lgx
Transform
Compute:
函数 组
练习
课后习题P394 第3题
定量资料的统计描述定量资料的统计描述通过调查或
第四章定量资料的统计描述通过调查或实验收集到资料之后,需要对资料进行统计分析。
统计分析包括统计描述和统计推断两个方面的内容。
统计描述就是对数据包含的信息加以整理、概括和浓缩,用适当的统计图表和统计指标来表达资料的特征或规律,统计描述也是统计推断的基础。
本章介绍定量资料(quantitative data)的统计描述。
第一节频数分布表与频数分布图一、频数分布表从医学实践中收集到的大量资料,如果只是简单地罗列一连串的数据,不容易看出其中蕴涵的信息和规律,所以需要进行分组整理,以便能用简明扼要的形式来全面反映资料的特点。
分组整理就是根据研究的目的,将数据按照某种标准(标志)划分成不同的组别,统计不同组别内的观察值个数。
不同组别的观察值个数就称为频数(frequence),表示观察值在各组出现的频繁程度。
将分组的标志和相应的频数列表,即为频数分布表,简称频数表(frequency table)。
不同类型的定量变量可以制作不同分组形式的频数表。
(一) 离散型定量变量的频数表例4.1 某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,根据该资料制作频数表。
本次调查资料“引体向上完成次数”是离散型定量变量,所以按变量的取值(次数)为单位分组,再列出各组的频数,如表4.1的第(1),(2)栏,就能得到相应的频数表。
将各组的频数除以总频数所得的值称为频率,见第(3)栏。
某组的累计频数是该组与前面各组频数之和,见第(4)栏。
显然,第一组的累计频数等于其频数,最后一组的累计频数等于总例数;累计频数除以总频数所得的值称为累计频率,见第(5)栏。
表4.1 2005年某市102名高中男生引体向上完成次数的频数分布完成次数频数f频率(%) 累计频数累计频率(%)(1) (2) (3) (4) (5)2 3 2.94 3 2.943 7 6.86 10 9.804 16 15.69 26 25.495 33 32.35 59 57.846 24 23.53 83 81.377 14 13.73 97 95.108 4 3.92 101 99.02 9 1 0.98102 100.00合计 102 100.00 — —(二) 连续型定量变量的频数表例4.2 在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。
定量资料统计描述
定量资料统计描述概述定量资料是指数据以数字形式呈现的资料,与定性资料(如文字、图片等)不同,定量资料的数据具有明确的数值意义,常常需要进行统计分析。
在众多的数据分析方法中,统计是最为基础和重要的一种。
在统计分析中,描述统计是对搜集的数据进行基本的描述和概括,为进一步分析打下基础。
本文将从以下几个方面介绍定量资料的统计描述:1.定量资料的类型2.定量资料的统计描述方法3.定量资料的图表展示定量资料的类型定量资料通常可分为连续型和离散型两种。
具体来说,连续型数据是指在一定区间范围内可以取任意值的数据,如身高、体重等。
而离散型数据则是指一个变量只能取有限个取值的数据,例如血型、班级人数等。
定量资料的统计描述方法1. 集中趋势集中趋势是描述一组数据中心位置的统计指标,常用来表征该组数据的一般水平。
主要指标包括均值、中位数及众数。
其中,均值是指某组数据所有数据之和除以数据的个数,中位数是在一组数据中,数值按照从小到大排列,处于中间位置的数据,众数则是指整个数据中出现最频繁的那个数据。
2. 离散程度离散程度是描述一组数据分散程度的统计指标,常用来表征该组数据的分布情况。
主要指标包括极差、方差和标准差。
其中,极差是指一组数据最大值与最小值的差,方差是各数据偏离它们算术平均数的平方和的平均数,标准差则是方差的非负平方根。
3. 偏态与峰态偏态和峰态是描述一组数据偏离正态分布情况的统计指标。
偏态是指一组数据分布的不对称程度,主要指标包括偏态系数。
而峰态是指一组数据分布峰值的高低程度,主要指标包括峰态系数。
定量资料的图表展示图表展示是定量资料描述的一种重要手段。
常用的图表形式包括直方图、折线图、箱线图等。
1. 直方图直方图是一种对连续性定量数据分布情况的图形表示。
在直方图中,数据被划分为几个区间,每个区间的数据频数用柱形的高度来表示。
直方图能够反映数据的集中趋势和分散程度。
2. 折线图折线图是一种用折线表示数据值的图形,常用来描述离散型定量数据的变化趋势。
定量资料统计描述(1)
7
25 频数20
15 10 5 0
年龄(岁)
某市某年乙脑患者的年龄分布
8
0.5
2.5
4.5
6.5
8.5 10.5 12.5 14.5
16.5 18.5 20.5 22.5 24.5
26.5 28.5 30.5 32.5 34.5
36.5 38.5 40.5 42.5 44.5
46.5 48.5 50.5 52.5 54.5
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征
集中趋势(Central tendency) 离散趋势(Tendency of dispersion)
9
3) 利于发现某些特大或特小的可疑值 4) 便于进一步进行统计分析
10
4. 频数分布图 以观测变量为横轴,频数(或频率)为纵轴
所作的直方图,称为频数分布图。用途与频 数表类似,但更直观、形象。
11
二、集中趋势的描述
描述定量资料数量特征和分布规律的统计 指标有两类:
一类是描述数据分布集中趋势的指标,即 平均数(average);
另一类是描述数据分布离散程度(或变异 程度)的指标。
12
1. 算术均数(arithmetic mean) 简称均数(mean),它描述一组数据在
累计频数等于该组段及前面各组段的频数 之和;累计频率等于累计频数除以总例数。 累计频率描述了累计频数在总例数中所占比 重。
6
2. 频数分布的类型
① 对称分布:集中位置在正中,左右两侧大体对称。
② 偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
频数分布类型不同,统计描述的方法不同。
【精品】定量资料的统计描述
【精品】定量资料的统计描述定量资料的统计描述是指通过定量数据分布的一系列统计量来描述一个样本或总体的特征。
常用的统计量包括中心位置、离散程度、分布形态和相关性等。
中心位置中心位置是指数据分布的平均水平。
常用的中心位置统计量包括平均数、中位数和众数。
平均数是所有数据值的总和除以数据个数。
它具有良好的代表性,但受极端值的影响较大,因此需要谨慎使用。
中位数是将数据按大小排序后位于中间的数值,当数据存在极端值时,中位数比平均数更能正确反映数据的中心位置。
众数是数据中出现次数最多的数值,适用于分布具有明显峰值的情况。
离散程度离散程度是指数据分布的距离平均值的大小。
常用的离散程度统计量包括标准差、方差、极差和四分位数差等。
标准差是数据离均值的平均距离,是最常用的衡量数据分散程度的统计量。
方差是标准差的平方,由于平方的量级较大,因此比标准差不易解释。
极差是数据最大值与最小值之差,不考虑数据内部的分布情况,因此不具有代表性。
四分位数差是在数据中将数值分为四个部分,即25%、50%、75%三个分位点,然后用75%分位点减去25%分位点,用于描述数据离散程度。
分布形态分布形态是指数据分布的偏态和峰态。
常用的分布形态统计量包括偏度和峰度。
偏度是反映数据分布偏斜程度的统计量,正偏分布表示分布的长尾在分布的右侧,负偏分布表示分布的长尾在分布的左侧。
当偏度为0时,表示分布是对称的。
峰度是反映数据分布峰态的统计量,正峰分布表示分布的峰在分布的中心较高,负峰分布表示分布的峰在分布的中心较低。
当峰度为0时,表示分布的峰态基本接近正态分布。
相关性相关性是指两个变量之间的关联程度。
常用的相关性统计量包括相关系数和协方差。
相关系数是反映两个变量之间线性相关程度的统计量,取值范围为-1~1之间,正值表示正相关,负值表示负相关,0表示不相关。
协方差是反映两个变量之间相关性的统计量,数值大小表示两个变量之间的相关程度,但由于单位的影响,不易比较。
定量资料的统计描述
2017/9/8
定量资料的统计描述
35
由于实际工作中,只能用 X 作为μ的估计值,用 样本例数n代替N,计算方差,但这样算得的方 差常常比要σ小些。 调整方法:英国统计学家W· S· Gosset提出用
(n-1)代替n,于是得到了计算样本方差S2的公式:
• ( n - 1):自由度υ(degree of freedom)
确定确定组距:等距分组时,组距=R/组数,为便于
计算,组距可适当取整。本例组距
=2.23/12=0.186mmol/L,故可取0.2mmol/L为组距。
2017/9/8 定量资料的统计描述 10
确定确定各组段的上下限:本例取3.2为第一
组下限,加上组距0.2即为第二组下限,依次 类推,直到最末一组。为表示各组段均为半 开半闭区间(下限为闭区间,上限为开区 间),除最末一组外,一般只写出下限。
2017/9/8
定量资料的统计描述
31
2. 四分位数间距(quartile range, Q)
Q = QU - QL = P75 - P25
四分位数为特定的百分位数,用Q表示, 四分位数间距为:Q=P75-P25。 四分位数间距内包含全部变量值的1/2, 可看作中间1/2变量值的全距。其数值越大, 变异度越大,反之,变异度越小。
2017/9/8 定量资料的统计描述 32
四分位数间距的优点:稳定性比极差好, 但仍未考虑全部观察值的变异度,适用 于描述偏态频数分布、分布的一端或两 端无确切数值资料以及未知分布资料的 离散程度。
2017/9/8
定量资料的统计描述
33
3. 方差(variance)
为了全面地考虑各个观察值的离 散情况,克服极差和四分位数间距未 能充分利用每个观察值所提供的变异 信息的缺点,应寻找一种能利用每个 观察值所提供的变异信息的指标。
定量资料的统计描述(1)幻灯片PPT
119.4
128.2
124.1
125.1
124.4
112.3
122.5
129.1
126.6
128.4 125.6 121.6 124.0 131.3 116.3 115.2 123.0 115.0 127.2 121.3 134.5
124.5 127.6 115.2 119.0 123.8 126.1 118.0 117.4 122.8 120.0 127.0 118.3
频数 2 7 9
14 15 21 18 15 10
5 3 1
10
2.1描述分布类型
对称分布——强调:近似正态分布 (中间高、两边低,左右对称,近似 钟型) 本例为近似正态分布
11
120名8岁男孩身高频数表
112~
14
1215 4~
15
116~
2211
1210 8~ 1125 0~14
15
18 18 15 15
126.2 127.8 120.3 118.8 124.9 122.8 118.4 116.9 122.1 121.1 127.1 127.6
128.1 128.3 122.3 121.8 130.0 128.6 121.0 126.4 120.4 124.8 122.5 125.2
130.6 131.8 118.2 124.5 123.5 122.0 119.1 114.2 124.8 122.7 116.3 121.5
图 239人发汞含量的频数分布
400 人 数
300
200
100
0 0 10 20 30 40 50 60 70 80 90 100 自评分
图 某城市892名老年人生存质量自评分的频数分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P25, P75, P95, P97.5.
Px
X% (100-x)%
计算
将观察值按大小顺序排列,当 n为奇数时,M=X(n+1)/2 (位置居中的那个数值) n为偶数时,M=[Xn/2+Xn/2 +1]/2 (即位置居中 的两个数值的平均数)
①中位数的直接计算法(n 较小)
例:8 2 7 9
10
离散趋势两个方面 进行。
统计分析
统计描述 统计推断
样本信息 总体信息
统计指标
计量资料:平均数指标,变异指标 计数资料:相对数指标
一、计量资料频率分布表
当观察单位较多时,从原始数据难以看出资料
的分布特征。为了解变量的分布规律,分布范
围,分布形态等,可编制频率表。
1.
频率表的概念:列有各观察单位的变量值及相
定量资料的统计描述 (4 学时)
杨双波 流行病与卫生统计学教研室
例:请描述你们班所有人身高的特征
1.我们班所有人的身高:高矮不等,最高的接近
180cm,最矮的接近140cm-----离散趋势。
2.但我们大多数人的身高都在165cm附近,以
165cm为中心,左右基本对称-----集中趋势
描述一个资料的分布特征从集中趋势和
组段 频数(fi) (1) (2) 124~ 2 128~ 3 132~ 11 136~ 22 140~ 39 144~ 27 148~ 16 152~ 5 156~ 3 160~164 2 合计 ∑fi=130 组中值(xi) fixi (3) (4)= (2)×(3) 126 252 130 390 134 1474 138 3036 142 5538 146 3942 150 2400 154 770 158 474 162 324 -∑fixi=18600 fixi2 (5)= (2)×(3)2 31752 50700 197516 418968 786396 575532 360000 118580 74892 52488
适用条件:用于正态分布资料或近似正态分布资料
算术均数的特征
①各离均差之和等于0 (x1-x)+(x2-x)+(x3-x)+…+(xn-x) =(xi-x)=0
②各离均差之平方和小于各变量值与任一数之差
的平方和
(xi-x)2< (xi-a)2
(x≠a)
例:资料 1、2、3、4、5
x=3
(xi-x)=(1-3)+(2-3)+(3-3)+(4-3)+(5-3)=0 (xi-x)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10
若a取1,则
(xi-a)2=(1-1)2+(2-1)2+(3-1)2+(4-1)2+(5-1)2=30
2. 几何均数(geometric mean)
X: 10 f: 5
20 9
40 20
80 10 1.903
160 6 2.204
呈等比(倍数)关系
㏒X: 1.000 1.301 1.602
呈正态分布
原来的资料称为对数正态分布资料
5
①G=√20×40×
80×160×320 =80
G= ㏒-1(
② G=㏒-1
∑㏒X
)= ㏒-1(1.301+1.602+1.903+2.204+2.505)=80 n 5
例:甲组 26 28 30 32 34
X甲=30 R甲=8
乙组 24 27 30 33 36
丙组 26 29 30 31 34
X乙=30 R乙=12
X丙=30 R丙=8
R乙>R甲= R丙 ∴ 乙组的变异度最大,甲组与丙 组谁的变异度大呢? 极差不能说明。
2.四分位数 (quartile)间距:包括中间50%的变
P5 =(X6+X7)/2=(3+4)/2=3.5
P99 = X[trunc(118.8)+1] = X119 =42
③中位数和百分位数的频数表计算法(n 较大) 例:某传染病的潜伏期见下表,求平均潜伏 期和M (P50)和第95百分位数P95及 P2.5,
P5, P25, P75, P97.5.
3
4
适用条件:
①用于反映偏态分布资料的集中趋势,也
可用于正态分布资料
②用于开口资料,即资料的一端或两端没 有确定的数据(大于或小于) ③用于分布类型不清楚的资料
三、反映离散趋势的指标
1. 全距(range, 又称极差)
2. 四分位数 (quartile)间距
3. 方差(variance)和标准差(standard deviation) 4. 变异系数(Coefficient of Variation, CV)
概念:一组数据按大小顺序排列,位置居中的这个数即 为中位数 。用M表示。中位数是一个位置指标,以中位 数为界将观察值分为左右两半。
百分位数:是把一组数据从小到大排列,分成100等份, 用Px表示。中位数是P50.常用的百分位数还有P2.5, P5,
各等份含1%的观察值,分割界限上的值就是百分位数。
1.全距(range,
又称极差):
一组观察值中最大值与最小值之差。用R表示。
特点:
①简单、明了,常用于说明传染病、食物中毒等的最 长和最短潜伏期。
②除了最大值和最小值外,不能反映组内其它数据的 变异度 ③样本例数越多,抽到较大或较小变量值的可能性越 大,极差可能越大。样本例数悬殊时不宜比较极差。 ④即使样本例数不变,极差的抽样误差亦较大,即不 够稳定。
8 9 10 M=8
按大小排列:2 7
2 7
8 9 10
6
M=(7+8)/2=7.5
②百分位数的直接计算法:
设有n个原始数据从小到大排列,第x百分位 数的计算: 当n.x%为带有小数位时:PX=X[trunc(nx%)+1] 当n.x%为整数时:PX=[Xnx%+X(nx% +1)]/2 式中trunc(a)表示对数字a舍去小数位数而取其整 数。
Px=L+ i (n•x% -∑fL)
fx
f x ∑fL
该百分位数所在组段的频数 该百分位数所在组段以前的累积频数
i
100%
97.22 % 91.67% 68.52% 24.07%
该百分位数所在组段的组距
该百分位数所在组段的下限
L
4-
8-
12-
16-
20-
24
M=P50=8+ 48 (108×50%-26)=10.33 4 P95 = 16+ 6 (108×95%-99) =18.4 4 P2.5 = 4+ 26 (108×2.5%-0) = 4 P5 = 4+ 26 (108×5.0%-0) = 4 P25 = 8+ 48 (108×25%-26) = 4 P75 = 12+ 25 (108×75%-74) = 4 P97.5 = 20+ (108×97.5%-105)=
)=㏒-1(5×1.000+9× 1.301+ 20× 1.602+ 10×1.903+6×2.204)=41.70 5+9+20+10+6
(
∑f㏒X ∑f
应用条件
适用于对数正态分布资料或数据呈倍数(等比)
变化的资料。
注意:资料中不能有0或同时有正和负数
3 . 中位数(median) 与百分位数(percentile)
2 .编制步骤
①求极差(全距,range)
R=最大值-最小值=162.6-125.9=36.7
②确定组距,列出组段 i≈R/10= 3.67~4.0 总之,组段和组距的选取 以方便阅读和计算为原则。(尽量取“整数”)最 小组段包含最小值,最大组段包含最大值。 ③根据组段,划记后获得频数
表9-2 某农村地区1999年130名14岁女孩的的身高(cm)资料
先将观察值编制成频数表,按所分组段由小到大计
算累积频数和累积频率,找出中位数或百分位数所在组。
见下表
表:某传染病的潜伏期(天)的中位数和百分位数计算表
潜伏期(天) (1) 4~ 8~ 12~ 16~ 20~ 人数(f) (2) 26 48 25 6 3 累积频数(∑f) (3) 26 74 99 105 108 累积频率(%) (4) 24.07 68.52 91.67 97.22 100.00
1.算术均数(mean),简称均数. 计算
样本:X,总体:
①直接法(n较小)
X
=(x1+x2+x3+… +xn)/n=X/n=3.91(U/L) x1+f2x2+f3x3+… +fixi)/(f1+f2+f3+… +fi) 1
②加权法(n较大)
X=(f
=fixi/fi =18600/130=143.08(cm)
10
Std. Dev = .66 Mean = 4.03 0 2.25 2.75 3.25 3.75 4.25 4.75 5.25 5.75 2.50 3.00 3.50 4.00 4.50 5.00 5.50 N = 101.00
ª å Ü ¨Ì ¼ Ñ Ç ×µ ¹ ´ (mmol/L)
f
f
正偏态
例2-8:对某医院细菌性痢疾治愈者的住院天数统计, 120名患者的住院天数从小到大的排列如下,求P5和P99
患 者: 1 2 3 4 5 6 7 8 9117 118 119 120 40 42 45 住院天数:1 2 2 2 3 3 4 4 5 40