第二章 定量变量的描述性统计
第二章--定量资料的统计描述
分类变量(名义变量 分类变量 名义变量) 名义变量 定性变量 有序变量(等级变量 有序变量 等级变量) 等级变量
变量
离散型变量 定量变量 连续型变量 统计描述: 统计描述:用统计图表或计算统计指标的方法表达一个特定群 这个群体可以是总体也可以是样本)的某种现象或特征, 体(这个群体可以是总体也可以是样本)的某种现象或特征, 称为统计描述。 称为统计描述。 统计描述可以使人们对资料有一个大致的了解, 统计描述可以使人们对资料有一个大致的了解,为进一步的统 计分析打下基础。 计分析打下基础。
图2-1 某地96名妇女产前检查次数频率分布 某地96名妇女产前检查次数频率分布 96
30 25 20
频率(%)
15 10 5 0 0 1 2 3 4 产前检查次数 5 >5
横坐标为产前检查 横坐标为产前检查 频率, 次数,纵坐标为频率 次数,纵坐标为频率, 即产前检查k次的妇 即产前检查 次的妇 女在被统计妇女中所 占的比例(%) 占的比例( ) 从表2-1和图 和图2-1可 从表 和图 可 以看出, 以看出,产前检查次 数为4次或 次或5次的孕妇 数为 次或 次的孕妇 数目最多, 数目最多,不检查或 检查次数很多的孕妇 不多, 不多,产前检查很多 次的孕妇也不多。 次的孕妇也不多。
与表2-2相比, 与表 相比,直方图可以更直观 相比 地表达出血清铁数据在各组段的分 布情况。 布情况。
三、频率分布表(图)的用途 频率分布表( (一)揭示资料的分布类型 1、对称分布 集中位置位于中央,左右两侧频数对称。 集中位置位于中央,左右两侧频数对称。
12 10 频 率 密度 (%) 8 6 4 2 0 7 9 11 13 15 17 19 血清铁 21 23 25 27 29
卫生统计学简答题汇总
统计学简答汇总第一章:绪论〔无〕第二章:定量变量的统计描述1.均数﹑几何均数和中位数的适用范围有何异同?答:相同点,均表示计量资料集中趋势的指标。
不同点:表2-5.表2-5 均数,几何均数和中位数的相异点平均数意义应用场合均数平均数量水平应用甚广,最适用于对称分布,特别是正态分布几何均数平均增减倍数①等比资料;②对数正态分布资料中位数位次居中的观①偏态资料;②分布不明资料;③分布一端或两察值水平端出现不确定值2.中位数与百分位数在意义上﹑计算和应用上有何区别与联系?答:1)意义:中位数是百分位中的第50分位数,常用于描述偏态分布资料的集中位置,反映位次居中的观察值水平。
百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的百分位是P50即中位数。
多个百分位数结合使用,可更全面地描述总体或样本的分布特征。
〔2〕计算:中位数和百分位数均可用同一公式计算,即Px=L+〔i/f x〕〔n·x%-Σf L〕可根据研究目的选择不同的百分位数代入公式进行计算分析。
〔3〕应用:中位数常用于描述偏态分布资料的集中趋势;百分位数常用于医学参考值范围确实定。
中位数常和其它分位数结合起来描述分布的特征,在实际工作中更为常用。
百分位数还可以用来描述变量值的离散趋势〔四分位数间距〕。
3.同一资料的标准差是否一定小于均数?答:不一定。
同一资料的标准差的大小与均数无关,主要与本资料的变异度有关。
变异大,标准差就大,有时比均数大;变异小,标准差小。
4.测得一组资料,如身高或体重等,从统计上讲,影响其标准差大小的因素有哪些?〔1〕样本含量的大小,样本含量越大,标准差越稳定。
〔2〕分组的多少〔3〕分布形状的影响,偏态分布的标准差较近似正态分布大〔4〕随机测量误差大小的影响〔5〕研究总体中观察值之间变异程度大小5.标准差与变异系数的异同点有哪些?答:标准差:是以算数平均数为中心,反映各观测值离散程度的一个绝对指标.当需要对同一总体不同时期或对不同总体进行比照时,缺乏可比性.当总体平均水平不同或计量单位不同时,用标准差是无法实现两组数据离散程度大小比照的.变异系数:标准差与平均数的比值称为变异系数,记为C·V.变异系数可以消除单位和〔或〕平均数不同对两个或多个资料变异程度比拟的影响。
第二章 定量资料的统计描述 1-4节
fx x f
0
1 7 3 9 .... 1 29 2228 18.57( μ m ol/ L) 1 3 .... 1 120
2、几何均数(geometric mean,G)
有研究者测定8人血清的抗体效价分别为 1:200,1:25,1:400,1:800,1:50,1:100, 1:50,1:25,求平均抗体滴度。该研究者用倒 数求均数,得平均抗体低度为1:206.25。 1)资料的类型? 2)该研究者对资料的描述是否正确? 3)如何描述该资料的集中趋势?
第二章
定量资料的统计描述
第一节 频率分布表与频率分布图
频率分布表(frequency distribution table):
整理原始数据的一种工具,用来表示数据 各观察值在不同取值区间出现的频数分布情 况。 频数分布表: 显示数据分布的范围、分布最集中的区间 和分布形态。
一、离散型定量变量的频率分布 例2-1 某年某山区96名孕产妇产前检查次 数资料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5….4,7 试编制产前 检查次数的频率分布表
(1)直接法:直接将所有原始观察值相加, 再除以总例数。
x1 x2 ..... xn x n
x
i 1
i
n
(2 1)
例2-3 某年某医院女性晚期肺癌患者红 细胞计数(1012/L)为4.20,6.43,2.08, 3.45, 2.26,4.04,5.42,3.38。试求其算术均 数。
1.描述变量的分布类型 1)对称分布 2)偏态分布 (1)正偏态分布:峰向左侧偏移 (2)负偏态分布:峰向右侧偏移 2.揭示变量的分布特征 集中趋势:频数向中间组段集中, 离散趋势:由中间组段向两侧,频数逐渐 减少 3.便于发现某些离群值或极端值 4.便于进一步计算统计指标和统计分析
定量的统计描述分析课件
总结
频数分析(Frequencies ):频数分布表、条图和直方图以及 集中趋势和离散趋势的各种统计量。 描述统计(Descriptives ):描述近似正态分布定量变量的集 中趋势和离散趋势的各种统计量,对变量做标准化转换(Z 转换)。 探索分析(Explore ):未知分布类型数据的统计描述,对 数据的分布形态进行检验,功能强大。
End Thanks
中位数
各种分布类型的资料,特别是偏峰分布资料; 分布一端或两端无确切数值的资料; 分布类型不明
百分位数 各种分布类型的资料
离散趋势
指标
应用条件
极差
对资料类型没有要求
四分位数 间距
方差与标 准差
变异系数
各种分布类型的资料,特别是偏峰分布资料
对称分布,特别是正态或近似正态分布 观察指标单位不同时变异程度的比较; 均数相差较大时变异程度的比较
重点掌握 1.频数分布图和频数分布表的制作 2.定量资料统计指标的计算
离散Байду номын сангаас定量资料
下面我们打开SPSS软件自带的数据demo.sav,找到reside, 这是一组同居人数的资料,我们将结合这组数据学习离散型 定量资料频数分布表和频数分布图的绘制。
变量视图
输出结果
输出结果
连续型定量资料
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分 1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
医学统计学定量资料的统计描述和变量分布
滴度 1∶8 1∶16 1∶32 1∶64 1∶128
人数 17 15
11 3
0
G lg 117 lg 8 15 lg16 11 lg 32 3 lg 64
46
=lg-1 1.2041
=16.0
46例正常人血清的HBsAg滴度的几何均数为1:16
2.几何均数应用的注意事项: 1)几何均数常用于等比级数资料或资料 呈倍数关系或对数正态分布资料。 2)观察值中不能有0。 3)观察值中不能同时有正值和负值。
第二节 定量资料的统计描述和变量分布
定量资料的 统计描述
统计图表:频数分布表(图)
集中趋势指标 统计指标:
离散趋势指标
利用统计表对数据进行概括,用统计图对分布形态 及分布间的关系做直观的表达,用于描述定量资料的统 计指标的意义与计算。
一、定量变量的频数分布
(一)连续型定量变量频数表的编制:
频数(frequency):指对一个随机变量做重复观察, 其中某变量值出现的次数。
取整数为0.5 mmol·L-1
(3) 划组段:
下限:每个组段的起点(最小值)
上限:每个组段的终点(近似最大值)
注:①第一个组段的起点数据必须为小于或等于最小值的整数
②最后一个组段应同时写出上限和下限来。
(4) 绘制整理表 “下限≤x<上限”
注:各组段的频数之和应等于总的观察例数。
表4-2-1 某地101例30~49岁骨科病人血清总胆固醇值划记表
例4-2-8 50例咽峡炎患者的潜伏期如下,求M,P25, P75,P2.5,P97.5。
表4-2-3 50例咽峡炎患者潜伏期的M和Px的计算
潜伏期(小时) (1) 12~ 24~ 36~ 48~ 60~ 72~ 84~ 96~
卫生统计学第二章定量资料的统计描述
正确答案: E
答案解析:标准差反映观察值的变异程度,标准误反映抽样误差的大小,根据其计算公式可知总体标准差一定时,增大样本例数会减小标准误。在应用中,标准差用于参考值范围的估计,而标准误用于可信区间的估计。
做答人数:1
做对人数:0
题号: 12 本题分数: 2
下列说法正确的是
A. 计量资料都服从或近似服从正态分布
B. 正态分布曲线下,横轴上,从均数μ到μ+1.96倍标准差的面积为97.5%
C. 对数正态分布是原资料的对数值服从正态分布
D. 医学参考值范围一定要定为95%或99%
E. 标准正态分布曲线下中间90%的面积所对应的横轴尺度μ的范围是-∞到+1.645
求正常人某个指标的参考值范围,在理论上要求
A. 正态分布不能用均数标准差法
B. 正态分布不能用百分位数法
C. 偏态分布不能用均数标准差法
D. 偏态分布不能用百分位数法
E. 对称分布不能用百分位数法
正确答案: C
答案解析:制定医学参考值范围一般有两种方法:正态分布法(均数标准差法)和百分位数法。正态分布法适用于正态分布或近似正态分布资料;百分位数法适用于任何类型的资料,但满足正态分布的资料多采用正态分布法。
答案解析:任意正态分布经过标准化变换:u=(x-μ)/σ,可转换为μ=0,σ=1的标准正态分布。由于其位置参数和形态参数均为常数,因此它的曲线是唯一的。
做答人数:1
做对人数:1
所占比例: 100%
题号: 11 本题分数: 2
对于偏峰分布资料且测量值过高才有临床意义,95%单侧正常值范围可定
【统计学】04 第二章 定量资料的统计描述
频率(%)
30
25
直条图
20
15
10
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
8
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
首先,分析资料类型? 定量数据---连续型
表211998年某地96名孕妇产前检查次数频率分布检查次数检查次数11频数频数22频率频率33累计频数累计频数44累计频率累计频率11132623124273115135271240125112235618496421152293656358751000合计961000图211998年某地96名孕妇产前检查次数频率分布1015202530离散型定量变量的频率分布图可用直条图表达以等宽直条的高度表示各组频率的多少直条图二连续型定量变量的频率分布例22抽样调查某地120名1835岁健康男性居民血清铁含量mmol数据如下
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
140
滴度倒数
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
23
3、计算公式:直接法和频数表法。
(1)直接法 公式:
G n X1 X2 X3 Xn
对数的形式为
G lg 1 lg X1 lg X 2 lg X n lg 1 lg X
卫生统计学知识点(笔记)
第一章绪论1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。
可分为目标总体和研究总体。
若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。
需要谨慎的是,就研究总体所下的结论未必适用于目标总体。
3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。
获取样本的过程称为抽样(sampling)。
抽样研究的目的是用样本数据推断总体的特征。
需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。
4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。
5.▲变异(variation)是指同质的个体之间存在的差异。
6.▲变量的类型二分类变量分类变量或名义变量定性变量多分类变量变量有序变量或等级变量定量变量离散型变量连续型变量变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总体均数μ,总体标准差σ。
8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。
统计学的任务就是依据样本统计量来推断总体参数。
9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。
当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。
定量变量的统计描述-PPT
4
统计学
卫生统计学
随机性现象
概率论 数理统计
变量
定量变量 定性变量
研 究
统计描述
内 容
统计推断 5
统计描述:从资料中获取信息最基本的方法
把握资料基本的特征 为统计分析打下基础
6
表2-2 120名18-35岁健康男性居民血清铁含量(umol/L)
19
离散型变量的频数分布 表每一个组段就是一个
固定的取值
20
离散型变量的频数分布图
直条图
横坐标为产前检查次数;纵坐标为 频率,即产前检
查K次的妇女在被统计妇女中所占的比例%。图中等宽矩
形长条的高度与相应检查次数的频率呈正比。
21
频率:各组的频数除以总例数 n 所得的比值。频 率描述了各组频数在全体中所占的比重,各组 频率之和等于100%。
14
3.写组段:即将全距分为若干段的过程。
原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ;
(2)每组段均用下限值加 “~ ”表示,最终组段同 时注明上下限。 注意:各组段不能重叠,每一组段均为半开半闭区 间。
4. 列表划记:根据预定的组段和组距,用 划记的方法整理原始资料。
15
表2-3 120名18-35岁健康男性居民血清铁含量的频数分布表
21.6 5
9.97 22.73 14.94 20.18 21.62 23.07 23.9 17.45 19.08 20.52 24.14 23.77 18.89 18.26 23.29 17.67 15.38 18.61 20.13 21 14.56 19.89 19.82 17.48 11.34 13.81 10.25 15.94 15.83 18.54 20.87 17.51 13.12 11.75 17.4 21.36 23.11 12.67 23.02 24.36 25.61 19.53 16.79 17.19 19.32 19.59 19.12 15.31 16.32 20.75 22.11 13.17 17.55 19.26
2h第二章 定量资料的统计描述
频数与频数分布
对称分布:频数最多的组段在中央,图2-2 正偏峰分布:峰向左侧偏移的分布,右侧的 组段数多于左侧,为右偏峰分布。图2-3 负偏峰分布:峰向右侧偏移的分布,左侧的 组段数多于右侧,称为左偏峰分布。 图21
定量变量的特征数
集中趋势统计指标 对于连续型定量变量,描述集中趋势常 用的统计量为算术均数、几何均数和中位 数。 算术均数:适合描述对称分布资料的集中位 置(也称为平均水平)。其计算公式为
频数与频数分布
数据
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65 8.65 8.40 23.04 17.40 18.37 19.26 13.77 14.37 19.47 18.48 23.02 17.32 24.22 22.55 19.50 26.13 12.50 24.75 15.51 19.83 21.61 29.64 24.13 17.55 17.08 16.99 20.40 12.73 10.86 23.12 21.31 19.69 21.53 16.10 18.12 18.89 20.30 17.25 27.81 19.22 21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22 9.97 23.90 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72 22.73 17.45 18.26 21.00 13.81 17.51 12.67 17.19 20.75 27.90 14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74 20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66 21.62 24.14 15.38 19.82 15.83 17.40 25.61 19.12 17.55 14.18 23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52
定量变量的统计描述
数据分布的判断方法
观察数据的分布图如直方图、箱线图等
计算数据的均值、中位数、众数等统计量
计算数据的方差、标准差等离散度指标
应用统计检验方法如卡方检验、t检验等判断数据是否符合某种分布形态
方差
方差的定义:描述一组数据的离散程度
定序尺度:将变量按照一定的顺序排列如成绩、满意度等
定类尺度:将变量分为不同的类别如性别、民族等
定距尺度:将变量按照一定的距离进行测量如温度、身高等
定比尺度:将变量按照一定数表示数据分布的中心位置
计算方法:将所有数据相加后除以数据个数
特点:受极端值影响较小能较好地反映数据的整体水平
变异系数的计算公式:标准差/平均值
变异系数的应用:在数据分析中变异系数常用于比较不同数据集的离散程度
变异系数的优点:不受数据量、均值和标准差大小的影响可以比较不同数据集的离散程度
离散系数
离散系数的作用:衡量数据离散程度反映数据分布的集中程度
离散系数的应用:在统计学、经济学、社会学等领域广泛应用
离散系数的定义:描述数据离散程度的统计量
偏态分布的峰度可以衡量数据分布的尖锐程度峰度越大数据分布越尖锐。
偏态分布的偏度可以衡量数据分布的偏斜程度偏度越大数据分布越偏斜。
峰态分布
峰态分布是指数据分布的形态包括正态分布、偏态分布和尖峰分布等
正态分布是最常见的峰态分布其特点是数据分布对称中心趋势明显
偏态分布是指数据分布不对称中心趋势不明显常见的有左偏态和右偏态
描述性统计量
数据的分布形态
数据的离散程度
数据的集中趋势和离散趋势的描述方法
单击添加标题
卫生统计学第7版
卫生统计学第7版卫生统计学(本科预防)(第7版) 目录第一章绪论第一节医学中统计思维的进化第二节统计学与公共卫生互相推动第三节统计学的若干概念第四节目标与方法第二章定量变量的统计描述第一节频率分布表与频率分布图第二节描述平均水平的统计指标第三节描述变异程度的统计指标第四节描述分布形态的统计指标第五节统计表和统计图第六节统计内容的报告与中英文表达第七节案例讨论第八节计算机实验第九节小结第三章定性变量的统计描述第一节定性变量的频率分布第二节常用相对数指标第三节医学人口统计常用指标第四节疾病统计常用指标第五节粗率的标准化法第六节动态数列及其指标第七节定性变量统计图第八节中英文结果报告第九节案例讨论第十节计算机实验第十一节小结第四章常用概率分布第一节二项分布第二节Poisson分布第三节正态分布第四节中英文结果报告第五节案例讨论第六节计算机实验第七节小结第五章参数估计基础第一节抽样分布与抽样误差第三节多个样本均数的两两比较第四节方差分析的前提条件和数据变换第五节中英文结果报告第六节案例讨论第七节计算机实验第八节小结第八章χ2检验第一节独立样本四格表资料的χ2检验第二节多个独立样本R×c列联表资料的χ2检验第三节配对设计资料的χ2检验第四节列联表资料的确切概率法第五节χ2检验用于拟合优度检验第六节中英文结果报告第七节案例讨论第八节计算机实验第九节小结第九章基于秩次的非参数检验第一节配对设计资料的符号秩和检验第二节两组独立样本比较的秩和检验第三节多组独立样本比较的秩和检验第四节随机区组设计资料的秩和检验第五节多个样本问的多重比较第六节中英文结果报告第七节案例讨论第八节计算机实验第九节小结第十章两变量关联性分析第一节线性相关第二节秩相关第三节分类变量的关联性分析第四节中英文结果报告第五节案例讨论第六节计算机实验第七节小结第十一章简单线性回归第一节线性回归第二节线性回归的应用第三节残差分析第四节非线性回归第五节中英文结果报告第六节案例讨论第七节计算机实验第八节小结第十二章多重线性回归与相关第一节多重线性回归的概念及其统计描述第二节多重线性回归的假设检验第三节复相关系数与偏相关系数第四节自变量筛选第五节多重线性回归的应用第六节中英文结果报告第七节案例讨论第八节计算机实验第九节小结第十三章医学研究的统计学设计第一节统计设计的基本要素第二节统计设计的基本原则第三节误差来源及其控制方法第四节资料统计分析第五节中英文结果报告第六节案例讨论第七节计算机实验第八节小结第十四章实验研究的设计与分析第一节实验设计中的对照设置和随机分组方法第二节常用实验设计方案与统计分析第三节样本含量的估算第四节中英文结果报告第五节案例讨论第六节计算机实验第七节小结第十五章临床试验设计与分析第一节临床试验概述第二节临床试验设计的原则第三节临床试验设计的基本类型第四节统计分析计划第五节临床试验中的三种试验类型第六节样本量估算第七节中英文结果报告第八节案例讨论第九节计算机实验第十六章观察性研究的实施与分析第一节观察性研究概述第二节横断面研究的实施与分析第二三节病例对照研究的实施与分析第四节队列研究的实施与分析第五节中英文结果报告第六节案例讨论第七节计算机实验第八节小结第十七章寿命表第一节基本概念第二节简略现时寿命表的编制第三节去死因寿命表的编制第四节健康期望寿命表的编制第五节寿命表有关指标及其分析第六节其他相关指标简介第七节中英文结果报告第八节案例讨论第九节计算机实验第十八章logistic回归分析第一节logistic回归模型第二节logistic回归的参数估计及假设检验第三节条件logistic回归模型第四节logistic回归的样本含量估算第五节logistic回归的应用及注意的问题第六节中英文结果报告第七节案例讨论第八节计算机实验第九节小结第十九章生存分析第一节生存分析基本概念第二节生存曲线的估计第三节生存曲线的比较第四节Cox回归第五节中英文结果报告第六节案例讨论第七节计算机实验第八节小结第二十章meta分析第一节meta分析概述第二节meta分析的统计方法第三节meta分析的偏倚第四节中英文结果报告第五节案例讨论第六节计算机实验第七节小结附录附录一软件简介(见随书光盘)附录1—1SAS简介附录1—2EpiData简介附录二统计学指南(见随书光盘)附录2—1CONSOR Tstatement的清单和流程图附录2—2STROB Estatement的清单附录2—3PRISM Astatement的清单和流程图附录三统计用表附录四重要定理证明(见随书光盘)中英文名词对照索引。
第二章 数值变量资料的统计描述
频数分布的类型
频数分布分为对称分布和偏态分布两种类型。 频数分布分为对称分布和偏态分布两种类型。 对称分布是指集中位置在正中, 对称分布是指集中位置在正中,左右两侧频 数分布大体对称,如上表所示。 数分布大体对称,如上表所示。若将其绘制 成频数分布直方图,则更清楚。 成频数分布直方图,则更清楚。 直方图是以x 本例为体重) 为横坐标 , 直方图是以 x( 本例为体重 ) 为横坐标, 频 数或百分数为纵坐标, 数或百分数为纵坐标,用矩形面积大小表示 频数多少。 频数多少。
某地150名12岁男童体重频数分布图 名 岁男童体重频数分布图 某地
40
30
Frenquency
20
10
0 21.5 24.5 27.5 30.5 33.5 36.5 39.5 42.5 45.5 48.5 51.5
体重(kg)
频数分布的类型
偏态分布指集中位置偏向一侧, 偏态分布指集中位置偏向一侧 , 频数分布 不对称。 不对称。 一些以儿童为主的传染病, 一些以儿童为主的传染病 , 患者的年龄分 布 , 集中位置偏于年龄小的一侧, 频数尾 集中位置偏于年龄小的一侧 , 部向右侧延伸, 称为正偏态 ( 部向右侧延伸 , 称为正偏态( 峰 ) 分布 , 分布, 如图
一、频数分布表(frequency table)的编制 频数分布表( table)
某地儿研所测得该地150名12岁健康男童体重 某地儿研所测得该地150名12岁健康男童体重 kg)原始数据如下,试编制频数表。 (kg)原始数据如下,试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9
卫生统计学知识点(笔记)
第一章绪论1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。
可分为目标总体和研究总体。
若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。
需要谨慎的是,就研究总体所下的结论未必适用于目标总体。
3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。
获取样本的过程称为抽样(sampling)。
抽样研究的目的是用样本数据推断总体的特征。
需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。
4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。
5.▲变异(variation)是指同质的个体之间存在的差异。
6.▲变量的类型二分类变量分类变量或名义变量定性变量多分类变量变量有序变量或等级变量定量变量离散型变量连续型变量变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总体均数μ,总体标准差σ。
8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。
统计学的任务就是依据样本统计量来推断总体参数。
9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。
当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。
第2章 定量资料的统计描述
20~
18 15.00
95
79.17
22~
12 10.00 107
89.17
24~
8 6.67 115
95.83
26~
4 3.33 119
99.17
28~30 1 0.83
120
100.00
合计 120 100
P25
14
2 12
25 120 100
15
16(,ol
/
L)
P75
20
2 12
75 120 100
f
77 50
百分位数(percentileP)X
20
总体中, 数值小于它的个体恰有X %,大于它的个 体恰有1-X %
样本估计:按照升序排列的数列里, 其左侧(即 小于它)的个体数在整个样本中所占百分比为 X%。
21
频率 f L
n X %
fL f
区间 L ? PX L ? L i
? in X% fL f
组段 频数 频率 累计频数 累计频率
26
(1)
(2) (3)
(4)
(5)
6~
1 0.83
1
0.83
8~
3 2.50
4
3.33
10~
6 5.00
10
8.33
12~
8 6.67
18
15.00
14~
12 10.00
30
25.00
16~18 20 16.67
50
41.67
18~20 27 22.50
77
64.17
R = 最大值-最小值 = 29.64-7.42 = 22.22 (3)确定组段数与组距
统计学简答题
医学统计学简答题第二章定量数据的统计描述1.变异系数与标准差的区别标准差使用的度量衡单位与原始数据相同,在两组数据均数相差不大,单位也相同时,从标准差的大小就可以直接比较两样本的变异程度。
但是有时我们需要对均数相差较大或单位不同的几组观测值的变异程度进行比较,标准差不再适宜,这时就应该使用变异系数了。
2.集中趋势和离散趋势的指标及适用范围(1)集中趋势:算术均数、几何均数、中位数,统称平均数,均反映集中趋势。
算术均数:主要适用于对称分布,尤其适合正态分布资料。
几何均数:应用于对数正态分布,也可应用于呈倍数关系的等比资料。
在医院中主要用于抗原(体)滴度资料。
中位数:适合条件:a.极偏态资料。
b.有不确定的数据(有>或<)。
c.有特大值或特小值。
d.分布不明的资料。
(2)离散趋势:极差、四分位数间距、方差和标准差、变异系数均反映离散趋势极差:除了两端有不确定数据之外,均可计算极差。
四分位间距:用于描述偏态分布资料。
方差和标准差:用于描述正态分布计量资料的离散程度。
变异系数:a.均数相差较大。
b.单位不同。
3.简述变异系数的实用时机变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。
4.怎样正确描述一组计量资料(1)根据分布类型选择指标(2)正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。
5.标准差与标准误的联系和区别有哪些?区别:(1)概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差,标准误越小,均数的可靠性越高。
(2)用途不同:标准差与均数结合估计参考值范围。
(3)计算含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。
联系:标准差、标准误均为变异指标,当样本含量不变是,标准误与标准差成正比。
6.正态分布的主要特征(1)正态曲线在横轴上方均数处最高,即频数最大(2)正态分布以均数为中心,左右对称,无限接近于x轴(3)曲线与横轴所围面积为1。
医学统计学02 定量资料的统计描述
120名8岁男孩身高频数表 组段 112~
频数 f 25
频数 2
114~
21
18
7
9 14
116~
15 10 5 3
20
15 10 5 0 7
14 15 9
118~
120~
122~
1
15
21 18 15 10 5 3 1
10
2 1 身高( cm )
124~ 126~ 128~ 130~ 132~ 134~136
• 加权法
G log
1
f log X f log X ( ) log ( ) n f
1
31
注意事项
几何均数常用于等比级资料或对数正态分布资料。 观察值中若有0或负值,则不宜直接使用几何均 数。 观察值一般同时不能有正值和负值。若全是负值, 计算时可先将负号去掉,得出结果后再加上负号。
7
9 14 15 21 18 15 10
130~
132~ 134~136
5
3 1
5
• 频数(frequency)
– 观察数据的个数
• 频数分布(frequency distribution)
– 观察数据在其取值范围内的分布情况
• 定量资料的频数分布情况可以用频数表 (frequency distribution table)或直方图表 示。
9
14 15 21 18 15
7.5
11.7 12.5 17.5 15.0 12.5
18
32 47 68 86 101
15.0
26.7 39.2 56.7 71.7 84.2
– 组段的起点叫“下限”,终点叫“上
第二章定量资料的统计描述
1.算数均数 1.算数均数(arithmetic mean) )
表2-3 加权法计算均数 组段 (1 ) 6~ 8~ 10~ 10~ 12~ 12~ 14~ 14~ 16~ 16~ 18~ 18~ 20~ 20~ 22~ 22~ 24~ 24~ 26~ 26~ 28~ 28~30 合计 组中值( 组中值(XO) (2 ) 7 9 11 13 15 17 19 21 23 25 27 29
X + X 2 + ... + X n = 1 X n=∑n来自i =1Xi n
=
∑
i
Xi n
=
∑
n
X
1.算数均数 1.算数均数(arithmetic mean) )
测得8 例2-3 测得8只正常大鼠血清总酸性磷 酸酶(TACP)含量(U/L) 4.20,6.43, 酸酶(TACP)含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42,3.38。 2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。 试求其算术均数。 算术均数= 算术均数= (4.20+6.43+2.08+3.45+2.26+4.04+5.4 2+3.38)/8=3.9075 2+3.38)
1998年某地96名妇女产前检查次数分布 1998年某地96名妇女产前检查次数分布 年某地96
频数 (2) 4 7 11 13 26 23 12 96 频率(%) 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计人数 (4) 4 11 22 35 61 84 96 累计频率(%) 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0 -
六西格玛系列之统计学-第2章-描述性统计
第二章描述性统计每个观测值能落入一类(组)并且只能落入一类(组)对给定的类,类频数是指落入这个类中的观测值的个数对给定的类,类相对频率是指落入这个类中的观测值个数相对于观测值总数的比例条形图Minitab→图形→条形图用长方形表示定性变量的类(组),其中每一个长方形的高是类频数/类相对频率帕雷拖图Minitab→统计→质量工具→Pareto图意大利经济学家Vilfredo Pareto,将定性变量的类(即长方形)按照高度从左向右降序排列的条形图饼图Minitab→图形→饼图用一个饼(圆)的一份表示定性变量的类,每份大小与类频数或类相对频率成比例点图Minitab→图形→点图数据集中每一个定量变量的数值表示为水平刻度尺上的一个点,当数值重复时,点垂直画在另一点之上茎叶图Minitab→图形→茎叶图定量变量的数值分为茎和叶两部分,可能的茎按顺序排在一列中,数据集中每一个定量变量的数值的叶放在相应茎的行上,有相同茎的数值的叶在水平方向按升序排列茎叶图MPG N=100叶单位= 0.101 (茎)30 (叶)02 (茎)31 (叶)86 (茎)32 (叶)579912 (茎)33 (叶)126899表示大于等于33且小于34的测量值有6个18 (茎)34 (叶)02458829 (茎)35 (叶)49 (茎)36 (叶)777888999(21)(茎)37 (叶)4456677899 最大组区间30 (茎)38 (叶)012234567820 (茎)39 (叶)12 (茎)40 (叶)5 (茎)41 (叶)0022 (茎)42 (叶)11 (茎)43 (叶)1 (茎)44 (叶)9直方图Minitab→图形→直方图定量变量的测量值分成若干组区间,每一个组区间有相同的宽度,这些组区间构成了水平轴刻度。
确定落在每个组区间中的观测值的频数或相对频率(36~37,37~38,测量值37放在37~38组区间)。
每个组区间上放一个垂直的长方形,它的高度等于组区间频数或相对频率构造直方图的步骤1.计算定量变量数据集的极差2.根据数据集中测量值的个数确定组区间的个数,根据极差和组区间个数确定组区间宽度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章定量变量的描述性统计(中大.公卫学院.医学统计与流行病学系.骆福添.020-********)第一节频数分布·收集到的数据必须给读者介绍一下,例2-1数据怎么讲,读出来?介绍特征,有何特征?·例:肿瘤什么年龄多发?对发病年龄分组整理·脉搏:不妨对脉搏进行分组整理一、频数分布表例2-1测得130健康成年男子脉搏资料(次/分)如下,试编制频数表和观察频数分布情况。
66 77 64 67 76 75 75 71 65 62 76 72 7160 67 75 75 73 79 66 69 79 78 70 72 7072 78 72 67 72 80 68 70 61 70 73 72 7181 70 66 75 71 63 77 74 76 68 65 77 6977 75 79 64 79 73 76 61 80 64 69 70 7368 65 70 69 66 81 63 64 80 74 78 7666 70 73 60 76 82 73 64 65 73 73 6380 68 76 70 79 77 64 70 66 69 73 78 76制作频数表的步骤为:1.计算极差极差R=84 -57=27 (次/分)。
2.决定组数、组距和组段(1)组数:10组左右(2)组距:等组距(取方便数)(3)组段:下限(最小值)、上限(最大值.空穴)、组中值(代表值.正中)注意:组段应包含全部数据(上下封顶、取方便数)3.列表划记特别简单、特难全对表2-1 130名健康成年男子脉搏(次/分)的频数分布表脉搏组段划记频数相对频数(%)累积频数累积相对频数(%)(1) (2) (3) (4)=(3)/N(5)=(3) (6)=(5)/N56~ 2 1.54 2 1.54 59~正 5 3.85 7 5.38 62~正正12 9.23 19 14.62 65~正正正15 11.54 34 26.15 68~正正正正正25 19.23 59 45.38 71~正正正正正一26 20.00 85 65.38 74~正正正19 14.62 104 80.00 77~正正正15 11.54 119 91.54 80~正正10 7.69 129 99.23 83~85 一 1 0.77 130 100.00 合计130·频数表有2个重要特征:(1)集中趋势划记的杠杠(数据)多数向中间集中(2)离散趋势划记的杠杠(数据)少数向两头分散二、频数分布图·如果将表2-1的资料绘制成频数分布图(图2-1)·图与表比较:图比较直观、表比较精确(国外允许图表合并) ·频数图以面积表示数值的大小例:最后2组合并结果以高度表示数值大小(红色框):夸大了 以面积表示数值大小(兰色框):未夸大·图和表反映特征比较具体、直观,但概括性不好第二节 集中趋势·平均数(average)是一类用于描述数值资料集中趋势的指标 ·5种:算术均数、几何均数、中位数、众数、调和均数一、算术均数·算术平均数(arithmetic mean)一般简称为均数·表达:总体均数为μ(读作mu)表示,样本均数为X1.直接法(2-1) 例2-2=X (81+70+66+75+71+63+77+74+76+68+65+77+69)/13=932/13=71.692.加权法(weighted method) 又称频数表法(近似法)56~ 59~ 62~ 65 68~ 71~ 74~ 77~ 80~ 83~ 85 脉搏(次/分) 图2-1 130名健康成年男子脉搏的频数分布频 数56~ 59~ 62~ 65 68~ 71~ 74~ 77~ 80~ 83~ 85脉搏(次/分) 图2-1 130名健康成年男子脉搏的频数分布 频 数 0(2-2)表2-2 130名健康成年男子脉搏(次/分)的均数、标准差计算表 脉搏组段i组中值(i X ) 频数(i f ) i f i X i f 2i X 56~57 2 114 6498 59~60 5 300 18000 62~63 12 756 47628 65~66 15 990 65340 68~69 25 1725 119025 71~72 26 1872 134784 74~75 19 1425 106875 77~78 15 1170 91260 80~81 10 810 65610 83~8584 1 84 7056 合计130 9246 662076152********++++++= X =9246/130=71.12(次/分)二、中位数 ·中位数(median)用符号M 表示·定义变量值按大小顺序排列,位置居中的那个数值称作中位数 ·特性:以中位数的为界,将变量值分为左右两半·适用:明显偏态分布,或者资料的分布情况不明(潜伏期)1.直接法例2-3 潜伏期(天):12,13,14,14,15,15,15,17,19 (5.142/)1514(2/)(2/)541)2/8(2/8=+=+=++X X X X2.频数表计算法(2-3)例2-4表2-3 107正常人的尿铅含量(μg/L)的中位数计算表尿铅含量(组段)(j ) 频数 (j f ) 累积频数 ∑j f 相对频数(%) n f j / 累积相对频数(%) n f j /∑M 所在组段下限值 组距平分为f M 等份 M 需补加的份额数0~14 14 13.08 13.08 4~(P 25所在组) 2236 20.56 33.64 8~(M 所在组) 2965 27.10 60.75 12~(P 75所在组) 1883 16.82 77.57 16~15 98 14.02 91.59 20~6 104 5.61 97.20 24~1 105 0.93 98.13 28~2 107 1.87 100.00 合计107 100.00)36%50107(2948-⨯+=M =10.41(μg/L) 三、几何均数·几何均数(geometric mean)用G 表示·适用:①当一组观察值不呈正态分布、且其差距较大时,若用均数表示其平均水平会受少数特大或特小值的影响;②数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系;③对数正态分布资料。
如抗体的滴度、药物的效价等。
1.直接计算法当观察例数不多(如样本含量n 小于30)时采用,公式为(2-4)例2-5 有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。
]8/)640lg 20lg 10lg 5[(lg lg 1++++=- G=lg -1(1.752575)=56.57 血清的抗体平均效价为1:56.57。
2.频数表法 当观察例数很多时采用,公式为)lg (lg 111∑∑==-=n i i n i i i f X fG (2-5)例2-6 有50人的血清抗体效价,分别为:5人1:10,9人1:20,20人1:40,10人1:80,6人1:160,求平均抗体效价。
)6102095160lg 680lg 1040lg 2020lg 910lg 5(lg 1++++++++=-G 70.41)62012.1(lg 1==-50人的血清平均抗体效价为1:41.70。
·因为无法对0和负数求对数,因此,计算几何均数的观察值不能小于或等于0。
♦ 同一组数据若服从正态分布,均数与中位数几乎相等,但几何均数小于均数。
四、众数·众数(mode)是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段。
例2-7 有16例高血压病人的发病年龄(岁)为:42, 45, 48, 51, 52, 54, 55, 55, 58, 58, 58, 58, 61, 61, 62, 62 众数为58。
58岁是高血压的高发年龄。
例2-8 若采用例2-4中的数据(见表2-3),则出现频率最高(27.10%)的组段为8~12,众数组段则为8~12。
·众数优点为简便,缺点是不稳健·适用:规范分组的资料,如考试分数每10分为1组第三节 离散趋势一、全距·全距(range)又称为极差,是最大值与最小值之差·弱点:①利用信息量特少;②不稳健;③组段不能开口二、百分位数·百分位数(percentile)是把一组数据从小到大排列,分割成100等份,每等份含1%的观察值,分割界限上的值就是百分位数,用符号P x 表示,如(2-6)P 50:五十百分位数(中位数),可看作二分位数P 25:二十五百分位数,可看作四分位数(下四分位数)P 75:七十五百分位数,可看作四分位数(上四分位数)例2-9 利用表2-3中的数据,计算P 25与P 75。
找出第25和第75百分位数所在组分别为第二组和第四组。
)14%25107(224425-⨯+=P =6.32(μg/L))65%75107(1841275-⨯+=P =15.39(μg/L)三、四分位数间距·P 1 , P 2, …, P 99这些百分位数变异越大,表示数据越离散 ·四分位数间距Q (quartile interval):是指P 25与P 75之间的距离,它反映中间半数个体的变异范围Q=Q U -Q L =P 75-P 25 (2-7) 例2-10 利用表2-3的资料计算四分位数间距Q 。
在例2-9中已经计算出P 75与P 25,故Q=15.39-6.32=9.07(μg/L)。
四、方差·总体方差用2σ表示,(2-8)显然,方差σ2反映平均变异程度(离散程度),量纲是平方数·样本方差用2S表示(2-9)式中(n-1)称为自由度,通常若受1个条件限制,则自由度见1 同理,方差S2也反映平均变异程度(离散程度),量纲是平方数五、标准差·标准差(standard deviation)是方差的平方根·总体标准差σ:(2-10)显然,标准差σ反映平均变异程度(离散程度),普通量纲·样本标准差S:(2-11)同理,样本标准差S也反映平均变异程度(离散程度),普通量纲·频数表法是近似法,适用于大样本,公式如下:(2-12)例2-11从例2-1抽出的10个数据: 75, 76, 72, 69, 66, 72, 57, 68, 71, 72,试用直接法计算标准差。