定量变量的统计描述
定量的统计描述分析课件
总结
频数分析(Frequencies ):频数分布表、条图和直方图以及 集中趋势和离散趋势的各种统计量。 描述统计(Descriptives ):描述近似正态分布定量变量的集 中趋势和离散趋势的各种统计量,对变量做标准化转换(Z 转换)。 探索分析(Explore ):未知分布类型数据的统计描述,对 数据的分布形态进行检验,功能强大。
End Thanks
中位数
各种分布类型的资料,特别是偏峰分布资料; 分布一端或两端无确切数值的资料; 分布类型不明
百分位数 各种分布类型的资料
离散趋势
指标
应用条件
极差
对资料类型没有要求
四分位数 间距
方差与标 准差
变异系数
各种分布类型的资料,特别是偏峰分布资料
对称分布,特别是正态或近似正态分布 观察指标单位不同时变异程度的比较; 均数相差较大时变异程度的比较
重点掌握 1.频数分布图和频数分布表的制作 2.定量资料统计指标的计算
离散Байду номын сангаас定量资料
下面我们打开SPSS软件自带的数据demo.sav,找到reside, 这是一组同居人数的资料,我们将结合这组数据学习离散型 定量资料频数分布表和频数分布图的绘制。
变量视图
输出结果
输出结果
连续型定量资料
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分 1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
卫生统计学简答题汇总
统计学简答汇总第一章:绪论(无)第二章:定量变量的统计描述1.均数﹑几何均数与中位数的适用范围有何异同?答:相同点,均表示计量资料集中趋势的指标。
不同点:表2-5、表2-5 均数,几何均数与中位数的相异点平均数意义应用场合均数平均数量水平应用甚广,最适用于对称分布,特别就是正态分布几何均数平均增减倍数①等比资料;②对数正态分布资料中位数位次居中的观①偏态资料;②分布不明资料;③分布一端或两察值水平端出现不确定值2.中位数与百分位数在意义上﹑计算与应用上有何区别与联系?答:1)意义:中位数就是百分位中的第50分位数,常用于描述偏态分布资料的集中位置,反映位次居中的观察值水平。
百分位数就是用于描述样本或总体观察值序列在某百分位置的水平,最常用的百分位就是P50即中位数。
多个百分位数结合使用,可更全面地描述总体或样本的分布特征。
(2)计算:中位数与百分位数均可用同一公式计算,即Px=L+(i/f x)(n·x%-Σf L)可根据研究目的选择不同的百分位数代入公式进行计算分析。
(3)应用:中位数常用于描述偏态分布资料的集中趋势;百分位数常用于医学参考值范围的确定。
中位数常与其它分位数结合起来描述分布的特征,在实际工作中更为常用。
百分位数还可以用来描述变量值的离散趋势(四分位数间距)。
3.同一资料的标准差就是否一定小于均数?答:不一定。
同一资料的标准差的大小与均数无关,主要与本资料的变异度有关。
变异大,标准差就大,有时比均数大;变异小,标准差小。
4.测得一组资料,如身高或体重等,从统计上讲,影响其标准差大小的因素有哪些?(1)样本含量的大小,样本含量越大,标准差越稳定。
(2)分组的多少(3)分布形状的影响,偏态分布的标准差较近似正态分布大(4)随机测量误差大小的影响(5)研究总体中观察值之间变异程度大小5.标准差与变异系数的异同点有哪些?答:标准差:就是以算数平均数为中心,反映各观测值离散程度的一个绝对指标、当需要对同一总体不同时期或对不同总体进行对比时,缺乏可比性、当总体平均水平不同或计量单位不同时,用标准差就是无法实现两组数据离散程度大小对比的、变异系数:标准差与平均数的比值称为变异系数,记为C·V、变异系数可以消除单位与(或)平均数不同对两个或多个资料变异程度比较的影响。
【统计学】04 第二章 定量资料的统计描述
频率(%)
30
25
直条图
20
15
10
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
8
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
首先,分析资料类型? 定量数据---连续型
表211998年某地96名孕妇产前检查次数频率分布检查次数检查次数11频数频数22频率频率33累计频数累计频数44累计频率累计频率11132623124273115135271240125112235618496421152293656358751000合计961000图211998年某地96名孕妇产前检查次数频率分布1015202530离散型定量变量的频率分布图可用直条图表达以等宽直条的高度表示各组频率的多少直条图二连续型定量变量的频率分布例22抽样调查某地120名1835岁健康男性居民血清铁含量mmol数据如下
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
140
滴度倒数
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
23
3、计算公式:直接法和频数表法。
(1)直接法 公式:
G n X1 X2 X3 Xn
对数的形式为
G lg 1 lg X1 lg X 2 lg X n lg 1 lg X
卫生统计学知识点(笔记)
第一章绪论1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。
可分为目标总体和研究总体。
若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。
需要谨慎的是,就研究总体所下的结论未必适用于目标总体。
3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。
获取样本的过程称为抽样(sampling)。
抽样研究的目的是用样本数据推断总体的特征。
需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。
4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。
5.▲变异(variation)是指同质的个体之间存在的差异。
6.▲变量的类型二分类变量分类变量或名义变量定性变量多分类变量变量有序变量或等级变量定量变量离散型变量连续型变量变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总体均数μ,总体标准差σ。
8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。
统计学的任务就是依据样本统计量来推断总体参数。
9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。
当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。
定量变量的统计描述-PPT
4
统计学
卫生统计学
随机性现象
概率论 数理统计
变量
定量变量 定性变量
研 究
统计描述
内 容
统计推断 5
统计描述:从资料中获取信息最基本的方法
把握资料基本的特征 为统计分析打下基础
6
表2-2 120名18-35岁健康男性居民血清铁含量(umol/L)
19
离散型变量的频数分布 表每一个组段就是一个
固定的取值
20
离散型变量的频数分布图
直条图
横坐标为产前检查次数;纵坐标为 频率,即产前检
查K次的妇女在被统计妇女中所占的比例%。图中等宽矩
形长条的高度与相应检查次数的频率呈正比。
21
频率:各组的频数除以总例数 n 所得的比值。频 率描述了各组频数在全体中所占的比重,各组 频率之和等于100%。
14
3.写组段:即将全距分为若干段的过程。
原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ;
(2)每组段均用下限值加 “~ ”表示,最终组段同 时注明上下限。 注意:各组段不能重叠,每一组段均为半开半闭区 间。
4. 列表划记:根据预定的组段和组距,用 划记的方法整理原始资料。
15
表2-3 120名18-35岁健康男性居民血清铁含量的频数分布表
21.6 5
9.97 22.73 14.94 20.18 21.62 23.07 23.9 17.45 19.08 20.52 24.14 23.77 18.89 18.26 23.29 17.67 15.38 18.61 20.13 21 14.56 19.89 19.82 17.48 11.34 13.81 10.25 15.94 15.83 18.54 20.87 17.51 13.12 11.75 17.4 21.36 23.11 12.67 23.02 24.36 25.61 19.53 16.79 17.19 19.32 19.59 19.12 15.31 16.32 20.75 22.11 13.17 17.55 19.26
定量资料的统计描述
例:求下表中血清铁含量的5%、 95%位数
从表2-2可判断出5%位于“10~”这个 组段:
px = L +
i n( x%
fx
f
)
L
= 10 + 21(20×5% 4 =)10.67
6
该组血清铁资料的5%位数为10.67 (μmol/L)。
从表2-2可判断出95%位于“24~”这 个组段:
px = L +
n为奇数时: M = X n + 1
2
n为偶数时:M =
1 2
X
+
n 2
X n+ 1 2
式中X*表示将n例数据按升序排列 后的第i个数据。
上式中n为一组观察值的总个数,
n +1
n
n +1
2
2
2
均为下标,表示有序数列中观察值 的位次。
例:某药厂观察9只小鼠口服高山红 景天醇提物(RSAE)后在乏氧条件 下的生存时间(分钟)如下:
一般设10~15个组段,每个组段的 起点称“下限”,终点称“上限”;第 一组段含最小值,最末组段含最 大值。
(4) 列表
频数分布的类型:
对称分布—集中位置在正中、左右 两侧频数分布大体对称
偏态分布
正偏峰分布-集中位 置偏向数值小的一侧
负偏峰分布-集中位 置偏向数值大的一侧
定量变量的特征数
= 119.75
52例慢性肝炎患者的HBsAg滴度 的平均水平为1:119.75。
3. 中位数(median, M)
将一组观察值从小到大按顺序排 列,位次居中的观察值就称中位数。 用M表示。
中位数适用于任何一种分布的定量 资料,一般多用于描述偏态分布或 数据一端无界资料的集中趋势。
定量变量的统计描述
数据分布的判断方法
观察数据的分布图如直方图、箱线图等
计算数据的均值、中位数、众数等统计量
计算数据的方差、标准差等离散度指标
应用统计检验方法如卡方检验、t检验等判断数据是否符合某种分布形态
方差
方差的定义:描述一组数据的离散程度
定序尺度:将变量按照一定的顺序排列如成绩、满意度等
定类尺度:将变量分为不同的类别如性别、民族等
定距尺度:将变量按照一定的距离进行测量如温度、身高等
定比尺度:将变量按照一定数表示数据分布的中心位置
计算方法:将所有数据相加后除以数据个数
特点:受极端值影响较小能较好地反映数据的整体水平
变异系数的计算公式:标准差/平均值
变异系数的应用:在数据分析中变异系数常用于比较不同数据集的离散程度
变异系数的优点:不受数据量、均值和标准差大小的影响可以比较不同数据集的离散程度
离散系数
离散系数的作用:衡量数据离散程度反映数据分布的集中程度
离散系数的应用:在统计学、经济学、社会学等领域广泛应用
离散系数的定义:描述数据离散程度的统计量
偏态分布的峰度可以衡量数据分布的尖锐程度峰度越大数据分布越尖锐。
偏态分布的偏度可以衡量数据分布的偏斜程度偏度越大数据分布越偏斜。
峰态分布
峰态分布是指数据分布的形态包括正态分布、偏态分布和尖峰分布等
正态分布是最常见的峰态分布其特点是数据分布对称中心趋势明显
偏态分布是指数据分布不对称中心趋势不明显常见的有左偏态和右偏态
描述性统计量
数据的分布形态
数据的离散程度
数据的集中趋势和离散趋势的描述方法
单击添加标题
卫生统计学 第二章 定量资料的统计描述
偏态分布型
负偏态分布:集中位置偏向数值大的一侧。
32
3、描述资料的分布特征
集中趋势:血清铁含量向中央部分集中,即中
等含量者居多,集中在18 这个组段,这种现
象为集中趋势
离散趋势:从中央部分到两侧的频数分布逐渐
减少,而且血清铁含量的值参差不齐,最低的 接近6 最高的接近30,这种现象称为离散趋势
组段下限(L):每个组段的起点 组段上限(U):每个组段的终点
①两端的组段应分别包含最小值或最大值; ②尽量取较整齐的数值作为组段的端点,便于对 数据进行表述; ③最后一个组段应同时写出上限和下限来
17
L X U
4、列表整理、统计各组段的频数、频率
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 一 上 正一 正上 正正丅 正正正正 正正正正正丅 正正正上 正正丅 正上 止 一
28
25 人 数 20 15 10 5 0 14 17 20 23 26 29 32 35 38 41 44 47
血清转氨酶(mmol/L)
115名正常成年女子血清转氨酶的频数分布
29
负偏态(峰)分布
101名正常人的血清肌红蛋白( g/mL )含量分布
肌红蛋白含量 0~ 5~ 10~ 15~ 20~ 25~ 30~ 35~ 40~ 45~50 人 数 2 3 7 9 10 22 23 14 9 2
划记
频数
1 3 6 8 12 20 27 18 12 8 4 1
合计
120
18
数据
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65 8.65 8.40 23.04 17.40 18.37 19.26 13.77 14.37 19.47 18.48 23.02 17.32 24.22 22.55 19.50 26.13 12.50 24.75 15.51 19.83 21.61 29.64 24.13 17.55 17.08 16.99 20.40 12.73 10.86 23.12 21.31 19.69 21.53 16.10 18.12 18.89 20.30 17.25 27.81 19.22 21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22 9.97 23.90 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72 22.73 17.45 18.26 21.00 13.81 17.51 12.67 17.19 20.75 27.90 14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74 20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66 21.62 24.14 15.38 19.82 15.83 17.40 25.61 19.12 17.55 14.18 23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52
定量资料的统计描述
编制频数分布表的步骤
第一组段包括最小值,最后 一组段包括最大值,除最后 一组段可同时标出上下限, 其他组段只标出下限。
一般 8- 15 之间 求出极差 确定组段数 确定组距
列出各个组段
确定每一组段频数 选 根据变量值大小 把各观察单位归 入各个组段
极差即最大值 与最小值之差
组距=R/组段数, 但一般取一方便 计算的数字
常用的平均数有: 算术平均数(均数)(mean) 几何平均数(geometric mean)
中位数 (median)与百分位数(percentile)
众数(mode)
一、算术平均数
算术平均数:简称均数(mean)
可用于反映一组呈对称分布的变量值
在数量上的平均水平或者说是集中位置
的指标值。
1、算术平均数的计算方法
M X 9 1 X 5 15
2
பைடு நூலகம்
如果只调查了8家外企,则
2 14 15 2 14.5 M X X 8 8 1 2 2
频数分布表资料的中位数
M 所在组段下限值 (n 50% 至该下限值的累计频数) 组距 所在组段下限值至上限值间的频数 (n 50% f L ) M L i fm
i , fm
下限值L
中位数M
上限值U
例1 频数表中位数的计算
N=∑f
中位数=71+3x[(130x50%-59)/26]=71.69
2、中位数的应用
各种分布类型的资料
特别适合大样本偏态分布资料或者 分布末端无确切数值的资料。
第二节 描述集中趋势的统计指标
统计上使用平均数(average)这一指标体系来描述 一组变量值或观察值的集中位置或平均水平。
定量资料的统计描述
四分位数 间距
方差与标 准差 变异系数
频数分析(Frequencies )
下面我们结合人群的年龄(age)数据学习如何使用SPSS计算统计指 标。
部分中英文对照:
描述统计(Descriptives )
对于近似正态分布的资料,我们还可以通过Descriptives获取统计指 标。这是一组使用某法多次测定某水样中碳酸钙含量的数据,符从正态分 布,下面我们用Descriptives的方法计算这组数据的统计指标。
打开SPSS软件自带的数据demo.sav,找到car,这是一组 私家车价格的资料,我们将结合这组数据学习连续型定量资料 频数分布表和频数分布图的绘制。
变量视图
一般步骤
1.求极差 2.确定组段数和组距 3.根据组距写出组段 4.制作频数表和频数图
求极差
求极差
确定组段数和组距
1.极差:R=95.7≈100
定量资料统计描述
定量变量
定量变量可以分为两种类型: 1.离散型变量:只能取整数值,例如,一个月中的
手术病人数,一年里的新生儿数。
2.连续型变量:可以取实数轴上的任何数值,例如, 血压,身高,体重等。
统计描述
统计描述是通过绘制统计表、统计图 或计算相应的统计指标来说明资料的分布 规律及其数量特征,是进一步统计推断的
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分
1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
统计指标 正态性检验
正态性检验
探索分析(Explore )
四分位数间距
探索分析(Explore )
探索分析(Explore )
第二章 定量变量的描述性统计
第二章定量变量的描述性统计(中大.公卫学院.医学统计与流行病学系.骆福添.020-********)第一节频数分布·收集到的数据必须给读者介绍一下,例2-1数据怎么讲,读出来?介绍特征,有何特征?·例:肿瘤什么年龄多发?对发病年龄分组整理·脉搏:不妨对脉搏进行分组整理一、频数分布表例2-1测得130健康成年男子脉搏资料(次/分)如下,试编制频数表和观察频数分布情况。
66 77 64 67 76 75 75 71 65 62 76 72 7160 67 75 75 73 79 66 69 79 78 70 72 7072 78 72 67 72 80 68 70 61 70 73 72 7181 70 66 75 71 63 77 74 76 68 65 77 6977 75 79 64 79 73 76 61 80 64 69 70 7368 65 70 69 66 81 63 64 80 74 78 7666 70 73 60 76 82 73 64 65 73 73 6380 68 76 70 79 77 64 70 66 69 73 78 76制作频数表的步骤为:1.计算极差极差R=84 -57=27 (次/分)。
2.决定组数、组距和组段(1)组数:10组左右(2)组距:等组距(取方便数)(3)组段:下限(最小值)、上限(最大值.空穴)、组中值(代表值.正中)注意:组段应包含全部数据(上下封顶、取方便数)3.列表划记特别简单、特难全对表2-1 130名健康成年男子脉搏(次/分)的频数分布表脉搏组段划记频数相对频数(%)累积频数累积相对频数(%)(1) (2) (3) (4)=(3)/N(5)=(3) (6)=(5)/N56~ 2 1.54 2 1.54 59~正 5 3.85 7 5.38 62~正正12 9.23 19 14.62 65~正正正15 11.54 34 26.15 68~正正正正正25 19.23 59 45.38 71~正正正正正一26 20.00 85 65.38 74~正正正19 14.62 104 80.00 77~正正正15 11.54 119 91.54 80~正正10 7.69 129 99.23 83~85 一 1 0.77 130 100.00 合计130·频数表有2个重要特征:(1)集中趋势划记的杠杠(数据)多数向中间集中(2)离散趋势划记的杠杠(数据)少数向两头分散二、频数分布图·如果将表2-1的资料绘制成频数分布图(图2-1)·图与表比较:图比较直观、表比较精确(国外允许图表合并) ·频数图以面积表示数值的大小例:最后2组合并结果以高度表示数值大小(红色框):夸大了 以面积表示数值大小(兰色框):未夸大·图和表反映特征比较具体、直观,但概括性不好第二节 集中趋势·平均数(average)是一类用于描述数值资料集中趋势的指标 ·5种:算术均数、几何均数、中位数、众数、调和均数一、算术均数·算术平均数(arithmetic mean)一般简称为均数·表达:总体均数为μ(读作mu)表示,样本均数为X1.直接法(2-1) 例2-2=X (81+70+66+75+71+63+77+74+76+68+65+77+69)/13=932/13=71.692.加权法(weighted method) 又称频数表法(近似法)56~ 59~ 62~ 65 68~ 71~ 74~ 77~ 80~ 83~ 85 脉搏(次/分) 图2-1 130名健康成年男子脉搏的频数分布频 数56~ 59~ 62~ 65 68~ 71~ 74~ 77~ 80~ 83~ 85脉搏(次/分) 图2-1 130名健康成年男子脉搏的频数分布 频 数 0(2-2)表2-2 130名健康成年男子脉搏(次/分)的均数、标准差计算表 脉搏组段i组中值(i X ) 频数(i f ) i f i X i f 2i X 56~57 2 114 6498 59~60 5 300 18000 62~63 12 756 47628 65~66 15 990 65340 68~69 25 1725 119025 71~72 26 1872 134784 74~75 19 1425 106875 77~78 15 1170 91260 80~81 10 810 65610 83~8584 1 84 7056 合计130 9246 662076152********++++++= X =9246/130=71.12(次/分)二、中位数 ·中位数(median)用符号M 表示·定义变量值按大小顺序排列,位置居中的那个数值称作中位数 ·特性:以中位数的为界,将变量值分为左右两半·适用:明显偏态分布,或者资料的分布情况不明(潜伏期)1.直接法例2-3 潜伏期(天):12,13,14,14,15,15,15,17,19 (5.142/)1514(2/)(2/)541)2/8(2/8=+=+=++X X X X2.频数表计算法(2-3)例2-4表2-3 107正常人的尿铅含量(μg/L)的中位数计算表尿铅含量(组段)(j ) 频数 (j f ) 累积频数 ∑j f 相对频数(%) n f j / 累积相对频数(%) n f j /∑M 所在组段下限值 组距平分为f M 等份 M 需补加的份额数0~14 14 13.08 13.08 4~(P 25所在组) 2236 20.56 33.64 8~(M 所在组) 2965 27.10 60.75 12~(P 75所在组) 1883 16.82 77.57 16~15 98 14.02 91.59 20~6 104 5.61 97.20 24~1 105 0.93 98.13 28~2 107 1.87 100.00 合计107 100.00)36%50107(2948-⨯+=M =10.41(μg/L) 三、几何均数·几何均数(geometric mean)用G 表示·适用:①当一组观察值不呈正态分布、且其差距较大时,若用均数表示其平均水平会受少数特大或特小值的影响;②数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系;③对数正态分布资料。
定量变量的统计描述
指变量倒数的算术平均数。调和平均数又称倒数平均 数。
lzhmin
20
lzhmin
21
例(P19,2-10):试观察A、B和C三组数据的离散状况。
A组: 24, 27, 30, 33, 36 B组: 26, 28, 30, 32, 34 C组: 26, 29, 30, 31, 34
定量变量的统计描述
lzhmin
1
统计分析模式图
• 资料的类型:
定量资料
定性资料
• 统计分析方法:
数值变量资料的 统计分析方法
分类变量资料的 统计分析方法
• 统计分析: - 描述统计
- 推断统计
lzhmin
- 集中趋势指标 - 离散趋势指标
-可信区间估计 - 统计检验
- 相对数(率、构 成比、相对比)
7
lzhmin
8
频率分布表(图)的用途
➢描述变量的分布类型(P14,图2-3) - 正偏峰分布:左侧偏移的分布 - 负偏峰分布:右侧偏移的分布
➢揭示变量的分布特征 - 集中趋势(central tendency) - 离散趋势(tendency of dispersion)
➢便于发现某些极端值或离群值 ➢便于计算统计指标和进行统计分析
-正偏态分布(skewed positively distribution):若高峰位于左侧。 -负偏态分布(skewed negatively distribution):若高峰位于右侧。
lzhmin
4
离散型定量变量的频率分布
➢离散型定量变量的取值是不连续的(P11,例2-1) ➢可用频数、频率;累计频数、累计频率来表示(P12,表2-1) ➢可用直条图(bar chart)来表达各组频率的大小(P12,图2-1)
卫生统计学知识点(笔记)
第一章绪论1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。
可分为目标总体和研究总体。
若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。
需要谨慎的是,就研究总体所下的结论未必适用于目标总体。
3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。
获取样本的过程称为抽样(sampling)。
抽样研究的目的是用样本数据推断总体的特征。
需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。
4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。
5.▲变异(variation)是指同质的个体之间存在的差异。
6.▲变量的类型二分类变量分类变量或名义变量定性变量多分类变量变量有序变量或等级变量定量变量离散型变量连续型变量变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总体均数μ,总体标准差σ。
8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。
统计学的任务就是依据样本统计量来推断总体参数。
9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。
当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。
医学统计学变量类型
医学统计学变量类型
在医学统计学中,变量可以分为两种类型:定量变量和定性变量。
1. 定量变量:也称连续变量,是指能够以数值方式度量的变量。
常见的定量变量包括身高、体重、血压、心率等。
定量变量可以进一步分为离散变量和连续变量两种类型。
- 离散变量:取有限个数的数值,例如某个地区的感染人数,人数只能是整数。
- 连续变量:取无限个数的数值,例如血压值可以是任意的实数。
2. 定性变量:也称分类变量,是指不能用数值方式度量的变量。
常见的定性变量包括性别、病种、治疗方案等。
定性变量可以进一步分为有序变量和无序变量两种类型。
- 有序变量:具有一定的顺序和等级关系,例如疾病的分期、疼痛的程度等。
- 无序变量:没有顺序和等级关系,例如患者的民族、婚姻状况等。
医学统计学中对于不同类型的变量,常采用不同的统计方法进行分析和描述。
定量资料统计描述
定量资料统计描述概述定量资料是指数据以数字形式呈现的资料,与定性资料(如文字、图片等)不同,定量资料的数据具有明确的数值意义,常常需要进行统计分析。
在众多的数据分析方法中,统计是最为基础和重要的一种。
在统计分析中,描述统计是对搜集的数据进行基本的描述和概括,为进一步分析打下基础。
本文将从以下几个方面介绍定量资料的统计描述:1.定量资料的类型2.定量资料的统计描述方法3.定量资料的图表展示定量资料的类型定量资料通常可分为连续型和离散型两种。
具体来说,连续型数据是指在一定区间范围内可以取任意值的数据,如身高、体重等。
而离散型数据则是指一个变量只能取有限个取值的数据,例如血型、班级人数等。
定量资料的统计描述方法1. 集中趋势集中趋势是描述一组数据中心位置的统计指标,常用来表征该组数据的一般水平。
主要指标包括均值、中位数及众数。
其中,均值是指某组数据所有数据之和除以数据的个数,中位数是在一组数据中,数值按照从小到大排列,处于中间位置的数据,众数则是指整个数据中出现最频繁的那个数据。
2. 离散程度离散程度是描述一组数据分散程度的统计指标,常用来表征该组数据的分布情况。
主要指标包括极差、方差和标准差。
其中,极差是指一组数据最大值与最小值的差,方差是各数据偏离它们算术平均数的平方和的平均数,标准差则是方差的非负平方根。
3. 偏态与峰态偏态和峰态是描述一组数据偏离正态分布情况的统计指标。
偏态是指一组数据分布的不对称程度,主要指标包括偏态系数。
而峰态是指一组数据分布峰值的高低程度,主要指标包括峰态系数。
定量资料的图表展示图表展示是定量资料描述的一种重要手段。
常用的图表形式包括直方图、折线图、箱线图等。
1. 直方图直方图是一种对连续性定量数据分布情况的图形表示。
在直方图中,数据被划分为几个区间,每个区间的数据频数用柱形的高度来表示。
直方图能够反映数据的集中趋势和分散程度。
2. 折线图折线图是一种用折线表示数据值的图形,常用来描述离散型定量数据的变化趋势。
定量资料统计描述(1)
7
25 频数20
15 10 5 0
年龄(岁)
某市某年乙脑患者的年龄分布
8
0.5
2.5
4.5
6.5
8.5 10.5 12.5 14.5
16.5 18.5 20.5 22.5 24.5
26.5 28.5 30.5 32.5 34.5
36.5 38.5 40.5 42.5 44.5
46.5 48.5 50.5 52.5 54.5
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征
集中趋势(Central tendency) 离散趋势(Tendency of dispersion)
9
3) 利于发现某些特大或特小的可疑值 4) 便于进一步进行统计分析
10
4. 频数分布图 以观测变量为横轴,频数(或频率)为纵轴
所作的直方图,称为频数分布图。用途与频 数表类似,但更直观、形象。
11
二、集中趋势的描述
描述定量资料数量特征和分布规律的统计 指标有两类:
一类是描述数据分布集中趋势的指标,即 平均数(average);
另一类是描述数据分布离散程度(或变异 程度)的指标。
12
1. 算术均数(arithmetic mean) 简称均数(mean),它描述一组数据在
累计频数等于该组段及前面各组段的频数 之和;累计频率等于累计频数除以总例数。 累计频率描述了累计频数在总例数中所占比 重。
6
2. 频数分布的类型
① 对称分布:集中位置在正中,左右两侧大体对称。
② 偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
频数分布类型不同,统计描述的方法不同。
第二章定量资料的统计描述
1.算数均数 1.算数均数(arithmetic mean) )
表2-3 加权法计算均数 组段 (1 ) 6~ 8~ 10~ 10~ 12~ 12~ 14~ 14~ 16~ 16~ 18~ 18~ 20~ 20~ 22~ 22~ 24~ 24~ 26~ 26~ 28~ 28~30 合计 组中值( 组中值(XO) (2 ) 7 9 11 13 15 17 19 21 23 25 27 29
X + X 2 + ... + X n = 1 X n=∑n来自i =1Xi n
=
∑
i
Xi n
=
∑
n
X
1.算数均数 1.算数均数(arithmetic mean) )
测得8 例2-3 测得8只正常大鼠血清总酸性磷 酸酶(TACP)含量(U/L) 4.20,6.43, 酸酶(TACP)含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42,3.38。 2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。 试求其算术均数。 算术均数= 算术均数= (4.20+6.43+2.08+3.45+2.26+4.04+5.4 2+3.38)/8=3.9075 2+3.38)
1998年某地96名妇女产前检查次数分布 1998年某地96名妇女产前检查次数分布 年某地96
频数 (2) 4 7 11 13 26 23 12 96 频率(%) 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计人数 (4) 4 11 22 35 61 84 96 累计频率(%) 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0 -
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
频数(f)
1 2 6 9 14 15 21 18 15 10 5 3 1
120(Σf)
图6-1 某地120名健康成人血糖(mmol/L)频数分布图
图6-2 频数分布的三种类型示意图
频数分布表的用途
频数表的用途:
1.作为陈述资料的形式,可以替代繁杂的原始资料, 便于进一步统计分析。
2. 揭示资料的分布特征和分布类型。 3.便于发现某些特大或特小的可疑值(离群值)。 4.当样本量较大时,可以各组段的频率作为概率的
总体均数用表示,样本均数用X表示。 (一)直接法:
x x1 x2 xn x
n
n
例 测得5名周岁儿童的头围(cm)为:44、45、46、47、48,
求其平均头围。
x 44 45 46 47 48 230 46cm
5
5
一、算术均数(arithmetic mean)
(二)加权法(weighting method):
G l g 1
flfg x l g 1 7.4 2 20 4 7 l g 1 1 1 .80 6 64 2
频数表编制步骤: (1)计算全距 (range):亦称极差,简记为R,R= Xmax-Xmin,
本例最大值为6.16,最小值为3.67,故: R=6.16﹣3.67=2.49(mmol/L)
(2)确定组距:一般分为8~15组。本例: R=2.49, i = R / k = 2.49 / 10 = 0.249(mmol/L) , 定组距为i= 0.20(mmol/L) 比较适宜。
(3)确定组限: 第一组段应包括最小值; 各个组段只包括下限值,不包括上限值; 最末一组段应包括最大值,并同时写出其下限和上限。 (4)划记,列频数表(见表6-1)
表6-1 某地120名成人血糖的频数分布
合计
血糖(mmol/L)
3.6~ 3.8~ 4.0~ 4.2~ 4.4~ 4.6~ 4.8~ 5.0~ 5.2~ 5.4~ 5.6~ 5.8~ 6.0~6.2
G
lg
1
lg n
x
lg 1 lg
x1
lg
x2 n
lg
xn
lg 1 lg 10 lg 20 lg 40 lg 80 lg 160
5
lg 1 1.0000 1.3010 1.6021 1.9031 2.2041
5
lg 1 8.0103 lg 1 1.6026 40 5
第一节 频数分布表与频数分布图
对于计量资料
• 如果观察值较少,可直接计算统计描述指标; • 如果观察值较多,应先进行整理——列出频数表,
然后再进行统计描述。
例6.1 某地120名健康成人血糖(mmol/L)测定结果如下
4.60 461 4.65 5.86 4.75 4.80 5.81 4.71 5.04 5.25 4.33 5.70 4.94 5.32 5.78 4.85 4.28 5.48 4.48 4.29 4.93 5.21 4.58 4.05 4.11 4.78 5.14 4.15 4.49 5.26 4.38 4.63 5.12 4.95 5.11 5.22 4.66 5.09 4.67 4.68 5.62 3.67* 5.27 3.83 3.91 4.45 4.92 5.35 4.06 4.28 4.40 5.13 4.52 5.12 5.40 4.88 5.01 5.00 5.59 5.53 4.96 4.57 4.83 5.43 5.06 5.33 4.90 4.08 4.48 5.04 4.42 5.23 5.08 4.42 4.23 5.24 4.25 5.62 5.28 4.30 5.02 4.56 4.77 5.37 5.64 4.72 5.16 4.86 5.52 4.33 4.98 5.48 4.96 4.78 5.10 5.31 5.34 5.38 4.50 4.82 4.95 4.55 4.81 5.56 4.55 4.89 4.69 5.19 4.72 5.45 4.15 4.80 6.16** 5.55 5.13 4.86 5.75 4.95 5.06 4.99
估计值。
第二节 描述平均水平的统计指标
统计描述即用恰当的统计指标描述资 料的数量特征。
计量资料的统计描述分为两个方面: 集中趋势(central tendency)主要指平均水平 离散趋势(tendency of dispersion)
平均数(average)
平均数是反映一组同质的数值变量资料的集中 趋势或平均水平的指标。常用的平均数有三种:
一、算术均数(arithmetic mean,x )
二、几何均数(geometric mean,G ) 三、中位数(median,M)和百分位数
(percentile,Px)
一、算术均数(arithmetic mean)
是n个变量值的数值平均值,即各个变量值之和除 以变量值的个数。适用于对称分布资料。
即5人血清中该抗体平均效价为1:40
二、几何均数(geometric mean)
加权法
G lg 1 f1 lg x1 f2 lg x2 fk lg xk
n
lg 1 f lg x n
例7.3 40名麻疹易感儿接种疫苗1个月后血凝抑制抗体 滴度见表7-3,求平均滴度。
本例∑flgx=72.2471,代入公式得:
当观察值较多时,可先编制频数表(frequency table),然后用加权法(weigh1 x1 f 2 x 2 f k x k fx
n
n
一、算术均数(arithmetic mean)
SD=0.482
二、几何均数(geometric mean)
几何均数是n个变量值的乘积开n次方所得的根。 直接法
G n x1 x2 x3 xn 两边取对数得:
lg G lg x1 lg x2 lg xn lg x
n
n
G lg 1
lg n
x
二、几何均数(geometric mean)
例7.2 有5人的血清中某抗体效价分别为1:10、 1:20、 1:40、 1:80、 1:160,求其平均效价。