医学统计学第二章
医学统计学 第二章 个体变异与变量分布

个体变异(individual variation) • 是同质观察对象间表现出的差异。 • 变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。 • 就个体而言:变异是随机的(random)。 • 就总体而言:个体变异是有规律的。
个体变异是统计学应用的前提 个体变异
(一)算术均数(arithmetic mean)简称均数(mean) 1 .适用条件:单峰对称分布、正态分布的资料 2 .计算公式: ①小样本:
xx n
加权系数
xww 1x 1w 2x 2...w nx nwi 0, wi 1
例:某门功课的成绩:平时占 0.2 ,期中占 0.3,期末占 0.5 则平均成绩为:
百分位数
0
Px
M
100%
百分位数是一个位置指标,以 PX 表示。 一个百分位数将全部观察值分为两部分: x%的变量值小于 PX ;( 100 -x )%的变量值大于 PX 。 有 10 人的发汞值(umol/Kg) 1.1, 1.8, 3.5, 4.2, 4.8, 5.6, 5.9, 7.1, 10.5,16.3
f i
n
有 25 份血清的抗体效价分别为
抗体效价 1:10 , 1:20 , 1:40 , 1:80 , 1:160 ,
人数 2
5
8
7
3
G l g 1 ( filx g i) l g 1 (2 l1 g 5 0 l2 g 8 0 l4 g 7 0 l8 g 3 0 l1 g)6
n
25
4.7 4 所以,这 25 份血清的平均效价是 1:44.7 。
X = f1x1 f2 x2 ... fk xk n
医学统计学-第二章 统计描述

1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
卫生统计学第二章

六、资料的贮存
1、纸带机或卡片paper tape, card 2、磁带magnetic tape 3、软盘floppy disk 4、硬盘hard disk 5、光盘CD Rom 6、USB移动存贮设备(flash memory)
• Database 的优点:
– 便于资料的再利用 – 便于汇总交流 – 便于查询 – 便于补充、修改和连接
– x为组中值class mid-value (midpoint)=本组下限 与相邻较大组段的下限相加除以2 – k 为组数 – f 为各组的频数,又称权数weight – ∑f 各组频数之总和 – ∑fx 为各组组中值与频数乘积之和 • 计算实例见P3
表
110名7岁男童的身高均数的计算
身高组段 110~ 112~ 114~ 116~ 118~ 120~ 122~ 124~ 126~ 128~ 130~ 132~ 134~136 合计 频数 f 1 3 9 9 15 18 21 14 10 4 3 2 1 110 组中值 X 111 113 115 117 119 121 123 125 127 129 131 133 135 fx 111 339 1035 1053 1785 2178 2583 1750 1270 516 393 266 135 13314
• 注意事项:
– 1、一般不能计算发病率和患病率 – 2、不同医院的病人差别大,相互比较要谨慎 – 3、某医院就诊(住院)病人中各种病人的比例, 不一定代表居民中各种病人所占的比例 – 4、同一医院同一科室不同时期病的病情也会不 同 – 5、资料记载的详细程度和标准一致性问题
• 四、实验数据experimental data(指在动植物 实验研究中获得的数据)、试验数据trial data(指在人体进行试验所得到的数据) • 五、现场调查field survey资料
医学统计学-第二章数据管理与质量控制

第二章数据管理与质量控制
掌握:EpiData软件的操作;数据管理的目的与组成。 熟悉:数据管理过程中的质量控制;常用的数据管理软件。 了解:数据库的产生与应用
从数据本身上来说,是指对数据的组织、定位、存储、 读写、检索等;从实验角度而言,是指才能够研究开始至研 究结束所得到得全部研究数据,转换为最终分析数据库全过 程中所进行的数据方面的据库的构成
3.数据库的应用
4.数据库的优越性
1.EpiData:数据的管理,数据的录入、整理。 2.统计分析软件:SPSS
SQLserver/Oracle/Access/excel
EpiData 是由丹麦的Jens M、Michael B和英国Mark M 设计,编程者为Michael B。免费从互联网下载。
质量控制就是运用先进的科学技术和统计学方法控制科学试 验及其过程,使得结果符合事先设计的标准,并保证试验数 据真实可靠。
尤其是原始数据的获取,是数据录入及数据整理的基础和前提。
1.数据的获取首先要保证操作规范 2.对获取的数据进行逐级审核 资料的完整性和衔接的正确性; 3.手工审查原始资料,数据获取的质量控制应在数据录入前 完成
录入文件:录入完一份数据选择存盘
1.数据双录入:是指两个人对同一资料进行 录入,然后对两个人的录入结果进行差异比 对纠错,以保证速度的可靠性和准确性。具 2.体操作:先将建立好的数据库备份到另一 个盘或电脑中,然后双人录入。数据录入完 成后,在数据处理阶段,由“一致性检验” 进行差异比对,然后对照原数据(纸质版原 始数据),修改不同数据即可。
打开文件:建立QES文件 打开epidata文件(可对REC文件编辑) 1.提前编辑的word版问卷直接复制。 2.手工录入,一行表示1个变量,词与词之间用空格键。 word版简单的姓名、年龄、性别可直接做变量名,较长变 量名可以使用n1,n2,n3或v1,v2,v3 注意:变量名一定要以英文字母开头,如n1,n2 3.字段编辑器对变量格式定义 根据专业要求和变量特点,定义好数据长度。 文本型用____定义。一个中文占2个字符,一般名字3-4个 字,加6-8个下划线。 数值型用#定义。一个#代表1个数值,如果最大值可能达 到1000,就有#### 日期类型用<yyyy/mm/dd>定义
医学统计学 第2章

所以,一般不用极差来反映离散程度。
二. 四分位数间距(Q)
1.分位数的概念
分位数是一种位置指标,一个特定的分位数将任何一 个频数曲线下的面积分为两部分。
第1四分位数记作Q1,第2、第3四分位数,分别记作 Q2、Q3;第1百分位数,记作P1。同理,还有第2、第 3、 ···、第99百分位数,分别记作P2、P3、 ···、P99。 显然,Q1=P25、Q2=P50=M、Q3=P75
proc univariate; output out=aa max=max min=min mean=m std=s median=med q1=p25 q3=p75 qrange=q mode=mode range=r; proc print data=aa; data samp211; set aa; p1=m-1.96*s; p2=m+1.96*s; proc print; var p1 p2; data samp212; set samp2_1; if 56<x<59 then x=56; if 59=<x<62 then x=59; if 62=<x<65 then x=62; if 65=<x<68 then x=65; if 68=<x<71 then x=68; if 71=<x<74 then x=71; if 74=<x<77 then x=74; if 77=<x<80 then x=77; if 80=<x<83 then x=80; if 83=<x<86 then x=83; proc freq; table x; run;
《医学统计学》第1-2章

常用平均数的意义及其应用场合
平均数
意义
应用场合
均数 平均数量水平
几何均数 平均增减倍数
中位数 位次居中的观 察值水平
应用甚广,最适用于对称分布, 特别是正态分布
①等比资料;②对数正态分布 资料
①偏态资料;②分布不明资料; ③分布一端或两端出现不确定 值
22
1. 均数 (mean):
, X
应用:正态分布或近似正态分布的定量资料。
女 B 14.67 37.8
疗效
显效 有效 有效 无效
男B
16.80
37.6 无效
标识变量
用于数据管理
分析变量-表示试验效应或观察结果大小的
分组变量
变量或指标
反应变量
5
处理 复方哌唑嗪 复方降压片 安慰剂
合计
表 3.8 三种药物治疗高血压的疗效
有效
无效
合计
有效率(%)
35
5
40
87.50
20
10
30
15
定量资料的频数表和频数图(直方图)
表2.2 某市120名5岁女孩 身高频数表
组段(cm)
频数(f)
95-
1
98-
7
101-
10
104-
18
107-
25
110-
21
113-
15
116-
15
119-
7
122-125
1
合计
120
图2.1 某市城区120名5岁女孩身高频数分布
16
1、 频数分布的特征
如何选用正确的统计指标描述一个定量 资料?
14
第一节 频数分布
医学统计学(第2章)正态分布

dx
(2-18) )
F(X)
p(a〈x〈b)
0 12.00 14.50 17.00 19.50 22.00 24.50 27.00 29.50 32.00
正态分布曲线下面积的含义
1.表示变量值(x)在a-b区间变量值所占 1.表示变量值 表示变量值( 全部(总体)变量值的比例或概率 比例或概率(p)。 全部(总体)变量值的比例或概率(p)。 2变量值在整个曲线下的面积为100%,或 变量值在整个曲线下的面积为100%,或 出现的概率为1 出现的概率为1。
第五节 医学参考值范围的制定
一、概念 医学参考值是指包括绝大多数“ 医学参考值是指包括绝大多数“正 常人” 的各种生理及生化指标常数, 常人 ” 的各种生理及生化指标常数 , 也 称正常值。 称正常值。 正常值是指在一定范围内波动的值, 正常值是指在一定范围内波动的值, 医学上常用95% 医学上常用95%的范围作为判定正常或 异常的参考标准。 异常的参考标准。
二、 标准正态分布
1.标准正态分布及标准化变量值(u) 标准正态分布及标准化变量值( ) 标准正态分布及标准化变量值 任何正态分布的X值通过 值转换后,称为标 任何正态分布的 值通过u值转换后 称为标 准化的正态分布, 准化的正态分布,即u ~N( µ=0 , σ2=1) ( ) 概率密度函数为: 。概率密度函数为: 2
Φ(−u) 表示从-∞到- u值对应曲线范围 表示从- 值分布比例。 内X值分布比例。
例1: :
Φ(u = −1) = 0.1587 Φ(µ =1) =1− Φ(u = −1)
=1− 0.1587 = 0.8413
例2:标准正态变量值u=(-1,1)和u= 标准正态变量值u=( 1.96,1.96)区间内面积各为多少? ( -1.96,1.96)区间内面积各为多少?
《医学统计学》第二章定量数据的统计描述

累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630
-
累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)
医学统计学--第二章 计量资料的统计描述

4.13 4.28 4.91 3.95 4.23 3.75 4.57 3.51
2.78 3.26 3.18 5.08 3.57 3.98 3.80 3.86
4.26 3.50 3.68 4.53 4.83 4.13 3.93 3.02
3.58 2.70 4.83 3.92 3.52 4.26 3.78 3.70
1
lg X ) lg (
n
1
ቤተ መጻሕፍቲ ባይዱ
lg10 lg 20 lg 40 lg 40 lg160 ( ) 34.8 5
(2)加权法 公式:
G lg (
1
f lg X f
)
例2-5 69例类风湿关节炎(RA)患者血清EBV-VCAlgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均 抗体滴度。
三、频数表和频数分布图用途
1.描述频数分布的 类型 (1)对称分布 :若 各组段的频数以频数 最多组段为中心左右 两侧大体对称,就认 为该资料是对称分布
25
20 15
Æ µ Ê ý
10 5
0
2.45
3.05
3.65
4.25
4.85
5.45
6.10
Ñ Ç × µ ¹ ´ £ mmol/L£ ª å Ü ¨Ì ¼ ¨ ©
G 公式: X 1 X 2 X n
n
或
G lg
1
lg X ) (
n
例2-4 某地5例微丝蚴血症患者治疗七年后用间接 荧光抗体试验测得其抗体滴度倒数分别为,10, 20,40,40,160,求几何均数。
G 10 20 40 40 160 34.8
5
G lg
医学统计学第3版,02计量资料的统计描述试题

第二章 计量资料的统计描述一、教学大纲要求(一)掌握内容1. 频数分布表与频数分布图 (1)频数表的编制。
(2)频数分布的类型。
(3)频数分布表的用途。
2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。
算术均数、几何均数、中位数。
3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。
极差、四分位数间距、方差、标准差、变异系数。
(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。
二、 教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。
常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。
(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。
对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。
如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。
对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。
min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。
确定组段和组距。
每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。
3.写出组段,逐一划记。
频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。
(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。
1.算术均数(对称分布)算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。
医学统计学统计描述

缺点:仅考虑两端数据的差异,未考虑其它数据的变异情 况,不能全面反映一组资料的离散程度,受样本含量n的 影响较大,且不稳定,易受极端值的影响。
四分位数间距(inter-quartile range)
▪ 定义:把全部变量值值分为四等分的分位数,其
分位数。它是一个位置指标。 Px ▪ 中位数是第50百分位数,用P50表示。 ▪ 第25,第75,第95百分位数记为P25, P75, P95
是统计学上常用的指标。
百分位数(percentile)
▪ 百分位数(percentile)
X%
PX
(100-X)%
▪ 50%分位数就是中位数 ▪ 25%,75%分位数称四分位数(quartile)
方差(variance)
▪ 定义:离均差平方和的均数 ▪ 表示法:总体方差用2表示;样本方差用
S2表示
▪ 计算公式:
▪ 意义: 方差值越大,说明变异程度越大。
▪ 特点:包括了每个变量值与均值的差异,
但该指标的单位为平方。
标准差(standard deviation, sd) :
▪ 定义:方差开平方,取平方根的正值,每
▪ 例 对于某项风险较高的新手术术后的生存 时间进行跟踪,共调查了7人, 6人死亡之 前分别生存了5天、6天、10天、16天、25 天、29天,还有一人术后30天随访时仍存 活。
▪ 本资料属于“开口”资料。
▪ 本例数据已经按从小到大的升序排列,n=7, 为奇数,其中位数为16天。
2. 频数表法(n较大,已编成频数表)
62.05
1 3 1
79.00 72.25
409.75 4.06(mmol / L) 101
医学统计学第2章(改)

得:M=
12(X(82
)+X(8 2
+1))= 12(X4+X5)
= 1(3+5)=4(小时) 2
例2-8 试计算表2-2某医院1123名产后出血孕妇 人工流产次数的中位数。
本例为离散型计量资料。因n=1123,故中位数
是从小到大排序后居于(n+1)/2=(1123+1)
/2=562位的观察值。据表2-2,排在第1~402位
依公式(2-3) G= n X1X 2 X n或G l 40 160 = 34.8
或G= Ig 1( Ig10 Ig20 Ig40 Ig40 Ig160 ) = 34.8
5
故5份血清抗体效价的平均滴度为1:34.8。
例2-5 69例类风湿关节炎(RA)患者血清EBVVCA-IgG抗体滴度的分布见表2-5第⑴,⑵ 栏, 求其平均抗体滴度。
x
例2-2 用直接法计算例2-1某单位101名正常成年 女子的血清总胆固醇的均数。
依公式(2-1)
X= X1+X2 +...+Xn n
X n
x = 2.35 4.21 ... 3.26 = 4.03(mmol/L) 101
例2-3 利用表2-1计算101名正常成年女子 的血清总胆固醇的均数
人流次数 (1)
0 1 2 3 4 5 6
合计
产后出血人数 (2)
402 330 232 118
27 11
3
1123
累计频数 (3)
402 732 964 1082 1109 1120 1123
—
累计频率(%) (4)
35.80 65.18 85.84 96.35 98.75 99.73 100.00
统计学简答题

医学统计学简答题第二章定量数据的统计描述1.变异系数与标准差的区别标准差使用的度量衡单位与原始数据相同,在两组数据均数相差不大,单位也相同时,从标准差的大小就可以直接比较两样本的变异程度。
但是有时我们需要对均数相差较大或单位不同的几组观测值的变异程度进行比较,标准差不再适宜,这时就应该使用变异系数了。
2.集中趋势和离散趋势的指标及适用范围(1)集中趋势:算术均数、几何均数、中位数,统称平均数,均反映集中趋势。
算术均数:主要适用于对称分布,尤其适合正态分布资料。
几何均数:应用于对数正态分布,也可应用于呈倍数关系的等比资料。
在医院中主要用于抗原(体)滴度资料。
中位数:适合条件:a.极偏态资料。
b.有不确定的数据(有>或<)。
c.有特大值或特小值。
d.分布不明的资料。
(2)离散趋势:极差、四分位数间距、方差和标准差、变异系数均反映离散趋势极差:除了两端有不确定数据之外,均可计算极差。
四分位间距:用于描述偏态分布资料。
方差和标准差:用于描述正态分布计量资料的离散程度。
变异系数:a.均数相差较大。
b.单位不同。
3.简述变异系数的实用时机变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。
4.怎样正确描述一组计量资料(1)根据分布类型选择指标(2)正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。
5.标准差与标准误的联系和区别有哪些?区别:(1)概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差,标准误越小,均数的可靠性越高。
(2)用途不同:标准差与均数结合估计参考值范围。
(3)计算含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。
联系:标准差、标准误均为变异指标,当样本含量不变是,标准误与标准差成正比。
6.正态分布的主要特征(1)正态曲线在横轴上方均数处最高,即频数最大(2)正态分布以均数为中心,左右对称,无限接近于x轴(3)曲线与横轴所围面积为1。
资料类型医学统计学

福建中医药大学医学统计学第二章资料收集与整理主要内容资料类型资料收集与整理第一节第二节第一节资料类型•统计学中需要处理的数据统称为资料(data)。
•资料由变量及其变量值组成。
•变量(variable)表示随机现象的某种特征或属性,即研究的项目或指标。
•变量值(value of variable)又称观察值(observed value),是指变量的测定结果。
一、变量类型●变量类型的划分方法有多种●不同的划分方法产生不同的变量类型一、变量类型按取值结果分连续型变量(continuous variable)离散型变量(discrete variable)该变量的可取值为某个区间的任何数值。
数字的特点:可取小数该变量的可取值为有限个或可列无穷个。
数字的特点:正整数一、变量类型----连续型变量正常人血清铜含量(pg/L)20.216.519.923.420.021.315.516.818.917.016.119.218.116.818.414.721.917.413.018.317.422.815.617.119.918.519.523.023.217.4 19.122.421.019.516.517.817.212.415.021.1 17.718.414.915.914.916.014.221.014.218.5身高、体重、血常规、肝功能、肾功能等,各种生理生化检测指标一、变量类型----离散型变量某年甲、乙两县人口资料(人)细胞数、人口数、治疗有效例数等一、变量类型按在统计分析中所起的作用分标识变量分析变量自变量因变量协变量如编号、住院号,用于对数据进行管理一、变量类型按观察指标的性质分类定量变量分类变量无序变量,名义变量数值变量,尺度变量需用一定的仪器或尺度测量的变量有序变量,名义变量二、资料类型对应于变量按观察指标性质的分类。
计量资料(定量资料)计数资料等级资料由定量变量及其观测值组成由无序变量及其观测值组成由有序变量及其观测值组成分类资料二、资料类型资料类型特点变量类型实例计量资料(定量资料) 每个个体都能观察到一个观察指标的数值,有度量衡单位连续型或离散型,数值变量身高(cm),体重(kg),细胞数(个),人口数(人)分类资料(定性资料)无序分类资料(计数资料) 每个个体观察结果的属性或分类间无大小顺序之分。
2-1频数分布

医学统计学
2)左偏态分布(负偏态分布):左侧的组段数 多于右侧的组段数,频数向左侧拖尾
120 100
80 60 40 20
0 0.0
10.0
20.0
30.0
40.0
50.0
60.0
3、频数分布的两个特征
医学统计学
集中趋势:血清铁含量向中央部分集中, 即中等含量者居多,集中在18 mol / L 这个组段,这种现象为集中趋势。
2、非抽样误差 (1)系统误差
由于仪器未校正、测量者感官的某种障碍、医 生掌握疗效标准偏高或偏低等原因,使观察值不是 分散在真值两侧,而是有方向性、系统性或周期性 地偏离真值。
例如:测量血糖,有斑氏法和葡萄糖氧化法, 斑氏法的测量结果偏高←易受体内还原性物质的 影响。
特点(1)有倾向性; (2)可以通过严格的实验设计和技术措施 消除。
医学统计学
(二)计数资料和等级资料的频数分布表
1、计数资料的频数表与图示 频数表的编制方法:
统计出每一个类别的频数,计算频率、累计频 数和累计频率,并将它们列在一个表中。
例2 试编制2005级100名大学生(其中40名男生) 性别的频数分布表与图示。
医学统计学
例2 试编制2005级100名大学生(其中40名男生) 性别的频数分布表和绘制频数分布图。
表1
X X X X X X 频数表
组段 组频数划记 组中值 组频数 组频率 累计组频数 累计频率
合计
医学统计学
例1 抽样调查某地120名18岁-35岁健康男性居民 血清铁含量(μmol/L)如下,试编制频数分布表。
7.42 8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 20.38 8.40 17.32 29.64 19.96 21.96 23.90 17.45 19.08 20.52 24.14 23.77 18.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 16.67 15.38 18.61 14.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 14.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 24.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 17.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 14.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 21.75 19.47 15.51 10.86 27.81 21.36 16.32 20.75 22.11 13.17 17.55 19.26 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【例 2.3 】 求表2.1中资料的均数
表 2.1 120 名 7 岁男童身高的划记和频数
身高组段
划记
频数
(1)
(2)
(3)
117.0~
3
119.5~
正6122.0~ Nhomakorabea正正
14
124.5~
正正正
19
127.0~
正正正正正
26
129.5~
正正正正
20
132.0~
正正正
18
134.5~
正
8
137.0~
4
示总体均数;用 X 表示样本均数。
均数反映一组观察值在数量上的平均水平,最适 合单峰对称分布资料的平均水平的描述。
1)未分组资料(原始资料)的均数的计算方法:
将所有的观察值直接相加,再除以总观察数n
2)分组资料的均数计算法 有时我们面对的资料不是原始数据,而是经过加工整理 后的分组资料。这时用加权法求均数。
25%和 75%百分位数。
表 2.3 157 名杆菌痢病治愈者的住院天数
住院天数 治愈人数
累计频数 累计频率(%)
(1)
(2)
(3)
(4)
0~
3
3
1.9
5~
38
41
26.1
10~
49
90
57.3
15~
24
114
72.6
20~
13
127
80.9
25~
8
135
86.0
30~
7
142
90.4
35~
4
146
频数表的编制方法如下 : (1)找出观察值中的最大值和最小值,并求出极差
R 144.0cm 117.4cm 26.6cm
(2)决定组段数、组段和组距
确定组段数要以充分反映数据的分布特征为原则
组距
极差 组数
组距=26.6/10=2.66
可以参考斯特奇斯(Sturges)提出的经验公式来确定分组数
125.0 134.5 122.5 121.0 139.0 140.5 130.0 122.3 129.0 126.0 126.7 128.3
120.5 126.5 131.5 128.5 129.5 129.0 120.0 118.4 123.0 123.6 126.0 123.2
135.0 129.5 135.0 136.0 135.0 128.0 122.0 123.5 125.0 118.7 130.5 128.9
X 甲=30k g
乙组 24 27 30 33 36
X 乙=30k g
丙组 26 29 30 31 34
X 丙=30kg
• 三组的的均数相同,但显然5个数据间参差不齐 的程度是不一样的。二者结合,才能全面认识 事物。
• 列出类别,计算频数,列表
2.1 频数表
➢ 资料整理的必要性 条理化,系统化,显示数量特征、分布规律,便于 进一步统计分析
➢ 数值变量资料的整理
2.1.1. 频数表的编制
【例2.1】 2011年某市120名7岁男童身高(cm)资料如下,试 编制频数表。
126.5 132.5 129.0 131.5 130.0 131.5 134.2 133.0 130.0 117.4 123.2 127.3
(2)分布的类型 ➢ 频数分布可分为对称分布和偏态分布两种类型.
➢ 不同类型的分布,应采用不同的统计分析方法
对称分布,是指观察值向中央部分集中,以中等数据 居多,左右两侧分布大体对称。
对称分布 如:正常人身高、体重,脉搏,血红蛋白等的分布
所谓偏态分布,是指观察值偏离中央
尾部偏向数轴正侧(或右侧),称正偏态(或右 偏态);
中位数(median,简记为M)是将一组观察 值从小到大按顺序排列,位次居中的观察值 就是中位数
百分位数(percentile)是一种位置指标,以 PX 表示,一个百分位数PX 将总体或样本的全部
观察值分为两个部分,理论上有X%的观察值
比 PX 小,有(100-X)%观察值比 PX 大
中位数和均值的关系
93.0
40~
4
150
95.5
45~
1
151
96.2
50~
1
152
96.8
55~
2
154
98.1
60~
1
155
98.7
65~
1
156
99.4
70~
0
156
99.4
75~
1
157
100.0
2.3 离散程度的描述
【例2.9】 三组同性别、同年龄儿童的体重(kg)如下,
试分析其集中趋势和离散程度。
甲组 26 28 30 32 34
2.2 集中趋势的描述
平均数反映一组观察值的集中趋势、中心位置或平均 水平
它是该组数据的代表,能对一群同类事物或现象的数 量特征作出概括的说明,
是统计学中应用最广泛、最重要的一个指标体系。
常用的平均数有(算术)均数,几何均数和中位数
2.2.1 均数 均数是算术均数的简称,习惯上用希腊字母 表
134.5 138.5 127.0 126.5 126.0 128.0 123.9 124.5 130.0 128.3 133.2 132.2
125.0 134.5 122.5 121.0 139.0 140.5 130.0 122.3 129.0 126.0 126.7 128.3
120.5 126.5 131.5 128.5 129.5 129.0 120.0 118.4 123.0 123.6 126.0 123.2
132.0 126.0 132.0 129.0 128.0 131.5 123.5 131.0 130.0 123.0 126.0 122.5
133.0 127.5 133.0 127.5 132.0 128.5 125.5 127.5 133.8 132.0 126.0 127.0
128.0 132.5 134.5 133.5 125.5 144.0 127.0 129.0 121.0 126.0 122.7 126.5
抗体滴度 (1) 1:1 1:8 1:16 1:32 1:64 1:128
合计
人数(f) (2) 1 7 22 30 39 8 107
滴度倒数(X) (3) 1 8 16 32 64 128 -
lgX (4) 0.0000 0.9031 1.2041 1.5051 1.8062 2.1071 -
flgX (5) 0.0000 6.3217 26.4902 45.1545 70.4410 16.8577 165.2654
18
134.5~
正
8
137.0~
4
139.5~
1
142.0~144.5
1
合计
120
2.1.2 频数分布的图示
图2.1 2011年某地120名7岁男童身高的频数分布
2.1.3. 频数分布的分析
对频数表的分析,主要在于以下几个方面: (1)有无可疑值
通过对频数分布的分析,发现某些特大或特小的离 群值、可疑值
5
(2)分组资料的几何均数计算法。
G
lg1
f1 lg
X1
f2
lg
X2
lg
fk Xk
fi
lg
1
lg fi X i
n
【例2.5 】 某地107人接种疫苗后抗体滴度见表2.2第(1)(2) 栏,求平均滴度。
表2.2 107例试验受试者免疫后麻疹HI抗体滴度及平均滴度计算
n
【例2.4 】 5人的血清抗体滴度分别为1:10,1:20,1:40, 1:40,1:160,求平均滴度。
G 5 10 20 40 40 160 34.8
G lg 1 lg10 lg 20 lg 40 lg 40 lg160 34.8
2 统计资料的整理与描述
原始资料杂乱无章
【例2.1】 2011年某市120名7岁男童身高(cm)资料如下,试 编制频数表。
126.5 132.5 129.0 131.5 130.0 131.5 134.2 133.0 130.0 117.4 123.2 127.3
132.0 126.0 132.0 129.0 128.0 131.5 123.5 131.0 130.0 123.0 126.0 122.5
均值 中位数
均值 = 中位数
中位数 均值
左偏分布
对称分布
右偏分布
中位数与百分位数的计算
(1)未分组资料的中位数计算法
设n个观察值X1,X2,…,Xn已按从小到大的顺
序排列,则:
M
Xn/2
X n1/ 2 X n / 21
/2
当n为奇数 当n 为偶数
【例2.6 】 9名沙门菌食物中毒患者的潜伏期 (小时)为:2,5,9,12,14,15,18,24, 60。求其中位数。
如:食物中毒引起腹泻的潜伏期
右偏态
尾部偏向数轴负侧(或左侧),称负偏态(或左偏 态)
如:慢性病患者年龄的分布
左偏态
(3)分布特征
分布的两个重要特征:集中趋势和离散趋势
总体中的个体总是具有同质性,这些同质性使得观察值 应趋向同一数值(即集中趋势)。
同一总体中的个体之间又普遍存在着各种差别,使得个 体观察值不会完全相同。
133.0 127.5 133.0 127.5 132.0 128.5 125.5 127.5 133.8 132.0 126.0 127.0