医学统计学-定量资料的统计描述
医学统计学-第二章 统计描述

1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
医学统计学定量资料的统计描述和变量分布

滴度 1∶8 1∶16 1∶32 1∶64 1∶128
人数 17 15
11 3
0
G lg 117 lg 8 15 lg16 11 lg 32 3 lg 64
46
=lg-1 1.2041
=16.0
46例正常人血清的HBsAg滴度的几何均数为1:16
2.几何均数应用的注意事项: 1)几何均数常用于等比级数资料或资料 呈倍数关系或对数正态分布资料。 2)观察值中不能有0。 3)观察值中不能同时有正值和负值。
第二节 定量资料的统计描述和变量分布
定量资料的 统计描述
统计图表:频数分布表(图)
集中趋势指标 统计指标:
离散趋势指标
利用统计表对数据进行概括,用统计图对分布形态 及分布间的关系做直观的表达,用于描述定量资料的统 计指标的意义与计算。
一、定量变量的频数分布
(一)连续型定量变量频数表的编制:
频数(frequency):指对一个随机变量做重复观察, 其中某变量值出现的次数。
取整数为0.5 mmol·L-1
(3) 划组段:
下限:每个组段的起点(最小值)
上限:每个组段的终点(近似最大值)
注:①第一个组段的起点数据必须为小于或等于最小值的整数
②最后一个组段应同时写出上限和下限来。
(4) 绘制整理表 “下限≤x<上限”
注:各组段的频数之和应等于总的观察例数。
表4-2-1 某地101例30~49岁骨科病人血清总胆固醇值划记表
例4-2-8 50例咽峡炎患者的潜伏期如下,求M,P25, P75,P2.5,P97.5。
表4-2-3 50例咽峡炎患者潜伏期的M和Px的计算
潜伏期(小时) (1) 12~ 24~ 36~ 48~ 60~ 72~ 84~ 96~
医学统计学(第二版)思考与练习答案

【习题解析】
一、思考题
1.抽样研究中,由于同质总体中的个体间存在差异,即个体变异,因而从同一总体中随机抽取若干样本,样本均数往往不等于总体均数,且各样本均数之间也存在差异。这种由个体变异产生的、随机抽样引起的样本均数与总体均数间的差异称均数的抽样误差。决定均数抽样误差大小的因素主要为样本含量和标准差。
105.85
8.60
121.04
合计
5508(N)
5.11
264( )
4.86
286( )
男性HBsAg标准化阳性率:
女性HBsAg标准化阳性率:
可见,经标准化后女性HBsAg阳性率高于男性。
输出结果
注:将SPSS输出的sp1的和除以sp的和,得男性HBsAg标准化阳性率;sp2的和除以sp的和,得女性HBsAg标准化阳性率。
2.同一资料的标准差不一定小于均数。均数描述的是一组同质定量变量的平均水平,而标准差是描述单峰对称分布资料离散程度最常用的指标。标准差大,表示观察值之间变异大,即一组观察值的分布较分散;标准差小,表示观察值之间变异小,即一组观察值的分布较集中。若标准差远大于均数表明数据离散程度较大,可能为偏态分布,此时应考虑改用其他指标来描述资料的集中趋势。
逐年
定基比
环比
定基比
环比
1998~
a0
160.5
—
—
—
—
—
—
1999~
a1
144.2
-16.3
-16.3
0.90
0.90
-0.10
-0.10
2000~
a2
130.0
-30.5
-14.2
0.81
医学统计学课件:02_统计描述(定量定性)

中位数(median,M)
将一组观察值从小到大按顺序排列,居于中心位置 的数值。在全部观察值中有半数的值比M大,另有半数 的值比M小。 适用于当大部分观测值比较集中,少数观测值偏向 一侧时;或资料分布情况不清楚时;或数据的最大值
(最小值)无准确测量数据时。如传染病的潜伏期。任
何分布的定量数据均可用中位数描述其分布的集中趋势, 使用范围广。
2003年4月22日全国SARS发病人数频数表
发病地区 北京 山西 广东 河北 内蒙 天津 广西 其他省市 频数 105 16 14 6 3 2 1 0 频率/% 71.4 10.9 9.5 4.1 2.0 1.4 0.7 0.0 累积频数 105 121 135 141 144 146 14移,向右侧拖尾
负偏态(左偏态)
峰向右偏移,向左侧拖尾
集中趋势的特征值
—— 平均水平的度量
算术均数(arithmetic mean,M)
适用于正态分布和近似正态分布的资
料。
总体均数用µ表示;样本均数用 x 表示。
直接计算法
将所有观察值直接相加再除以观察值的个数。
f i lg X i f1 lg X 1 f 2 lg X 2 f n lg X n 1 lg G lg f f i i
1
频数表资料的几何均数
抗体滴度 ⑴
人数,f ⑵
滴度倒数,X ⑶
lgX ⑷
f· lgX ⑸
累积频率/%
71.4 82.3 91.8 95.9 98.0 99.3 100.0 100.0
合计
147
100.0
某药物疗效的频数表
治疗效果 治愈 频数 65 频率/% 43.3 累积频数 65
【医学统计学】第4章 定量资料的描述(12-17)

4. 归组计数,整理成表 用计算机或手工划记法汇总,得到各组段观察单位个数,绘制成频
数分布表
定量资料的统计描述
表4-1 某市2010年120名正常成年男子红细胞计数值(×1012/L)的频数表
组段(×1012/L) (1)
组中值 (2)
3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~ 5.90~6.20 合计
频数分布表(frequency table):由变 量值及其频数编制而成的表
定量资料的统计描述
(一)频数表的编制
1. 求极差(range): 极差又称全距,是指全部观察值中最大值与
最小值之差,用符号R表示 R=xmax-xmin
R 6.183.29 2.89cm
定量资料的统计描述
2. 确定组数和组距
组段(×1012/L) (1) 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~
5.90~6.20 合计
频数fi (2)
2 5 10 19 22 24 21 11 4 2 120( )
组中值xi (3) 3.35 3.65 3.95 4.25 4.55 4.85 5.15 5.45 5.75 6.05 47
1
86.9977 50
lg
11.7399
54
即50名麻疹易感儿接种麻疹疫苗后血凝 抑制抗体的平均滴度为1/54
2. 应用及注意事项
•几何均数应用于: •等比资料,如抗体平均滴度 •对数正态分布资料
• 使用几何均数时应注意:
• 观察值不能有0
• 观察值不能同时有正值和负值。若全为负值, 在计算时先把负号去掉,得出结果再加上负 号
医学统计学2. 定量数据的统计描述

S 48984 6982 /10 5.41 10 1
5. 变异系数(CV)
变异系数,标准差和均数比值,多用于观察 指标单位不同
如身高与体重的变异程度的比较;或均数 相差较大时,
如儿童身高与成人身高变异程度的比较。
如何有效地组织、整理和表达数据的信息?
浙江中医药大学考试成绩登记表
1. 频数表
频数表:同时列出观察指标的可能取值区间及 其在各区间内出现的频数。
2.频数图
直观、形象地表示频数分布的形态和特征。
频数表制作过程
1.确定组数k:通常选择在8~15之间 2.确定组距: 参考组距为R/k , R为全距 3.确定组限 : 应符合专业习惯 4.确定频数:划记或由软件完成
一端或两端存在着无确切数值的资料。
举例
如由例2.4 算出,50岁~60岁正常女性血清甘油
三脂含量的百分位数P75和P25的位置分别为63.2
mg/dl和135.7 mg/dl,则 :
Q 135.7 63.2 72.5(mg/dl)
3. 方差 (Variance)
为了利用每个观察值的信息,可计算平均偏差
常值 可用各组段的频率作为概率的估计值
用途:考察分布的类型
对称分布 :
若各组段的频数以频 数最多组段为中心左右两 侧大体对称,就认为该资 料是对称分布
如:人体一些生化指标 (血清总胆固醇)、身 高、体重等的分布
偏态分布 :
1)正偏态分布: 高峰左偏,频数向右侧
拖尾
如:人体中一些重金属 (发汞、尿铅)的分布, 血清转氨酶等。
S CV 100%
X
例2-8
02-医学统计学定量数据的统计描述

X为组段的组中值。 X=(组段上限+组段下限)/2
【例】120名健康男性居民血清铁含量的频数分布表,试求 其算术均数。
组段 频数 组中值 6~ 1 7 8~ 3 9 10~ 6 11 12~ 8 13 14~ 12 15 16~ 20 17 fX 7 27 66 104 180 340 组段 频数 组中值 18~ 27 19 20~ 18 21 22~ 12 23 24~ 8 25 26~ 4 27 28~30 1 29 fX 513 378 276 200 108 29
概 述 平均数(average),是描述一组观察值集中位置或 平均水平的统计指标,常作为一组数据的代表值用于 分析和进行组间的比较。 常用的有算术均数、几何均数、中位数、百分位 数等。
算术均数 算术均数(arithmetic mean),等于一个变量所有观 察值的和除以观察值个数。 总体均数用希腊字母μ表示,样本均数用符号 X 表示。 算术均数适用于对称分布的资料,如分布均匀的小 样本数据或近似正态分布的大样本数据。 算术均数易受极端值的影响,并且受极大值的影响 大于受极小值的影响。
n为总频数。
【例】52例慢性肝炎患者的HBsAg滴度数据表,试求其 几何均数。
抗体滴度 1:16 1:32 1:64 1:128 1:256 1:512 合计 频数 2 7 11 13 12 7 52 滴度倒数 16 32 64 128 256 512 lgX 1.20412 1.50515 1.80618 2.10721 2.40824 2.70927 f (lgX) 2.40824 10.53605 19.86798 27.39373 28.89888 18.96489 108.06977
中位数 中位数(median,M),是在按大小顺序排列的变 量的所有观察值中,位于正中间的一个或两个数值。 当数据呈偏态分布、或频数分布两端无确定数值, 均宜采用中位数描述集中趋势。 中位数的确定取决于它在数据序列中的位置,因此 对极端值不敏感。
医学统计学定量数据的统计描述.pptx

频率 0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67 3.33 0.83 100.00
累计频数 累计频率
1
0.83
4
3.33
10
8.33
18
15.00
30
25.00
50
41.67
77
64.17
95
79.17
107
89.17
115
95.83
23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52
表 120名健康男性居民血清铁含量频数分布表
组段 6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 合计
频数 1 3 6 8 12 20 27 18 12 8 4 1
卫生部“十二五”规划教材
医学统计学
定量数据的统计描述
频数分布
频数分布的目的和用途
目的:了解数据的分布范围、集中位置以及分布形态等 特征,以便根据资料分布情况选择合适的统计方法。
用途: ①作为陈述资料的形式; ②便于观察数据的分布类型; ③便于发现数据中特大或特小的可疑值; ④当样本量大时,可用各组段的频率作为概率的估计 值。
血 清 铁 ( μ m ol / L )
图 120名健康男性居民血清铁含量频数分布图
集中趋势的统计指标
概述
平均数(average),是描述一组观察值集中位置或 平均水平的统计指标,常作为一组数据的代表值用于 分析和进行组间的比较。
常用的有算术均数、几何均数、中位数、百分位 数等。
算术均数
医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
医学统计学定性资料定量资料习题

第四章定量资料的统计描述1. 编制频数表时错误的做法是().A. 用最大值减去最小值求全距B。
组距常取等组距,一般分为10~15组C。
第一个组段须包括最小值 D. 最后一个组段须包括最大值E. 写组段,如“1.5~3,3~5,5~6。
5,…”2. 描述一组负偏峰分布资料的平均水平时,适宜的统计量是()。
A. 中位数B. 几何均数C. 调和均数D. 算术均数E。
众数3。
比较5年级小学生瞳距和他们坐高的变异程度,宜采用()。
A. 变异系数B。
全距 C. 标准差D。
四分位数间距 E. 百分位数P2.5与P97.5的间距4. 均数和标准差S的关系是( )。
A。
S越小,对样本中其他个体的代表性越好B。
S越大,对样本中其他个体的代表性越好C。
越小,S越大D。
越大,S越小E。
S必小于5。
在正态分布条件下表示变量值变异情况的指标最常用的是()。
A。
标准差B。
标准误 C. 变异系数D。
全距E。
百分位数6. 变异系数越大说明( ).A. 标准差越大B。
平均数越大C。
标准差、平均数都大D。
平均数小 E. 以均数为准变异程度大7. 在服从正态分布条件下,样本标准差S的值( )。
A。
与集中位置有关 B. 与观察例数n无关C。
与平均数有关D。
与平均数无关E。
与个体的变异程度有关8。
计算几何均数G时,用常用对数lgX和用自然对数lnX所得计算结果( ).A. 一样B。
不一样C。
有时一样,有时不一样D。
有时相差较大,只能用lgX9. 算术均数与中位数相比,()。
A. 抽样误差更大B。
不易受极端值的影响C。
更充分利用数据信息 D. 更适用于分布不明及偏态分布资料10. 比较连续分布数据的离散度,( )。
A. 单位相同时根本不能用CV B。
单位相同均数相差较大时根本不能用SC. S表示绝对离散度,CV表示相对离散度. D。
只要单位相同,用S和用CV都是一样的11. 以中位数表示几种趋势,( )资料。
A。
不能用于正态分布的B。
不能用于严重偏态的连续分布C. 可用于任何分布的定量资料D. 可用于任何一种定性资料12。
《医学统计学》第二章定量数据的统计描述

累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630
-
累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)
医学统计学定量数据的统计描述

方差和标准差
方差
一组数据与其平均值偏差的平方和的平均数。
标准差
一组数据各数值与其平均值的差的平方和的平均数 的平方根。
正态分布和偏态分布
1 正态分布
一组数据的分布符合正态曲线,均值、中位数和众数都在同一位置。
2 偏态分布
一组数据的分布不符合正态曲线,左右两侧的数据出现“偏斜”。
频率分布表和直方图
医学统计学定量数据的统 计描述
这个演示文稿将介绍医学统计学中定量数据的基本统计指标和统计描述方法, 为您提供更深入的理解。
医学统计学的介绍
1 定义
医学统计学是一门研究医 学数据的统计量和结果的 学科。
2 目的
通过数据分析,帮助医学 研究者更好地了解疾病的 特点和分布规律,指导医 学决策和治疗方案。
假设检验和t检验
1 假设检验的基本原理
通过样本数据推断总体参数是否符合某个假 设条件。
2 单样本t检验
一种假设检验方法,用于检验某个样本的均 值是否符合总体的规律。
3 多样本t检验
用于比较两组及以上样本的均值是否存在显 著差异。
4 配对t检验
用于比较同一组样本在两个不同时间或条件 下的差异。
方差分析和回归分析
3 应用
医学统计学应用广泛,包 括临床试验、流行病学调 查、疫情监测和医疗卫生 管理等领域。
基本统计指标
均值
一组数据的平均值,即所有数 值相加后再除以数据的个数。
中位数
一组数据中,位于中间位置的 数值。当数据个数为偶数时, 中位数为中间两个数的平均值。
众数
一组数据中出现次数最多的数 值。可能有多个众数。
频率分布表
一种展示数据分布的表格,包括数值范围、频 数、频率和累计频率等。
医学统计学定性资料的统计描述

卡方检验在医学领域应用
疾病与基因型关联分析
01
通过比较不同基因型在疾病组和对照组中的分布差异,判断基
因型与疾病是否有关联。
临床试验效果评价
02
比较不同治疗方法在患者中的疗效差异,如药物疗效、手术效
果等。
医学影像学诊断准确性评估
03
通过比较影像学诊断结果与金标准诊断结果的一致性,评估影
像学诊断方法的准确性。
非数值性
定性资料不以数值形式表示,而是用 文字、符号等描述。
类别性
定性资料通常按照不同的类别或属性 进行分类。
主观性
定性资料的收集和分析往往涉及主观 判断和解释。
常见定性资料类型
分类资料
按照某种特征或属性将数据分成不同的组别,如性别、 血型等。
顺序资料
除了分类外,还具有一定程度的顺序或等级关系,如 病情严重程度、治疗效果评价等。
数分布表。
图表展示技巧与规范
选择合适的图表类型
根据数据的性质和特点,选择合适的图表类 型,如直方图、条形图等。
数据点标识
在图表中标识出重要的数据点,如最大值、 最小值、平均值等。
图表标题和坐标轴标签
为图表添加标题和坐标轴标签,以便读者理 解图表内容。
图例和颜色使用
使用图例说明不同数据系列的含义,并合理 运用颜色以增强图表的可读性。
整性。
02
Fisher确切概率法计算
根据研究目的和假设,选择合适的统计软件或编程语言实现Fisher确切
概率法的计算过程。
03
结果解读与报告
对计算结果进行解读和分析,将结果以图表或文字形式呈现,并结合专
业知识对结果进行解释和讨论。同时,需要注意结果的可靠性和可重复
统计学简答题

医学统计学简答题第二章定量数据的统计描述1.变异系数与标准差的区别标准差使用的度量衡单位与原始数据相同,在两组数据均数相差不大,单位也相同时,从标准差的大小就可以直接比较两样本的变异程度。
但是有时我们需要对均数相差较大或单位不同的几组观测值的变异程度进行比较,标准差不再适宜,这时就应该使用变异系数了。
2.集中趋势和离散趋势的指标及适用范围(1)集中趋势:算术均数、几何均数、中位数,统称平均数,均反映集中趋势。
算术均数:主要适用于对称分布,尤其适合正态分布资料。
几何均数:应用于对数正态分布,也可应用于呈倍数关系的等比资料。
在医院中主要用于抗原(体)滴度资料。
中位数:适合条件:a.极偏态资料。
b.有不确定的数据(有>或<)。
c.有特大值或特小值。
d.分布不明的资料。
(2)离散趋势:极差、四分位数间距、方差和标准差、变异系数均反映离散趋势极差:除了两端有不确定数据之外,均可计算极差。
四分位间距:用于描述偏态分布资料。
方差和标准差:用于描述正态分布计量资料的离散程度。
变异系数:a.均数相差较大。
b.单位不同。
3.简述变异系数的实用时机变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。
4.怎样正确描述一组计量资料(1)根据分布类型选择指标(2)正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。
5.标准差与标准误的联系和区别有哪些?区别:(1)概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差,标准误越小,均数的可靠性越高。
(2)用途不同:标准差与均数结合估计参考值范围。
(3)计算含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。
联系:标准差、标准误均为变异指标,当样本含量不变是,标准误与标准差成正比。
6.正态分布的主要特征(1)正态曲线在横轴上方均数处最高,即频数最大(2)正态分布以均数为中心,左右对称,无限接近于x轴(3)曲线与横轴所围面积为1。
医学统计学02 定量资料的统计描述

120名8岁男孩身高频数表 组段 112~
频数 f 25
频数 2
114~
21
18
7
9 14
116~
15 10 5 3
20
15 10 5 0 7
14 15 9
118~
120~
122~
1
15
21 18 15 10 5 3 1
10
2 1 身高( cm )
124~ 126~ 128~ 130~ 132~ 134~136
• 加权法
G log
1
f log X f log X ( ) log ( ) n f
1
31
注意事项
几何均数常用于等比级资料或对数正态分布资料。 观察值中若有0或负值,则不宜直接使用几何均 数。 观察值一般同时不能有正值和负值。若全是负值, 计算时可先将负号去掉,得出结果后再加上负号。
7
9 14 15 21 18 15 10
130~
132~ 134~136
5
3 1
5
• 频数(frequency)
– 观察数据的个数
• 频数分布(frequency distribution)
– 观察数据在其取值范围内的分布情况
• 定量资料的频数分布情况可以用频数表 (frequency distribution table)或直方图表 示。
9
14 15 21 18 15
7.5
11.7 12.5 17.5 15.0 12.5
18
32 47 68 86 101
15.0
26.7 39.2 56.7 71.7 84.2
– 组段的起点叫“下限”,终点叫“上
医学统计学(李晓松主编 第2版 高等教育出版社)附录 思考与练习95%答案

一、SPSS 基本功能SPSS基本功能数据管理统计分析图表分析:条图、直方图、饼图、线图、散点图等输出管理:对输出结果复制、编辑等描述性分析均数比较一般线性模型相关与回归分析非参数检验生存分析FrequenciesDescriptivesExploreCrosstabs 统计资料的类型资料类型定量资料:用定量的方法获得的数值资料计数资料:按性质或类别分组后清点各组个数等级资料:半定量资料定量资料的统计推断正态分布两组均数比较单样本设计t检验配对设计t检验成组设计t检验三组及以上均数比较完全随机设计方差分析随机区组设计方差分析重复测量方差分析析因设计方差分析偏态分布配对设计秩和检验单样本设计秩和检验成组设计秩和检验资料类型定量资料计数资料等级资料统计分析统计描述统计推断相对数总体率的估计假设检验u检验卡方检验4假设检验参数检验非参数检验正态分布等级资料偏态分布资料分布类型未知方差不齐,且不易变换达到齐性数据一端或两端不确定的资料1.参数检验:已知总体分布类型,对未知的总体参数做推断的假设检验方法。
故参数检验依赖于特定的分布类型,比较的是总体参数2.非参数检验:不依赖于总体分布类型、不针对总体参数的检验方法。
故非参数检验对总体的分布类型不做任何要求,不受总体参数的影响,比较的是分布或分布位置。
适用范围广,可适用于任何类型资料 参数检验➢ 优点:资料信息利用充分;检验效能较高 ➢ 缺点:对资料的要求高;适用范围有限 2.非参数检验➢ 优点:适用范围广,可适用于任何类型的资料 ➢ 缺点:检验效能低,易犯Ⅱ型错误 凡适合参数检验的资料,应首选参数检验对于符合参数检验条件者,采用非参数检验,其 检验效能低,易犯Ⅱ型错误研究人员通常需要了解和研究某一类个体,这个类就是总体。
总体是根据研究目的所确定的所有同质观察单位某种观察值(即变量值)的集合,通常有无限总体和有限总体之分,前者指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体是有限的,它是指特定时间、空间中有限个研究个体。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11/21/2014
1
计量资料的统计描述
统计图表
频数表 频数/频率图 集中趋势 离散趋势
统计指标
2
频数表
某市1995年104名7岁男童身高资料
119.6 121.5 126.1 124.0 125.3 113.6 123.1 116.7 111.2 116.7 123.3 121.9 125.0 126.4 124.6 123.6 127.6 122.7 132.4 124.3 129.9 120.3 125.1 125.9 125.6 118.7 123.6 120.5 126.6 129.3 124.2 128.5 125.7 117.0 123.2 118.9 119.1 126.4 113.6 127.8 121.7 124.7 126.5 115.4 126.6 130.4 121.9 115.5 130.2 125.9 115.0 121.7 122.8 124.7 122.0 124.9 118.0 119.2 128.3 110.5 120.4 121.3 120.1 120.1 127.6 125.8 117.0 114.0 118.2 124.8 122.1 124.1 118.2 123.0 125.1 126.1 114.6 123.4 124.7 115.2 127.0 119.9 122.5 122.8 120.1 120.9 123.9 126.6 122.4 119.4 135.3 121.7 127.7
19
偏态分布资料统计描述---百分位 数
百分位数(percentile):位置指标,用于描述观察 值序列中某百分位上的数值大小
第x百分位数Px:将所有数据从小到大排列后,处于第 x百分位置的数值。中位数 P50
1 ( X [ n ( x %)] X [ n( x%)]1 ) 2
Px
n( x%) [n( x%)]
27
24
其它常用统计描述指标
变异系数coefficiedt of variatlion
CV=标准差/均数×100%
描述了数据的变异相对其平均水平的大小 描述的是相对离散度 无单位量纲
比较度量衡单位不同资料的变异度 比较均数相差悬殊资料的变异度
25
其它常用统计描述指标
例:2000年某市100名18岁男性青年身高的均数为 173.25cm,标准差为4.38cm;该批男青年体重的均数 为65.32kg,标准差为3.92kg。试问身高和体重的变异 何者为大? 身高 CV=4.38/173.25×100%=2.53% 体重 CV=3.92/65.32×100%=6.00%
将一组观察值从小到大排列位置居中的数 适用于
任何分布的计量数据 不完全资料(开口资料):没有确切最大值或最小值的资 料 对于对称分布的资料,理论上中位数和算术均数的数值 大小相等 1 当n为偶数时 M ( X n X n ) 1 2 2 2
当n为奇数时 M X n1
11
频数分布图
连续变量
以直条的面积大小表示频数的多少 以直方面积在总面积中的比例表示频率大小
离散变量
以各直条的长短表示频数的多少
12
频数表/图的用途
揭示资料分布类型:频数图较频数表更 直观
对称分布 正偏态(左偏态)和负偏态(右偏态)---看峰的 位置 集中趋势与离散趋势
描述频数分布的重要特征:
便于发现特大与特小的可疑值 便于进一步计算统计指标和做统计处理
13
对称分布资料统计描述---集中趋 势
算术均数:简称均数
总体均数μ,样本均数 X 当数据对称分布时,位于分布的中心,是频数分布最 集中的位置
X 直接法: X n
加权法:
fX X f
i
G n X1 X 2 .... X n
G lg
1
f lg X ( ) f
23
其它常用统计描述指标
极差(range):最大值-最小值;数据分布 的范围;离散指标
优点:简单明了 缺点:
不能反映其它数据的变异 样本量较大时极差也较大;几个样本含量相差较大 时不宜比较 极差的抽样误差较大,不够稳定
上下四分位数之间的距离,包括了一半的数 据,越大表明离散程度越高, 描述了50%数据的分布宽度,反映分布的位 置特征 较稳定
21
偏态分布资料统计描述
百分位数
常用于确定医学正常值范围 一般以95%的频数分布范围作为正常值范围
P2.5 ~ P97.5(双侧) >P5,或<P95(单侧)
多个百分位数结合使用时,可较全面地概
括观察值的分布特征:描述偏态分布资料 的集中趋势和离散趋势M(P25 ~ P75)
22
其它常用统计描述指标
几何均数G:
适用于经对数转换后呈对称分布的数据,如医学上的 滴度资料 计算几何均数时,观察值中不能有0,也不能同时有 正数和负数。若全为负数,可先去除负号进行计算, 得出结果后再把负号加上去
i 1
n 1
2 x ( x ) i i /n i 1 i 1
n 1
15
方差和标准差
离均差平方和 :描述每个数据X 相对于 X 分布的集中程度;与样本含量n 有关,样本含量不同时不宜直接比较 方差:相当于平均每个数据的离均差的 平方;可用于不同样本含量数据离散度 的比较。 自由度(degree of freedom):当 X 选定时 n个X中能自由变动的X的个数
表 2.6 某地不同年龄组男子身高(cm)的变异程度 年龄组 人数 均数 标准差 变异系数 (%) 3~3.5 岁 100 99.7 3.1 3.11 30~35 岁 100 171.3 4.9 2.86
26
小 结
集中趋势指标:不同分布情况下,描述 指标的选择 离散趋势指标:各个指标的应用和特点 如何从集中趋势和离散趋势两个角度对 数据进行合理的描述
7
频数分布图
等距分组:横轴表示观察变量,纵轴表示每个横轴 组段的频数
30
20
Frequency
10
0 110 120 height 130 140
8
例:某市某年乙脑患者的年龄分布
年龄(岁) 0~ 1~ 2~ 3~ 4~ 5~ 6~ 7~ 患者人 数 3 3 9 11 23 22 11 14 每岁患者人 患者人 年龄(岁) 数 数 3 8~ 8 3 9~ 6 9 10~ 36 11 20~ 13 23 30~ 11 22 40~ 4 11 50~60 1 14 每岁患者人 数 8 6 3.6 1.3 1.1 0.4 0.1
117.3 120.6 119.5 116.1 116.0 117.3 118.8 128.0 125.7 113.8 124.9
3
频数表
频数表的制作
找出观察值中的最大值、最小值,求极差 (Range)R=135.3-110.5=24.8(cm) 确定组数:不宜过多或过少,一般8-13组 确定组距:
xi为组中值
14
对称分布资料统计描述---离散趋 势
方差variance :适用于对称分布的资料 n n n 2 总体方差 ( x x ) 2 x 2 ( x ) 2 / n
2
i 1 i
n
n 2
i 1
i
i 1
i
n
n 2 n
样本方差 S 2
s2
( xi x )
身高组段(cm) (1) 110.5~ 113.0~ 115.5~ 118.0~ 120.5~ 123.0~ 125.5~ 128.0~ 130.5~ 133.0~135.5 频数 (2) 2 9 9 17 16 23 19 7 1 1 频率(%) (3) 1.92 8.65 8.65 16.35 15.38 22.12 18.27 6.73 0.96 0.96
可等可不等; 一般等组距=极差/组数; 本例组距 R/10=2.48,组距=2.5cm
4
频数表
频数表的制作
确定各组上下限(每个组段的起点和终点):
第一组包含最小值 组段不能重叠 每一组段都为半开半闭区间 最后一组应为闭区间 离散型资料的组段通常为一个取值
5
表2.1 104名7岁男童身高频数分布
2
18
偏态分布资料统计描述---集中趋 势
中位数计算
离散型变量:直接法 连续型变量:借助频数分布表
以组中值代替公式中的X 计算公式
M LM
iM n ( fL ) fM 2
LM中位数所在组下限;iM中位数所在组的组距;fM中位数所 在组的频数; fL 中位数所在组前一组的累积频数 例2.4
9
频数分布图
不等距分组:横轴表示观察变量,纵轴表示每 个横轴单位的频数。
25
20
15
num
10
5
0 0 5 10 15 20 25 30 age 35 40 45 50 55 60
10
频数分布图
离散型资料的频数分布图
f 6000 y
4000
2000
0 0 1 2 3 4 5 children 6 7 8 9 10
i 1
16
2 ( x x ) i