数值变量资料的集中趋势和离散趋势 - 2013年北京大学医学部《医学统计学基础》

合集下载

定量资料统计描述——集中趋势与离散程度

定量资料统计描述——集中趋势与离散程度

度量单位不同资料之间离散度的比较; 均数相差悬殊的资料之间离散度的比较。
【例4-11】
某研究收集了100例7岁男孩的身高和体重的资料,身高均数为 123.10cm,标准差为4.71cm;体重均数为22.92kg,标准差为 2.26kg,比较这100例7岁男孩的身高和体重的变异度。
身高 CV
4.71 100 % 3.83 %
M X n1
当n为奇数时,
() 2
, 位置居中的观察值
当n为偶数时,
M
(X n ()
X n )/ ( 1)
2 ,计算出位次居中的两个观察值的均数
2
2
例:7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。
本例n=7,为奇数
M X 71 X 4 5(天 ) () 2
例:8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。
本例n=8,为偶数
M
1
2
X 8
() 2
X 8
( 1) 2
1 2
X
4
X5
1 3 5 4(小时)
2
(二) 中位数的应用
中位数可用于各种分布的资料,在正态分布资料中,中位数等于 均数,在对数正态分布资料中,中位数等于几何均数。
中位数不受极端值的影响,因此,实际工作中主要用于不对称分 布类型的资料、两端无确切值(>100)或分布不明确的资料。
患者编号:1 2 3 4 5 6 7 8 9 ... 117 118 119 120 住院天数:1 2 2 2 3 3 4 4 5 ... 40 40 42 45
n=120,120*5%=6,为整数:
P5

医学统计学(课件)集中趋势

医学统计学(课件)集中趋势

众数
众数是数据中出现次数最多的 数值。
在描述分类数据时,众数是非 常重要的指标,可以反映主要 群体的特征。
在描述连续数据时,众数可能 不是唯一的,此时可以使用众 数区间来描述数据的集中趋势 。
02
集中趋势的测量方法
算术平均数
算术平均数是最常用的集中趋势测量 方法,它是将一组数值相加后除以数 值的数量,得到平均值。
适用范围
众数适用于数据分布较为 离散的情况,但在数据分 布较均匀时,其代表性可 能较差。
计算简单
众数的计算方法相对简单 ,易于操作。
04
集中趋势在医学中的应用
诊断疾病
诊断疾病时,医生通常会收集患者的症状和体征数据,并利用集中趋势指标来分 析这些数据。例如,平均值可以帮助医生了解患者的平均病情状况,从而做出准 确的诊断。
映数据的中心位置。
03
集中趋势的优缺点
平均数的优缺点
总结性
平均数能够概括说明一组数 据的总体“平均水平”或“ 集中趋势”。
敏感性
平均数对数据中的异常值比 较敏感,容易受到极端值的 影响。
计算简单
平均数的计算方法简单易懂 ,易于操作。
适用范围
平均数适用于数据量较大且 分布较均匀的情况,但在数 据分布不均或存在异常值时 ,其代表性可能较差。
平均数适用于数据分布较为对称的情况,如果数据分布偏态,则使用中位数或众数 可能更合适。
中位数
中位数是一组数据按大小顺序排 列后,位于中间位置的数值。
如果数据量是奇数,中位数就是 中间那个数;如果数据量是偶数 ,中位数是中间两个数的平均值

中位数主要用于描述偏态分布的 数据,因为中位数不受极端值的 影响,更能反映数据的中心趋势

医学统计学——数值变量资料的统计描述

医学统计学——数值变量资料的统计描述

血糖 频数f 组中值X f X (4)
f X2 (5)
(1) (2) (3)
=(2)×(3) =(3)×(4)
3.60~ 3
3.7
3.80~ 3
3.9
4.00~ 8
4.1
4.20~ 23
4.3
4.40~ 24
4.5
4.60~ 25
4.7
4.80~ 20
4.9
5.00~ 12
5.1
5.20~ 10
5.3
0~
5
5
0.42
10~
12
17
1.41
20~
15
32
2.66
30~
76
108
8.98
40~
189
297
24.69
50~
234
531
44.14
60~
386
917
76.23
70~
286
1203
100.00
8
病例数
频数
人数
25
正态分布:中间高、
20
两边低、左右对称
15
10
5
0
0.50 0.70 0.90 1.10 1.30 1.50 1.70 1.90
﹡表示符号: 总体均数 (μ) 样本均数 (x )
﹡应 用: 对称分布资料,尤其是正态或近似正 态分布资料
﹡计算方法:
直接法 x=
1+ 2+……+ n n
=

n
加权法 x=
f 1x1 + f 2x2 + ……+f kxk f 1 +f 2+……+f k

集中趋势和离散趋势计量资料统计描述

集中趋势和离散趋势计量资料统计描述

有8份抗体血清的抗体效价分别为1: 5,1:10,1:20,1:40,1:80, 1:160,1:320,1:640, 求平均 抗体效价。
16
2.几何均数
意义:N个数值的乘积开N次方即为这N 个数
的几何均数。
表示:G = n x1x2...xn = ㏒-1∑ ㏒X
n
计算:
应用:原始数据分布不对称,经对数转换后 呈对称分布的资料。例如抗体滴度。
布 D.任何分布
3.正态分布曲线下,从均数u 到u +1.96的面积为; A.95% B.45% C. 97.5% D.47.5%
41
P22
1976年美国8岁男孩的平均身高为146厘米,标 准差为8厘米,问95%的人身高在什么范围内。 估计在该研究中有%多少的男孩平均身高在138 与154之间?又有多少在130到162之间?
即(156.41 cm , 171.27 cm )
例题:某市1982年100名7岁男童的身高
已知:x = 119.95cm, s = 4.72cm.
试问: (1) 估计该地7岁男童身高在110cm以下者 占该地7岁男童的百分比。
(2) 估计该地7岁男童身高在身高在130cm 以上者占该地7岁男童的百分比。
5
主要内容
频数表 集中趋势 离散趋势 正态分布 正常值范围估计
原始资料(变量与变量值,资料性质)
7
一. 频 数 表
频数:当汇总大量的原始数据时,把 数据按类型分组,其中每个组的数据个 数,称为该组的频数。
频数表(频数分布):表示各组及它们 对应的组频数的表格称为频数表或频数 分布。
1998年100名18岁健康女大学生身高的频数分布
估计的方法: 1、正态分布法 2、百分位数法

卫生统计学课件---集中趋势与离散程度指标

卫生统计学课件---集中趋势与离散程度指标

(2)频数表法:
in M=L+ ( -∑fL)
fM 2 式中,L为中位数所在组段的下限,i为中位数所在
组段的组距, fM为中位数所在组段的频数, n为总频数, ∑fL为小于L的各组段的累计频数。 中位数所在的组为:累计频数第一个大于是n/2;或累 计频率第一个大于50%的组
例 某医院测定101名40~60岁健康人的血清谷丙 转氨酶含量,结果如表所示,试求中位数。
反对数:G=lg-1(∑lgX/n)
例 8个人的血清抗体滴度为1:8 1:16 1:16 1:32 1:64 1:64 1:64 1:128,求平均抗体滴度。
资料8 16 32 64 128之间呈等比关系 先倒数 8 16 16 32 64 64 64 128 取对数:lg8 lg16 lg16 lg32 lg64 lg64 lg64 lg128
组段
频数f
组中值Х

3.0~
2
3.25
6.50
3.5~
6
3.75
22.50
4.0~
11
4.25
46.75
4.5~
16
4.75
76.00
5.0~
28
5.25
147.00
5.5~
19
5.75
109.25
6.0~
8
6.25
50.00
6.5~
5
6.75
33.75
7.0~
4
7.25
29.00
7.5~8.0
1
35 30 25 20 15 10
5 0
12 20 28 36 44 52 60 68 76 84
128
12

数值变量资料的集中趋势和离散趋势PPT课件

数值变量资料的集中趋势和离散趋势PPT课件

-
14
操作步骤:
用Excel计算
2.选择相应描述性指标,无几何均数,变异系数
点击“Continue”
均数
四分位数 间距
标准差 方差 极差
最小值
中位数
最大值
-
15
统计结果
-
16
注:除了用“Frequencies”外,还可以使用 “Descriptives”进行统计描述
描述
-
17
Q= P75-P25(上四分位数-下四分位数)
注:主要用于偏态分布资料离散程度的描述。
正态分布:集中趋势,平均数;离散趋势,方差 偏态分布:集中趋势,中位数;离散趋势,四分位数间距
-
12
三、用SPSS软件实现统计描述
操作步骤:
描述性统计
1.选择“Frequencies”
频数
-
13
操作步骤:
2.将变量选入变量框, 点击“Statistics”
20.0
30.0
40.0
50.0
60.0
-
3
二、统计描述
统计描述包括两个方面:集中趋势的描述 和离散趋势的描述
-
4
(一)集中趋势指标描述
1.算术均数(均数 mean) 适用于正态分布或者近似正态分布 总体均数:;样本均数:
总体指标:希腊字母,统计量 样本指标:英文字母,参数
-
5
2.几何均数(geometric mean)
数值变量资料的集中趋势和离散趋势
何平平 北京大学医学部流行病与卫生统计学系
Tel:82801619
-
1
一、分布类型
正态分布:集中位置居中,左右两侧频数 基本对称的分布。常见近似正态分布。

《医学统计学》习题及答案.

《医学统计学》习题及答案.

一、最佳选择题1.卫生统计工作的步骤为 cA.统计研究调查、搜集资料、整理资料、分析资料B.统计资料收集、整理资料、统计描述、统计推断C.统计研究设计、搜集资料、整理资料、分析资料D.统计研究调查、统计描述、统计推断、统计图表E.统计研究设计、统计描述、统计推断、统计图表2.统计分析的主要内容有A.统计描述和统计学检验B.区间估计与假设检验C.统计图表和统计报告D.统计描述和统计推断E.统计描述和统计图表3.统计资料的类型包括A.频数分布资料和等级分类资料B.多项分类资料和二项分类资料C.正态分布资料和频数分布资料D.数值变量资料和等级资料E.数值变量资料和分类变量资料4.抽样误差是指A.不同样本指标之间的差别B.样本指标与总体指标之间由于抽样产生的差别C.样本中每个体之间的差别D.由于抽样产生的观测值之间的差别E.测量误差与过失误差的总称5.统计学中所说的总体是指A.任意想象的研究对象的全体B.根据研究目的确定的研究对象的全体C.根据地区划分的研究对象的全体D.根据时间划分的研究对象的全体E.根据人群划分的研究对象的全体6.描述一组偏态分布资料的变异度,宜用A.全距B.标准差C.变异系数D.四分位数间距E.方差7.用均数与标准差可全面描述其资料分布特点的是A.正偏态分布B.负偏态分布C.正态分布和近似正态分布D.对称分布E.任何分布8.比较身高和体重两组数据变异度大小宜采用A.变异系数B.方差C.极差D.标准差E.四分位数间距9.频数分布的两个重要特征是A.统计量与参数B.样本均数与总体均数C.集中趋势与离散趋势D.样本标准差与总体标准差E.样本与总体10.正态分布的特点有A.算术均数=几何均数B.算术均数=中位数C.几何均数=中位数D.算术均数=几何均数=中位数E.以上都没有11.正态分布曲线下右侧5%对应的分位点为A.μ+1.96σB.μ-1.96σC.μ+2.58σD.μ+1.64σE.μ-2.58σ12.下列哪个变量为标准正态变量 A.s x μ- B.σμ-x C. x s x μ- D.x x σμ- E. s x μ- 13.某种人群(如成年男子)的某个生理指标(如收缩压)或生化指标(如血糖水平)的正常值范围一般指A.该指标在所有人中的波动范围B.该指标在所有正常人中的波动范围C.该指标在绝大部分正常人中的波动范围D.该指标在少部分正常人中的波动范围E.该指标在一个人不同时间的波动范围14.下列哪一变量服从t 分布 A. σμ-x B. σμ-x C. x x σμ- D. x s x x - E. xs x μ- 15.统计推断的主要内容为A.统计描述与统计图表B.参数估计和假设检验C.区间估计和点估计D.统计预测与统计控制E.参数估计与统计预测16.可信区间估计的可信度是指A.αB.1-αC.βD.1-βE.估计误差的自由度17.下面哪一指标较小时可说明用样本均数估计总体均数的可靠性大A.变异系数B.标准差C.标准误D.极差E.四分位数间距18.两样本比较作t 检验,差别有显著性时,P 值越小说明A.两样本均数差别越大B.两总体均数差别越大C.越有理由认为两总体均数不同D.越有理由认为两样本均数不同E. I 型错误越大19.两样本比较时,分别取以下检验水准,哪一个的第二类错误最小A.α=0.05B.α=0.01C.α=0.10D.α=0.20E.α=0.0220.当样本含量n 固定时,选择下列哪个检验水准得到的检验效能最高A.α=0.01B.α=0.10C.α=0.05D.α=0.20E.α=0.0221.在假设检验中,P 值和α的关系为A. P 值越大,α值就越大B. P 值越大,α值就越小C. P 值和α值均可由研究者事先设定D. P 值和α值都不可以由研究者事先设定E. P 值的大小与α值的大小无关22.假设检验中的第二类错误是指A.拒绝了实际上成立的0HB.不拒绝实际上成立的0HC.拒绝了实际上成立的1HD.不拒绝实际上不成立的0HE.拒绝0H 时所犯的错误23.方差分析中,组内变异反映的是A. 测量误差B. 个体差异C. 随机误差,包括个体差异及测量误差D. 抽样误差E. 系统误差24.方差分析中,组间变异主要反映A. 随机误差B. 处理因素的作用C. 抽样误差D. 测量误差E. 个体差异25.多组均数的两两比较中,若不用q 检验而用t 检验,则A. 结果更合理B. 结果会一样C. 会把一些无差别的总体判断有差别的概率加大D. 会把一些有差别的总体判断无差别的概率加大E. 以上都不对26.说明某现象发生强度的指标为A.构成比B.相对比C.定基比D.环比E. 率27.对计数资料进行统计描述的主要指标是A.平均数B.相对数C.标准差D.变异系数E.中位数28.构成比用来反映A.某现象发生的强度B.表示两个同类指标的比C.反映某事物内部各部分占全部的比重D.表示某一现象在时间顺序的排列E.上述A 与C 都对29. 样本含量分别为1n 和2n 的两样本率分别为1p 和2p ,则其合并平均率c p 为A. 1p +2pB. (1p +2p )/2C. 21p p ⨯D.212211n n p n p n ++ E.2)1()1(212211-+-+-n n p n p n 30.下列哪一指标为相对比A. 中位数B. 几何均数C. 均数D. 标准差E. 变异系数31.发展速度和增长速度的关系为A. 发展速度=增长速度一1B. 增长速度=发展速度一1C.发展速度=增长速度一100D.增长速度=发展速度一100E.增长速度=(发展速度一1)/10032.SMR 表示A.标化组实际死亡数与预期死亡数之比B.标化组预期死亡数与实际死亡数之比C.被标化组实际死亡数与预期死亡数之比D.被标化组预期死亡数与实际死亡数之比E.标准组与被标化组预期死亡数之比33.两个样本率差别的假设检验,其目的是A.推断两个样本率有无差别B.推断两个总体率有无差别C.推断两个样本率和两个总体率有无差别D.推断两个样本率和两个总体率的差别有无统计意义E.推断两个总体分布是否相同34.用正态近似法进行总体率的区间估计时,应满足A. n 足够大B. p 或(1-p )不太小C. np 或n(1-p)均大于5D. 以上均要求E. 以上均不要求35.由两样本率的差别推断两总体率的差别,若P 〈0.05,则A. 两样本率相差很大B. 两总体率相差很大C. 两样本率和两总体率差别有统计意义D. 两总体率相差有统计意义E. 其中一个样本率和总体率的差别有统计意义36.假设对两个率差别的显著性检验同时用u 检验和2χ检验,则所得到的统计量u 与2χ的关系为A. u 值较2χ值准确B. 2χ值较u 值准确C. u=2χD. u=2χE. 2χ=u37.四格表资料中的实际数与理论数分别用A 与T 表示,其基本公式与专用公式求2χ的条件为A. A ≥5B. T ≥5C. A ≥5 且 T ≥5D. A ≥5 且n ≥40E. T ≥5 且n ≥4038.三个样本率比较得到2χ>2)2(01.0χ,可以为A.三个总体率不同或不全相同B.三个总体率都不相同C.三个样本率都不相同D.三个样本率不同或不全相同E.三个总体率中有两个不同39.四格表2χ检验的校正公式应用条件为A. n>40 且T>5B. n<40 且T>5C. n>40 且 1<T<5D. n<40 且1<T<5E. n>40 且T<140.下述哪项不是非参数统计的优点A.不受总体分布的限定B.简便、易掌握C.适用于等级资料D.检验效能高于参数检验E.适用于未知分布型资料41.秩和检验和t 检验相比,其优点是A. 计算简便,不受分布限制B.公式更为合理C.检验效能高D.抽样误差小E.第二类错误概率小42.等级资料比较宜用A. t 检验B. u 检验C.秩和检验D. 2χ检验E. F 检验43.作两均数比较,已知1n 、2n 均小于30,总体方差不齐且分布呈极度偏态,宜用A. t 检验B. u 检验C.秩和检验D. F 检验E.2χ检验44.从文献中得到同类研究的两个率比较的四格表资料,其2χ检验结果为:甲文)1(01.02χχ>,乙文2)1(05.02χχ>,可认为A.两文结果有矛盾B.两文结果基本一致C.甲文结果更可信D.乙文结果更可信E.甲文说明总体间的差别更大45.欲比较某地区1980年以来三种疾病的发病率在各年度的发展速度,宜绘制A.普通线图B.直方图C.统计地图D.半对数线图E.圆形图46.拟以图示某市1990~1994年三种传染病发病率随时间的变化,宜采用A.普通线图B.直方图C.统计地图D.半对数线图E.圆形图47.调查某地高血压患者情况,以舒张压≥90mmHg 为高血压,结果在1000人中有10名高血压患者,99名非高血压患者,整理后的资料是:A.计量资料B.计数资料C.多项分类资料D.等级资料E.既是计量资料又是分类资料48. 某医师检测了60例链球菌咽炎患者的潜伏期,结果如下。

数值变量资料的统计描述(医本)课件

数值变量资料的统计描述(医本)课件

(2)频数表法:
利用百分位数(percentile)计算公式进行计算. 百分位数(PX)是一种位置指标, 中位数是一个 特定的百分位数,即M= P50 。
百分位数计算公式:
Px
Lx
ix fx
(n x% fL )
例根据下表计算中位数 M 及 P25、P75、P2.5、P97.5 199 名食物中毒患者潜伏期
15.34
(小时)
例 2.7 根据下表计算中位数 M 及 P25、P75、P2.。5、P97。5 199 名食物中毒患者潜伏期
潜伏期(小时) 人数 f 累计频数 累计频率%
P75
0~
30
30
15.1
12~
71
101
50.8
24~
49
150
75.4
36~
28
178
89.4
48~
14
192
96. 5
60~ 72~84 合计
3.50 4.23 3.90 3.88 4.24 4.53 4.88 2.48 3.40 3.26 3.21 3.60 2.73 4.15 4.60 4.35 4.96 5.61 5.87 5.01 4.33 5.74 4.87 3.96 3.00 3.93 3.15 5.00 3.44 3.50 2.85 4.87 4.60 3.40 4.79 3.02 6.23 4.98 2.89 5.82 6.30 5.20 5.40 3.00 2.80 4.43 4.50 5.52 6.40 4.86 5.90 4.70 3.47 4.66 4.78 5.70 2.26 4.10 3.70 5.40 3.70 4.37 4.20 6.10 4.80 5.10 5.55 2.97 5.11 3.26 3.04 6.01 5.07 4.22 5.39 5.34 4.47 3.58 5.26 4.54 4.07 3.83 3.97 6.05 4.02 2.69 2.52 5.21 6.55 4.28 4.45 5.15 4.45 5.37 3.80 3.73
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
差比较 例子,体重和身高相比较,单位不一样,标准差的大小也变了, 所以单位不一样,没有可比性,比如身高单位是米,厘米。毫米 。比较结果是不一样的 例子二,婴儿和成人的体重的比较,用标准差的话,本来二者均 数就不在一个水平线上,即均数不一样,就算单位相同也没有可 比性,用变异系数的话,除以了均数,抵消了它的区别。
公式应该背下来
3.方差(variance):是标准差的平方,表示一组变量
值的平均离散程度。方差越大,离散程度越大。
方差是最常用的指标
4.变异系数(coefficient of variation, CV )
CV S 100% X
CV: 单位不同,均数相差悬殊
S : 单位相同,均数相近才能用标准
20.0
30.0
40.0
50.0
60.0
二、统计描述
统计描述包括两个方面:集中趋势的描述 和离散趋势的描述
跟总体有关的叫参数,希腊字母表示。 跟样本有关的叫统计量,用英文字母表示 集中趋势指标:均数,几何均数,中位数 离散趋势指标:
(一)集中趋势指标描述
1.算术均数(均数 mean) 适用于正态分布或者近似正态分布 总体均数:;样本均数:
2.几何均数(geometric mean)
常适用于一种特殊的偏态分布资料:等比资料(如 10,20,40,80.)或对数正态分布资料(常见于抗 体滴度)(原始数据是偏态,原始数据取了对数之 后,对数值成为正态分布)。
3.中位数(median,M)
主要适用于偏态分布资料。中位数是指将一组变 量值从小到大排列,位次居中的变量值。 描述偏态的是中位数和几何均数 注意事项
对于偏态分布资料,中位数不受两端特大值和特小 值的影响,只和位置居中的观察值有关。而均数受 特大值和特小值的影响,会偏大或者偏小,所以对 于偏态分布的资料,均数的代表性差,不适合描述 偏态分布的集中趋势。
(二)离散趋势指标描述
1.极差或者全距(range,R):表示一组变量值中 最大值和最小值之差。
5.四分位数间距(quartile interval,Q):P75、 P25分别表示第75百分位数和第25百分位数。
P75为上四分位数,%75的数比他小,%25的数比他大
分数据是
Q= P -P 75
25(反应的是中间%50数据的变异程度,中间这部
稳定的,所以适合描述偏态分布资料)
注:主要用于偏态分布资料离散程度的描述。最 适合的就是四分位数间距
三、用SPSS软件实现统计描述
操作步骤:
描述性统计
1.选择“Frequencies”频数Fra bibliotek操作步骤:
2.将变量选入变量框, 点击“Statistics”如果没
告诉你是什么分布要先确认是什么 分布,在选择参数
操作步骤:
2.选择相应描述性指标,
点击“Continue”
均数
四分位数 间距
标准差 方差 极差
最小值
中位数
最大值
统计结果
Spss或者SAS都没有几何均数,因为他们认为中位 数就可以代替了。Excel中是有几何均数的,可以 在里面算
注:除了用“Frequencies”外,还可以使用 “Descriptives”进行统计描述
这个是假设数据符合正态分布
描述
数值变量资料的集中趋势和离散趋势
何平平 北京大学医学部流行病与卫生统计学系
Tel:82801619
一、分布类型
正态分布:集中位置居中,左右两侧频数 基本对称的分布。常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称的 分布。
特点:有极端的数据。
120
100
80
60
40
20
0 0.0
10.0
R=最大值-最小值
计算简单,但是不能反映所有变量值的变异程度。
2.标准差(standard deviation):和均数的单位一 致,表示一组变量值的平均离散程度。适合描述近 似正态分布资料的离散趋势。 (标准差,均数,原始数据三者单位一致)
样本标准差等于离均差平方和除以样本量n-1再开方 样本标准差表示样本的平均变异程度,这个公式有比较好的统计性质
相关文档
最新文档