医学统计学--第二章 计量资料的统计描述

合集下载

医学统计学描述

医学统计学描述
将一组数据按从小到大的顺序排列为: x1(最小值), x2, …, xn(最大值)
分位数X*是介于x1(最小值)与xn(最大值)之间的 一个数值,它使得n个数据中的一部分观察值小于 或等于它,另一部分观察值大于或等于它。
x1
X*
xn
精选课件
13
如果将顺序排列的一组数据分为q个相等频数 的区间(即每个区间中有相同的数据个数),这 时共有q-1个分位点,则称这些分位点为q分位数。
精选课件
3
步骤:
求全距 R=max-min= 278.8-97.5=181.3
定组数 K 通常取8~15组为宜。本例取K=10.
求组距 I=R/K (注意取整)。 本例I=181.3/10=18.13≈20
制表
确定各组段的下限、统计各组段内的频 数、算出各组段的频率、累计频数、累计 频率,将所得数据填入表中。
1)全距: R=MAX-MIN 2)四分位数间距 :上下四分位数之差
Q=Q3-Q1
称为四分位数间距。
精选课件
22
3).方差
n 2
S2
1 n n1i1
(xi
X)2
n11in1
xi2
xi i1
n
4).标准差
S
1n n1i1 (xi
X)2
1
n
n1i1
xi2
n
xi
i1
n
2
5).变异系数
n
定义式: Gn xi i1
对 数 式 : Glg11ni n1lgxi
加 权 对 数 式 : Glg11 n flgx
精选课件
10
例2 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16, 1:32,1:32,1:64, 1:64,1:128,1:512。试计算其几 何均数。

医学统计学-第二章 统计描述

医学统计学-第二章 统计描述
变异系数(Coefficient of variation,CV)
1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。

医学统计学课件PPT

医学统计学课件PPT
(variable)、变量值(value of variable)
(1)、 研究单位(unit) :研究中的个体 (individual),是根据研究目的确定的。
二、统计学中的几个基本概念
例如:研究7岁男孩身高的正常值范围 研究大学生视力 研究水污染情况 研究细胞变性 研究肝癌的地区分布
一个人 一只眼睛 一毫升水 一个细胞 一个地区
二、统计学中的几个基本概念
• 实验者
投掷次数
• Hu Pingcheng 1
• Hu Pingcheng 2
• Hu Pingcheng 3
• Hu Pingcheng 4
• Hu Pingcheng 5
• Hu Pingcheng 6
• Hu Pingcheng 7
• Buffon
4040
• K.Pearson
• 同质:同长沙市、同7岁、同男孩、同无 影响身高的疾病。
二、统计学中的几个基本概念
• (2)、变异 (variation)
• 变异 (variation):同质研究单位中变 量值间的差异。
• 例如:1)长沙市2004年7岁男孩身高有 高有矮

2)相同的药方治疗相同的疾病的
病人,疗效有好有坏
二、统计学中的几个基本概念
• 特点:1)不可避免性

2)有统计规律性
二、统计学中的几个基本概念
• 产生原因: • 个体差异(生物变异)
二、统计学中的几个基本概念
• 6、频率(relative frequency)、概率 (probability)、小概率事件
.(1)、频率(relative freguency): 一次随机试 验有几种可能结果,在重复进行试验时,个别 结果看来是偶然发生的,但当重复试验次数相 当多时,将显现某种规律性。例如,投掷一枚 硬币,结果不外乎出现“正面”与“反面”两 种,现在,我们看一掷币模拟试验:

医学统计学第1-2章(2015)

医学统计学第1-2章(2015)
36
3. 方差(variance , 2 , S2)和标准差 (standard deviation , S)
2 X 2
N
S2
2
XX
n1
总体方差
样 本 方 差
37
4.标准差:
X 2
N
总 体 标 准 差
标准差或方差越大,说明个体差异越大,则均数的 代表性越差。
•应用: 对称分布,尤其是正态分布
7
101-
10
104-
18
107-
25
110-
21
113-
15
116-
15
119-
7
122-125
1
合计
120
19
115名正常成年女子的血清转氨酶 (mmol/L)含量分布
血清转氨酶含量
人数
12-
2
15-
9
18-
14
21-
23
24-
19
27-
14
30-
11
33-
9
36-
7
39-
4
42-45
3
20
第二节 集中趋势的描述——平均数
66.67
7
25
32
21.88
62
40
102
60.78
6
分组 血栓组 正常组 合计
表 3. 9 正常妇女和血栓形成者的血型分布
A型
B型
AB 型 O 型
合计
32
8
10
9
59
51
19
12
70
152
83
27
22

《医学统计学》计算题答案

《医学统计学》计算题答案

《医学统计学》计算分析题参考答案孙振球主编. 医学统计学.第3版. 北京:人民卫生出版社,2010第二章计量资料的统计描述计算分析题(P26)1. 根据某单位的体检资料,116名正常成年女子的血清甘油三酯测量结果如下,请据此资料:(1)描述集中趋势应选择何指标?并计算之。

(2)描述离散趋势应选择何指标?并计算之。

(3)求该地正常成年女子血清甘油三酯的95%参考值范围。

(4)试估计该地正常成年女子血清甘油三脂在0.8mmol/L以下者及1.5mmol/L者各占正常成年女子总人数的百分比?表2-1某单位116名正常成年女子的血清甘油三酯(mmol/L)测量结果组段频数0.6~ 10.7~ 30.8~ 90.9~ 131.0~ 191.1~ 251.2~ 181.3~ 131.4~ 91.5~ 51.6~1.7 1合计116(1)数据文件数值变量名:组段,频数;用Compute产生新变量“组中值”(也可直接输入组中值)。

(2)操作步骤Analyze èData èWeight Cases ;Weight Cases by 频数。

Analyze èDescriptives èDescriptives ;将“组中值”选入V ariable 框中;单击OK 。

(3)结果解释表2-1显示某单位116名正常成年女子的血清甘油三酯测量结果呈正态分布,故选择均数描述集中趋势,选择标准差描述离散趋势。

某单位116名正常成年女子的血清甘油三酯测量结果的均数为1.16(mmol/L ),标准差为0.20(mmol/L );该地正常成年女子血清甘油三酯的95%参考值范围是(0.77,1.55)mmol/L 。

计算过程根据公式s x 96.1±,即1.16±1.96×0.20。

该单位正常成年女子血清甘油三酯在0.8 mmol/L 以下者估计占总人数的3.59%,1.5 mmol/L 以下者估计占总人数的95.54%。

《医学统计学》第1-2章

《医学统计学》第1-2章
21
常用平均数的意义及其应用场合
平均数
意义
应用场合
均数 平均数量水平
几何均数 平均增减倍数
中位数 位次居中的观 察值水平
应用甚广,最适用于对称分布, 特别是正态分布
①等比资料;②对数正态分布 资料
①偏态资料;②分布不明资料; ③分布一端或两端出现不确定 值
22
1. 均数 (mean):
, X
应用:正态分布或近似正态分布的定量资料。
女 B 14.67 37.8
疗效
显效 有效 有效 无效
男B
16.80
37.6 无效
标识变量
用于数据管理
分析变量-表示试验效应或观察结果大小的
分组变量
变量或指标
反应变量
5
处理 复方哌唑嗪 复方降压片 安慰剂
合计
表 3.8 三种药物治疗高血压的疗效
有效
无效
合计
有效率(%)
35
5
40
87.50
20
10
30
15
定量资料的频数表和频数图(直方图)
表2.2 某市120名5岁女孩 身高频数表
组段(cm)
频数(f)
95-
1
98-
7
101-
10
104-
18
107-
25
110-
21
113-
15
116-
15
119-
7
122-125
1
合计
120
图2.1 某市城区120名5岁女孩身高频数分布
16
1、 频数分布的特征
如何选用正确的统计指标描述一个定量 资料?
14
第一节 频数分布

医学统计学计量资料的统计描述

医学统计学计量资料的统计描述
100等分,与第X百分位数相应的观察值称为第X 百分位数,理论上有X%的观察值比它小,有 (100-X)%的观察值比它大 • 公式为:
百分位数(percentile)
• 百分位数(percentile)
X%
PX
(100-X)%
• 中位数是第50百分位数,用P50表示。 • 第25,第75,第95百分位数记为P25, P75, P95是统计学上常用
• 在医学研究中有一类比较特殊的资料,如抗体滴 度、血清凝集效价和某些物质浓度,其数据特点 是观察值间呈倍数关系变化。
• 应用几何均数时要注意观察值中不能有0或负数, 否侧在做对数变换之前需要加一常数。
• 同一组观察值的几何均数一般小于它的算术均数。
中位数(median)
• 将一组观察值按从小到大顺序排列,为此 居中的数值即为中位数,用M来表示
• 意义:平均偏差越大,变异越大 • 特点:很直观,但用了绝对值,在应用中受到限

方差(variance)
• 定义:离均差平方和的均数
• 计算公式:总体方差用2表示,
样本方差用S2表示,公式
s甲2
(168 162)2 (142 162)2 (188 162)2 4 1
(150 162)2
318.667
14506
例 计算120名7岁男孩 身高的均数
算术均数的应用
• 算术均数适用于对称分布的资料 • 算术均数用到了每个原始观察值,所以敏
感度好 • 在偏态较大的情况下,算出的均值易受频
数分布两端极大或极小值的影响,不能较 好地反映分布的集中位置和平均水平
几何均数(Geometric mean)
• 可用于描述一组资料数据经对数转换后呈 现为对数分布或正态分布的变量值的平均 水平;

(完整版)医学统计学复习要点

(完整版)医学统计学复习要点

(完整版)医学统计学复习要点第⼀章绪论1、数据/资料的分类:①、计量资料,⼜称定量资料或者数值变量;为观测每个观察单位某项治疗的⼤⼩⽽获得的资料。

②、计数资料,⼜称定性资料或者⽆序分类变量;为将观察单位按照某种属性或者类别分组计数,分组汇总各组观察单位数后⽽得到的资料。

③、等级资料,⼜称半定量资料或者有序分类变量。

为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后⽽得到的资料。

2、统计学常⽤基本概念:①、统计学(statistics)是关于数据的科学与艺术,包括设计、搜集、整理、分析和表达等步骤,从数据中提炼新的有科学价值的信息。

②、总体(population)指的是根据研究⽬的⽽确定的同质观察单位的全体。

③、医学统计学(medical statistics):⽤统计学的原理和⽅法处理医学资料中的同质性和变异性的科学和艺术,通过⼀定数量的观察、对⽐、分析,揭⽰那些困惑费解的医学问题背后的规律性。

④、样本(sample):指的是从总体中随机抽取的部分观察单位。

⑤、变量(variable):对观察单位某项特征进⾏测量或者观察,这种特征称为变量。

⑥、频率(frequency):指的是样本的实际发⽣率。

⑦、概率(probability):指的是随机事件发⽣的可能性⼤⼩。

⽤⼤写的P表⽰。

3、统计⼯作的基本步骤:①、统计设计:包括对资料的收集、整理和分析全过程的设想与安排;②、收集资料:采取措施取得准确可靠的原始数据;③、整理资料:将原始数据净化、系统化和条理化;④、分析资料:包括统计描述和统计推断两个⽅⾯。

第⼆章计量资料的统计描述1. 频数表的编制⽅法,频数分布的类型及频数表的⽤途①、求极差(range):也称全距,即最⼤值和最⼩值之差,记作R;②、确定组段数和组距,组段数通常取10-15组;③、根据组距写出组段,每个组段的下限为L,上限为U,变量X值得归组统⼀定为L≤X<U,最后⼀组包括下限。

《医学统计学》第二章定量数据的统计描述

《医学统计学》第二章定量数据的统计描述
630
累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630

累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)

《医学统计学》习题解答(最佳选择题和简答题)

《医学统计学》习题解答(最佳选择题和简答题)

《医学统计学》习题解答(最佳选择题和简答题)孙振球主编.医学统计学习题解答. 第2版. 北京:人民卫生出版社2005目录第二章计量资料的统计描述 (2)第三章总体均数的估计与假设检验 (3)第四章多个样本均数比较的方差分析 (6)第五章计数资料的统计描述 (7)第六章二项分布与Poisson分布 (9)第七章χ2检验 (11)第八章秩和检验 (13)第九章回归与相关 (14)第十章统计表与统计图 (17)第十一章多因素试验资料的方差分析 (19)第十二章重复测量设计资料的方差分析 (19)第十五章多元线性回归分析 (20)第十六章logistic回归分析 (22)第十七章生存分析 (23)第二十五章医学科学研究设计概述 (26)第二十六章观察性研究设计 (26)第二十七章实验研究设计 (28)第二十七章临床试验研究设计 (29)第二章 计量资料的统计描述(注:题号上有“方框” 的简答题为基本概念,下同)第三章总体均数的估计与假设检验简答题:第四章多个样本均数比较的方差分析简答题:第五章计数资料的统计描述简答题:第六章二项分布与Poisson分布简答题:第七章χ2检验简答题:1. 说明χ2检验的用途2. 两个样本率比较的u检验与χ2检验有何异同?3. 对于四格表资料,如何正确选用检验方法?4. 说明行×列表资料χ2检验应注意的事项?5. 说明R×C表的分类及其检验方法的选择。

第八章秩和检验简答题:5. 两独立样本比较的Wilcoxon秩和检验,当n1>10或n2-n1>10时用u检验,这时检验是属于参数检验还是非参数检验,为什么?6. 随机区组设计多个样本比较的Friedman M 检验,备择假设H1如何写?为什么?第九章回归与相关简答题:第十章统计表与统计图简答题:5. 统计表与统计图有何联系和区别?6. 茎叶图与频数分布图相比有何区别,有何优点?第十一章多因素试验资料的方差分析一、简答题1. 简述析因试验与正交试验的联系与区别。

医学统计学--第二章 计量资料的统计描述

医学统计学--第二章  计量资料的统计描述

4.13 4.28 4.91 3.95 4.23 3.75 4.57 3.51
2.78 3.26 3.18 5.08 3.57 3.98 3.80 3.86
4.26 3.50 3.68 4.53 4.83 4.13 3.93 3.02
3.58 2.70 4.83 3.92 3.52 4.26 3.78 3.70
1
lg X ) lg (
n
1
ቤተ መጻሕፍቲ ባይዱ
lg10 lg 20 lg 40 lg 40 lg160 ( ) 34.8 5
(2)加权法 公式:
G lg (
1
f lg X f
)
例2-5 69例类风湿关节炎(RA)患者血清EBV-VCAlgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均 抗体滴度。
三、频数表和频数分布图用途
1.描述频数分布的 类型 (1)对称分布 :若 各组段的频数以频数 最多组段为中心左右 两侧大体对称,就认 为该资料是对称分布
25
20 15
Æ µ Ê ý
10 5
0
2.45
3.05
3.65
4.25
4.85
5.45
6.10
Ñ Ç × µ ¹ ´ £ mmol/L£ ª å Ü ¨Ì ¼ ¨ ©
G 公式: X 1 X 2 X n
n

G lg
1
lg X ) (
n
例2-4 某地5例微丝蚴血症患者治疗七年后用间接 荧光抗体试验测得其抗体滴度倒数分别为,10, 20,40,40,160,求几何均数。
G 10 20 40 40 160 34.8
5
G lg

医学统计学:计量资料的统计描述

医学统计学:计量资料的统计描述

方差、标准差计算方法和意义
方差
指各数据与均数之差的平方和的平均 数,用于反映数据的术平方根,用于衡量数据偏 离均数的程度。标准差越大,数据分 布越离散。
变异系数在医学研究中应用
变异系数
指标准差与均数之比,用于比较不同单位或不同均数水平下数据的离散程度。在医学研究中,常用于评价不同指 标或不同人群间的变异程度。
分类
根据测量水平不同,可分为离散型计量资料和连续型计量资料。离散型计量资 料只能取整数值,如人口数、医院床位数等;连续型计量资料可以取实数范围 内的任何值,如身高、体重等。
计量资料特点分析
01
数值性
计量资料以数值形式表示,具有明 确的数量特征。
可比性
同类计量资料之间可以进行比较, 如不同人群的身高、体重等。
众数
一组观察值中出现次数最多的数。
应用场景
常用于描述无明显集中趋势或分布规 律资料的集中趋势,如一些分类数据 的统计描述。
04 离散程度指标解读
极差、四分位数间距计算及意义
极差
指一组数据中最大值与最小值之差, 用于反映数据的波动范围。计算简单, 但易受极端值影响。
四分位数间距
指第三四分位数与第一四分位数之差, 用于反映中间50%数据的离散程度。 较极差更稳定,不易受极端值影响。
常用统计描述方法介绍
频数分布表与直方图
通过分组和计数的方式展示数 据的分布情况,适用于连续型
变量。
集中趋势描述
包括算术均数、几何均数和中 位数等,用于描述数据的平均 水平或中心位置。
离散程度描述
包括标准差、方差和四分位数 间距等,用于描述数据的波动 范围或离散程度。
偏态与峰态描述
通过偏态系数和峰态系数等描 述数据的偏态和峰态特征,反

医学统计学统计描述

医学统计学统计描述
优点:计算简便,概念清晰,如说明传染病、食物中毒的 最长、最短潜伏期等
缺点:仅考虑两端数据的差异,未考虑其它数据的变异情 况,不能全面反映一组资料的离散程度,受样本含量n的 影响较大,且不稳定,易受极端值的影响。
四分位数间距(inter-quartile range)
▪ 定义:把全部变量值值分为四等分的分位数,其
分位数。它是一个位置指标。 Px ▪ 中位数是第50百分位数,用P50表示。 ▪ 第25,第75,第95百分位数记为P25, P75, P95
是统计学上常用的指标。
百分位数(percentile)
▪ 百分位数(percentile)
X%
PX
(100-X)%
▪ 50%分位数就是中位数 ▪ 25%,75%分位数称四分位数(quartile)
方差(variance)
▪ 定义:离均差平方和的均数 ▪ 表示法:总体方差用2表示;样本方差用
S2表示
▪ 计算公式:
▪ 意义: 方差值越大,说明变异程度越大。
▪ 特点:包括了每个变量值与均值的差异,
但该指标的单位为平方。
标准差(standard deviation, sd) :
▪ 定义:方差开平方,取平方根的正值,每
▪ 例 对于某项风险较高的新手术术后的生存 时间进行跟踪,共调查了7人, 6人死亡之 前分别生存了5天、6天、10天、16天、25 天、29天,还有一人术后30天随访时仍存 活。
▪ 本资料属于“开口”资料。
▪ 本例数据已经按从小到大的升序排列,n=7, 为奇数,其中位数为16天。
2. 频数表法(n较大,已编成频数表)
62.05
1 3 1
79.00 72.25
409.75 4.06(mmol / L) 101

统计学简答题

统计学简答题

医学统计学简答题第二章定量数据的统计描述1.变异系数与标准差的区别标准差使用的度量衡单位与原始数据相同,在两组数据均数相差不大,单位也相同时,从标准差的大小就可以直接比较两样本的变异程度。

但是有时我们需要对均数相差较大或单位不同的几组观测值的变异程度进行比较,标准差不再适宜,这时就应该使用变异系数了。

2.集中趋势和离散趋势的指标及适用范围(1)集中趋势:算术均数、几何均数、中位数,统称平均数,均反映集中趋势。

算术均数:主要适用于对称分布,尤其适合正态分布资料。

几何均数:应用于对数正态分布,也可应用于呈倍数关系的等比资料。

在医院中主要用于抗原(体)滴度资料。

中位数:适合条件:a.极偏态资料。

b.有不确定的数据(有>或<)。

c.有特大值或特小值。

d.分布不明的资料。

(2)离散趋势:极差、四分位数间距、方差和标准差、变异系数均反映离散趋势极差:除了两端有不确定数据之外,均可计算极差。

四分位间距:用于描述偏态分布资料。

方差和标准差:用于描述正态分布计量资料的离散程度。

变异系数:a.均数相差较大。

b.单位不同。

3.简述变异系数的实用时机变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。

4.怎样正确描述一组计量资料(1)根据分布类型选择指标(2)正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。

5.标准差与标准误的联系和区别有哪些?区别:(1)概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差,标准误越小,均数的可靠性越高。

(2)用途不同:标准差与均数结合估计参考值范围。

(3)计算含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。

联系:标准差、标准误均为变异指标,当样本含量不变是,标准误与标准差成正比。

6.正态分布的主要特征(1)正态曲线在横轴上方均数处最高,即频数最大(2)正态分布以均数为中心,左右对称,无限接近于x轴(3)曲线与横轴所围面积为1。

医学统计学02 定量资料的统计描述

医学统计学02 定量资料的统计描述
9
120名8岁男孩身高频数表 组段 112~
频数 f 25
频数 2
114~
21
18
7
9 14
116~
15 10 5 3
20
15 10 5 0 7
14 15 9
118~
120~
122~
1
15
21 18 15 10 5 3 1
10
2 1 身高( cm )
124~ 126~ 128~ 130~ 132~ 134~136
• 加权法
G log
1
f log X f log X ( ) log ( ) n f
1
31
注意事项
几何均数常用于等比级资料或对数正态分布资料。 观察值中若有0或负值,则不宜直接使用几何均 数。 观察值一般同时不能有正值和负值。若全是负值, 计算时可先将负号去掉,得出结果后再加上负号。
7
9 14 15 21 18 15 10
130~
132~ 134~136
5
3 1
5
• 频数(frequency)
– 观察数据的个数
• 频数分布(frequency distribution)
– 观察数据在其取值范围内的分布情况
• 定量资料的频数分布情况可以用频数表 (frequency distribution table)或直方图表 示。
9
14 15 21 18 15
7.5
11.7 12.5 17.5 15.0 12.5
18
32 47 68 86 101
15.0
26.7 39.2 56.7 71.7 84.2
– 组段的起点叫“下限”,终点叫“上
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(2)偏态分布 :
1)右偏态分布 (skewed to the right distribution) 也称正偏态分布 (positive skewness distribution):右侧 的组段数多于左侧的
组段数,频数向右侧 拖尾
人数
25 20 15 10
5 0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
2)左偏态分布 (skewed to the left distribution ) 也 称 负 偏 态 分 布 ( negative
skewness distribution ) : 左 侧 的组段数多于右侧的 组段数,频数向左侧 拖尾
人数
25
20
公式
: X

X1 X2 L
Xn

X
n
n
式中 X1, X2,L , Xn 为所有观察值,n 为样本含量, (希腊字母,读作
sigma)为求和的符号。
例2-2 用直接法计算例2-1某单位101名正常成年 女子的血清总胆固醇的均数。
2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26
2.360~
组段 2.30~ 2.60~ 2.90~ 3.20~ … 5.60~5.90
4.分组段划记并统计频数
L X U
2.360~
组段 (1)
2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计
15
10
5
0 2.5
12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
2.描述频数分布的特征
①变异的范围在2.30~5.90 (mmol/L)
②有明显的统计分布规律,数据主要集 中在3.50~4.70(mmol/L) 之间,尤以组段的 人数3.80~4.10 (mmol/L) 最多,且上下组段 数的频数分布基本对称。
例2-3 利用表2-1计算101名正常成年 女子的血总胆固醇的均数。
组段
(1) 2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计
频数f (2) 1 3 6 8 17 20 17 12 9 5 2 1 101
X 1?2?.45?32.7515.75L409.75 13110L1
4.06(mmol/L)
2、应用
适用于对称分布, 特别是正态分布 资料。
二、 几何均数
几何均数(geometric mean): 可用于反映一组经对数转换后呈对称分 布的变量值在数量上的平均水平。
1、计算方法
(1)、直接计算法
PXΒιβλιοθήκη 1 2X
(nX
%)

X (nX %1)
例2-9 对某医院细菌性痢疾治愈者的住院天数统计,名 患者的住院天数从小到大的排列如下,试求第5百分位数 和第99百分位数。
公式:G n X1X2 L Xn 或
G lg1(
lg X )
n
例2-4 某地5例微丝蚴血症患者治疗七年后用间接 荧光抗体试验测得其抗体滴度倒数分别为,10, 20,40,40,160,求几何均数。
G 5 10 20 40 40160 34.8
G lg1( lg X ) lg1(lg10 lg 20 lg 40 lg 40 lg160) 34.8
第二节 集中趋势的描述
统计上使用平均数(average)这一 指标体系来描述一组变量值的集中位置 或平均水平。 常用的平均数有:
算术均数 几何均数 中位数
一、算术均数
算术均数:简称均数(mean) 可用于反映一组呈对称分布的变量
值在数量上的平均水平或者说是集中位 置的特征值。
1、计算方法
(1)直接计算法
第一节 频数分布
一、频数分布表(frequency table) :
例2-1 从某单位1999年的职工体检资料 中获得101名正常成年女子的血清总胆固 醇( mmol/L )的测量结果如下,试编制 频数分布表。
2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26
320
14
640
2.5051 2.8062
37.5765 39.2868
2
1280
69

3.1072 —
6.2144 150.2778
G lg1( f lg X ) lg1(150.2778) lg1(2.1779) 150.6
f
69
故例类风湿关节炎患者血清EBV-VCA-lgG 抗体的平均滴度为:1:150.6。
三、频数表和频数分布图用途
1.描述频数分布的 类型
(1)对称分布 :若 各组段的频数以频数 最多组段为中心左右 两侧大体对称,就认 为该资料是对称分布
频数
25
20 15
10 5
0 2.45 3.05 3.65 4.25 4.85 5.45 6.10
血 清 总 胆 固 醇(mmol/L) 图 2 - 1 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布
第二章 计量资料的统计描述
Descriptions of Measurement Data
Content
1. Frequency distribution 2. Description of central
tendency 3. Measures of dispersion 4. Normal distribution 5. Range of reference value
X 2.35 4.78 L 3.91 4.03(mmol/L) 101
(2)加权法:
公式 :
X
f1X1
f2 X 2 f3X3 L

fk Xk

fX
f1 f2 f3 L fk
f
计算4,4,4,6,6,8,8,8,10的均 数?
X 3 4 2 6 38 110 3 231
表 2-4 69 例 RA 患者血清 EBV-VCA-lgG 抗体测定结果
人数 f
滴度倒数 X
lg X
f lg X




4
10
3
20
1.0000 1.3010
4.0000 3.9030
10
40
1.6021
16.0210
10
80
11
160
1.9031 2.2041
19.0310 24.2451
15
3.便于发现一些特大或特小的可疑值
组段
(1) 2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计
频数f (2) 1 0 0 0 17 20 17 12 9 5 2 1 101
4.便于进一步做统计分析和处理
X(n) 2

X ( n 1) 2

例2-6 7名病人患某病的潜伏期分别为2, 3, 4, 5, 6, 9, 16天,求其中位数。
本例n=7,为奇数 M X (71) X 4 5(天) 2
相关文档
最新文档