2.计量(定量)的统计描述资料
(精选)定量资料统计描述
因此,中位数可用于任何分布的定量资料。 但对于能用算术均数或几何均数描述集中趋势的资料, 应尽量使用算术均数或几何均数。
24
百分位数常用于确定医范围指特定健康人群的解剖、生理、 生化等指标的波动范围。
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征
集中趋势(Central tendency) 离散趋势(Tendency of dispersion)
9
3) 利于发现某些特大或特小的可疑值 4) 便于进一步进行统计分析
10
4. 频数分布图 以观测变量为横轴,频数(或频率)为纵轴
累计频数等于该组段及前面各组段的频数 之和;累计频率等于累计频数除以总例数。 累计频率描述了累计频数在总例数中所占比 重。
6
2. 频数分布的类型
① 对称分布:集中位置在正中,左右两侧大体对称。
② 偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
频数分布类型不同,统计描述的方法不同。
适用于原始数据分布不对称,但经对数转换后对 称分布的资料;或各观察值之间呈倍数变化(等比关 系)的资料。
Gn X1X2Xn
Glg1(
lgX )
n
18
当资料中有相同观察值时,也可用加权 法计算几何均数
Glg1(
f lgX )
n
19
几何均数的应用 ① 常用于对数正态分布资料或等比资料:
如抗体平均滴度和平均效价、卫生事业 平均发展速度、人口几何增长的资料等。 ② 观察值不能有 0,不等同时有正有负。
2 计量资料的统计描述指标
⎜ ⎟ ⎝ 2 ⎠ ⎜ ⎟ ⎝ 2 ⎠
例 在上述 7名中年知识分子 SCL - 90 总分的基础上,又 测得一名中年知识分子该总分为171,试求其中位数。
⎞ 1⎛ ⎞ 1 1⎛ M = ⎜ X n + X n ⎟ = ⎜ X 8 + X 8 ⎟ = ( X 4 + X 5 ) = 93.5分 ( +1) ( +1) 2 ⎝ (2) ⎠ 2 ⎝ (2) ⎠ 2 2 2
1. 算术均数
适用于单峰对称分布的资料,特别是正态
分布或近似正态分布的资料。
由于均数易受到极端值的影响,故不适用
于偏态分布资料的描述。
2. 中位数
中位数(median,M):是将一组观察值
由小到大排列后位次居中的观察值。
2. 中位数
直接法:
n 为奇数时
M = X ⎛ n +1 ⎞
⎜ ⎟ ⎝ 2 ⎠
例
某研究者随机抽取温州市正常成年男子120名,其红细 胞计数值(×1012/L)的频数表资料如下,求均数。
表 1 某地 120 名正常成年男子红细胞频数表 组 段 频数 频率(%) 累积频数 3.20~ 2 1.7 2 3.50~ 5 4.2 7 3.80~ 10 8.3 17 4.10~ 19 15.8 36 4.40~ 23 19.2 59 4.70~ 24 20.0 83 5.00~ 21 17.5 104 5.30~ 11 9.2 115 5.60~ 4 3.3 119 5.90~6.20 1 0.8 120 合 计 120 100.0 - 累积频率(%) 1.7 5.8 14.2 30.0 49.2 69.2 86.7 95.8 99.2 100.0 -
医学统计学学习笔记
医学统计学笔记一、绪论及基本概念1. 资料类型①计量资料(定量资料、数值变量资料):连续型、离散型②计数资料(定性资料、无序分类变量、名义变量):二分类、多分类③等级资料(半定量资料、有序分类变量)信息量:计量资料>等级资料>计数资料2.误差类型①过失误差:可避免②系统误差:具有明确的方向性,可避免③随机误差:分为随机测量误差和随机抽样误差,没有固定的大小和方向,不可避免3.核心概念参数:u、σ;固定的常数,总体的统计指标,参数大小客观存在,但往往未知。
统计量:X̅,S,P;样本的统计指标,参数附近波动的随机变量。
概率为参数,频率为统计量。
4.医学统计工作的基本步骤:设计、收集资料、整理资料、分析资料二、计量资料的统计描述1.集中趋势的描述a.算术均数,简称均数(mean):主要适用于对称分布或偏度不大的资料,尤其适合正态分布资料。
不能用于开口型资料。
u(总体均数),X(样本均数)。
b.几何均数(geometric mean,G):适用于经对数转换后呈对称分布。
观察值不能为0 、不能同时有正有负。
同一资料算得的几何均数小于算术均数。
c.中位数(median, M)和百分位数(precentile, Px):适用于各种分布类型资料。
当计量资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。
用频数表法计算百分位数时,组距不一定要相等。
P x=L x+i x(n∗x%−∑f L)f xL x:第x百分位数所在组段的下限i x:第x百分位数所在组段的组距f x:第x百分位数所在组段的频数∑f L:第x百分位数所在组段上一组段累计频数d.调和均数(harmonic mean,H):适用于表达呈极严重的正偏态分布资料的平均水平。
计算方法为求倒数的均值后再取其倒数。
SPSS:在Transform中输入公式。
2.离散(dispersion)趋势的描述a.极差(range,R):也称为全距。
b.四分位数间距(quartile range,Q):即统计图中箱子的高度,常用于偏态资料离散度的描述,多与M 合用。
医学统计学 第二章 计量资料的统计描述
肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
定量资料的统计描述
1.集中趋势 (算术)平均数: 几何均数: 中位数:
2.离散趋势 全距: 四分位数间距: 离均差平方和: 方差: 标准差: 变异系数:
3.正态分布 特征: (P16) 应用 估计频率分布
确定医学参考值范围
4.t 分布
(正态近似法和百分位数法)
质量控制 理论基础 特征: (P22) 应用 区间估计 假设检验
(P42)
Ni N
p NNi pi
标准组选取方法 有代表性的
(P42)
两组合并 择其一
定量资料(计量资料)统计推断
一、定量资料的参数估计 (P23)
1.点估计: X
2.区间估计 σ未知,n较小: Xt.SX
σ已知: Xu.X
σ未知但n足够大:
Xu.SX
二、定量资料的假设检验 (P26)
t
检验
单个样本t检验:
3. yˆ 的含义( P138或见讲义) 。
4.回归与相关的区别和联系(见讲义) 5.等级相关的适用范围(P147)。 6.直线回归的应用(P142~ P143 )。
统计表与统计图
1.统计表的分类(P255) 2.统计表的编制要求(P253) 3.统计表的改错(P255)
4.常用统计图的适用条件及要求
(P256 ~ P259 )
基本概念(见讲义)
1.总体和样本(P3) 2.参数和统计量(见讲义)
3.变异(见讲义)
4.抽样误差(见讲义) 5.概率(P4) 6.样本含量(P3) 7.定量资料(P4) 8.定性资料(P4)
9.正偏态分布(P8) 10.负偏态分布(P8) 11.中位数(P11) 12.百分位数(P13) 13. 医学参考值范围(P18) 14.统计推断(P20) 15. 标准误(P22) 16.参数估计(P23)
统计学2 计量资料的统计描述指标课件
N
Valid
Missing
Mean
Median
Std. Deviation
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Percentiles
5
25
50
75
95
97.5
238 0
7.1387 6.6111a 3.3217 1.209
x
72.4
例 某地不同年龄女童的身高资料如下,比较不同 年龄女童身高的变异程度。
表 某地不同年龄女童身高(cm)的变异程度
年龄组 1-2月
例数 100
均数 56.3
标准差 2.1
变异系数 (%)
3.7
5-6月 120
66.5
2.2
3.3
3-3.5岁 300
97.2
3.1
3.2
5-5.5岁 500 107.8
ON AVERAGE 间距 3. 标准差,S 4. 变异系数,CV
变异程度指标越大,表示数据离散程度越大。
1. 极差
Range,亦称全距,即全部观察值中最大值与最 小值之差。
R = X max − X min
极差没有利用全部观察值,是简单但又粗略的变 异指标。
效价 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
例数 f 2 3 6 9 8 14 12 6 60
G=78.79
只用平均数描述资料的弊病
It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable。
计量资料的统计描述
频数表法
i Px Lx ( nx% f L ) fx
其中
Lx 第x百分位数所在组段下限
i 组距
f x 第x百分位数所在组段的频数
f 第x百分位数所在组段前一组的累计频数
L
[案例4-10] 根据表4-4,计算P25 、P75 。
p25 i L ( n.x % f L ) fx
均数
几何均数 中位数
平均数量水平
平均增减倍数 位次居中的观察值 水平
对称分布,尤其是正 态分布 等比、对数正态分布 偏态、分布不明确、 分布末端无确定值
百分位数 ( Percentile,Px )
观察值从小到大排列,处于第x百分位位 置上的数值,用 Px 表示。一个百分位数将全 部数据分成两部分,有x%的数据小于Px,有 (100-x)%的数据大于Px
0.6021 2.7093 7.2246 15.5051 23.4806 21.0720 16.8574 86.9977(
f ilg xi
)
1 lg 4 3 lg 8 lg 256 1 86.9977 G lg ( lg ( ) 54 1 3 7 50
滴度倒数 xi
(3)
频数 fi
(2)
lgxi
(4)
fi lgxi
(5)
1/4 1/8 1/16 1/32 1/64 1/128 1/256 合 计
1 3 6 10 13 10 7 50 (
fi
4 8 16 32 64 128 256 ) -
0.6021 0.9031 1.2041 1.5051 1.8062 2.1072 2.4082 -
141.5 151.1 144.6 151.8 149.5 153.6 140.5 150.3 141.3 153.9 140.8 141.8 140.7 151.4 139.1 145.8 148.4 136.5
统计学知识点(完整)
基本统计方法第一章 概论1. 总体(Population ):根据研究目的确定的同质对象的全体(集合);样本(Sample ):从总体中随机抽取的部分具有代表性的研究对象。
2. 参数(Parameter ):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic ):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。
3. 统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。
第二章 计量资料统计描述1. 集中趋势:均数(算术、几何)、中位数、众数2. 离散趋势:极差、四分位间距(QR =P 75-P 25)、标准差(或方差)、变异系数(CV )3. 正态分布特征:①X 轴上方关于X =对称的钟形曲线;②X =时,f(X)取得最大值;③有两个参数,位置参数和形态参数;④曲线下面积为1,区间±的面积为68.27%,区间±1.96的面积为95.00%,区间±2.58的面积为99.00%。
4. 医学参考值范围的制定方法:正态近似法:/2X u S α±;百分位数法:P 2.5-P 97.5。
第三章 总体均数估计和假设检验1. 抽样误差(Sampling Error ):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。
抽样误差不可避免,产生的根本原因是生物个体的变异性。
2. 均数的标准误(Standard error of Mean, SEM ):样本均数的标准差,计算公式:/X n σσ=3. 降低抽样误差的途径有:①通过增加样本含量n ;②通过设计减少S 。
4. t 分布特征:①单峰分布,以0为中心,左右对称; ②形态取决于自由度,越小,t 值越分散,t 分布的峰部越矮而尾部翘得越高; ③当逼近∞,X S 逼近X σ, t 分布逼近u 分布,故标准正态分布是t 分布的特例。
卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)
●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不
变
2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S
统计学知识点(完整)
基本统计方法第一章概论1. 总体(Population):根据研究目的确定的同质对象的全体(集合);样本(Sample):从总体中随机抽取的部分具有代表性的研究对象。
2. 参数(Parameter):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。
3. 统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。
第二章计量资料统计描述1. 集中趋势:均数(算术、几何)、中位数、众数2. 离散趋势:极差、四分位间距(QR=P75-P25)、标准差(或方差)、变异系数(CV)3. 正态分布特征:①X轴上方关于X=μ对称的钟形曲线;②X=μ时,f(X)取得最大值;③有两个参数,位置参数μ和形态参数σ;④曲线下面积为1,区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。
4. 医学参考值范围的制定方法:正态近似法:;百分位数法:P2.5-P97.5。
第三章总体均数估计和假设检验1. 抽样误差(Sampling Error):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。
抽样误差不可避免,产生的根本原因是生物个体的变异性。
2. 均数的标准误(Standard error of Mean, SEM):样本均数的标准差,计算公式:。
反映样本均数间的离散程度,说明抽样误差的大小。
3. 降低抽样误差的途径有:①通过增加样本含量n;②通过设计减少S。
4. t分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度ν,ν越小,t值越分散,t分布的峰部越矮而尾部翘得越高;③当ν逼近∞,逼近, t分布逼近u分布,故标准正态分布是t分布的特例。
5. 置信区间(Confidence Interval, CI):按预先给定的概率(1-α)确定的包含总体参数的一个范围,计算公式:或。
论文中常用的统计方法 简介-文档资料
计数资料的统计描述
① 强度相对数(说明某现象发生的频率 或强度,又称为率)
② 结构相对数(说明各构成部分在总体 中所占的比重或分布,又称为构成比)
③ 相对比(是两个有关指标之比)
8
几何均数
可用于反映一组经对数转换后呈对数 分布的变量值在数量上的平均水平。
9
中位数(M)
将n个变量值从小到大排列,位置居于 中间的那个数。 1.n为奇数:M=X[(n+1)/2] 2.n为偶数:M=1/2(X(n/2)+X(n/2+1))
又称半定量资料或有序分类变量资料。 为将观察单位按某种属性的不同程度 分成等级后分组计数,分类汇总各组 观察单位数后而得到的资料。如观察 某人群某血清反应,根据反映强度, 结果可分为-、±、+、++、+++、 ++++六级。
14
⑴集中趋势描述(描述一组变量值的集 中位置或平均水平)
① 算数均数 ② 几何均数 ③ 中位数 ④ 百分位数
6
计量资料的统计描述
⑵离散趋势描述(描述数据变异大小) ① 极差(一组变量值的最大值与最小值之差) ② 四分位间距 ③ 方差与标准差 ④ 变异系数(多用于观察指标单位不同时)
⑤ 正态资料用均数±标准差;非正态资料中位数 ±四分位间距描述
③秩转换的非参数检验(W检验):不满足t
检验和F检验条件的
4
㈢统计分析
1 ①X2检验:用于推断两个总体率或构成 比之间有无差别、多个总体率或构成 比之间有无差别、多个样本率的多重 比较、两个分类变量之间有无关联性、 频数分布拟合优度; ②W检验:不满足上述条件的。
⑶等级资料:W检验
定量资料的统计描述
一、基本概念
总体与样本 变量 误差 概率
二、资料和统计分析
资料的两种类型
定量资料(计量资料) 定性资料(分类资料) 连续 离散 二项分类 多项分类
无序
有序(等级)
根据变量取值特点,计量资料分为:
连续性资料:变量值可以在实数轴上连续变
动。如红细胞数、身高、体重。
定量资料统计描述过程:
定量 资料 统计 描述
一、Descriptives过程
进行一般性的统计描述(统计指标) 适用于服从正态分布的定量资料 特殊功能:可对原变量进行标准正态 变换N(0,1)
Descriptives过程:
标准 正态 变换: Z+?
峰度系数、 偏度系数
二、Frequencies过程
涉及的统计指标比Descriptives过程全 面,可产生详细的频数表,并给出常用统 计图。 更适用于对分类资料以及不服从正态分 布的连续性变量进行描述。
Frequencies过程:
产生 频数 表
Frequencies过程:
正态 曲线
三、Explore 过程(探索性分析)
三个过程中功能最强大,对变量的描 述统计更深入详尽; 适用于对资料的性质、分布特点完全 不清楚时; 特殊功能:茎叶图、箱式图
2.Descriptive Statistic
3.Descriptives
optins
几何均数的计算
教材P45 例4.4 数据录入 分析过程
对数转换:Transform Compute
生成 新变 量lgx
Transform
Compute:
函数 组
练习
课后习题P394 第3题
定量资料统计描述
定量资料统计描述概述定量资料是指数据以数字形式呈现的资料,与定性资料(如文字、图片等)不同,定量资料的数据具有明确的数值意义,常常需要进行统计分析。
在众多的数据分析方法中,统计是最为基础和重要的一种。
在统计分析中,描述统计是对搜集的数据进行基本的描述和概括,为进一步分析打下基础。
本文将从以下几个方面介绍定量资料的统计描述:1.定量资料的类型2.定量资料的统计描述方法3.定量资料的图表展示定量资料的类型定量资料通常可分为连续型和离散型两种。
具体来说,连续型数据是指在一定区间范围内可以取任意值的数据,如身高、体重等。
而离散型数据则是指一个变量只能取有限个取值的数据,例如血型、班级人数等。
定量资料的统计描述方法1. 集中趋势集中趋势是描述一组数据中心位置的统计指标,常用来表征该组数据的一般水平。
主要指标包括均值、中位数及众数。
其中,均值是指某组数据所有数据之和除以数据的个数,中位数是在一组数据中,数值按照从小到大排列,处于中间位置的数据,众数则是指整个数据中出现最频繁的那个数据。
2. 离散程度离散程度是描述一组数据分散程度的统计指标,常用来表征该组数据的分布情况。
主要指标包括极差、方差和标准差。
其中,极差是指一组数据最大值与最小值的差,方差是各数据偏离它们算术平均数的平方和的平均数,标准差则是方差的非负平方根。
3. 偏态与峰态偏态和峰态是描述一组数据偏离正态分布情况的统计指标。
偏态是指一组数据分布的不对称程度,主要指标包括偏态系数。
而峰态是指一组数据分布峰值的高低程度,主要指标包括峰态系数。
定量资料的图表展示图表展示是定量资料描述的一种重要手段。
常用的图表形式包括直方图、折线图、箱线图等。
1. 直方图直方图是一种对连续性定量数据分布情况的图形表示。
在直方图中,数据被划分为几个区间,每个区间的数据频数用柱形的高度来表示。
直方图能够反映数据的集中趋势和分散程度。
2. 折线图折线图是一种用折线表示数据值的图形,常用来描述离散型定量数据的变化趋势。
医学统计学02 定量资料的统计描述
120名8岁男孩身高频数表 组段 112~
频数 f 25
频数 2
114~
21
18
7
9 14
116~
15 10 5 3
20
15 10 5 0 7
14 15 9
118~
120~
122~
1
15
21 18 15 10 5 3 1
10
2 1 身高( cm )
124~ 126~ 128~ 130~ 132~ 134~136
• 加权法
G log
1
f log X f log X ( ) log ( ) n f
1
31
注意事项
几何均数常用于等比级资料或对数正态分布资料。 观察值中若有0或负值,则不宜直接使用几何均 数。 观察值一般同时不能有正值和负值。若全是负值, 计算时可先将负号去掉,得出结果后再加上负号。
7
9 14 15 21 18 15 10
130~
132~ 134~136
5
3 1
5
• 频数(frequency)
– 观察数据的个数
• 频数分布(frequency distribution)
– 观察数据在其取值范围内的分布情况
• 定量资料的频数分布情况可以用频数表 (frequency distribution table)或直方图表 示。
9
14 15 21 18 15
7.5
11.7 12.5 17.5 15.0 12.5
18
32 47 68 86 101
15.0
26.7 39.2 56.7 71.7 84.2
– 组段的起点叫“下限”,终点叫“上
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2018/10/9
11
1. 频数表的编制步骤
(3)列表划记
计算出每个组段的 频率
每组的频数 样本含量
2018/10/9
12
1. 频数表的编制步骤
(3)列表划记
计算出每个组段的 累计频率 =本组段的频率+上 一组段的累计频率
2018/10/9
13
1. 频数表的编制步骤
2018/10/9
14
2.绘制频数分布直方图
集中趋势和离散趋势是频数分布的两个重要侧面,从这两 方面就可全面的分析所研究的事物。
2018/10/9ຫໍສະໝຸດ 184.频数分布的类型
频数分布又可分为对称分布和偏态分布
对称分布:集中位置在正中,左右两侧频数分布
大体对称
偏态分布:集中位置偏向一侧,频数分布不对称
正偏态分布:集中位置偏向年龄小的一侧 负偏态分布:集中位置偏向年龄大的一侧
2018/10/9
8
1. 频数表的编制步骤 列出各组段 第一组段
最后一组段
2018/10/9
9
1. 频数表的编制步骤
(3)列表划记
将原始数据一一对 应入每个组段,通 过划“正” 字,来 统计每个组段内的 数据
2018/10/9
10
1. 频数表的编制步骤
(3)列表划记
统计每个组段内的 频数(例数) 频数的合计数等于 样本含量
2018/10/9
24
1.算术均数
(arithmetic mean)
又简称为均数(mean) 定义:是反映一组观察值在数量上的平均水平。 总体均数用希腊字母 表示,样本均数用 x 表示 计算方法:
直接法: 频数表法:
应用: 正态分布或近似正态分布资料
2018/10/9
25
1.算术均数
6
1. 频数表的编制步骤
(2)划分组段 确定组数: n>100,10~15组;n<100,8~10组 确定组距:
组距可以相等也可以不相等,一般采用等距分组, 组距=极差/组数 例8.1 1.99/10≈2,故组距=2mmol/L
2018/10/9
7
1. 频数表的编制步骤
(2)划分组段 确定各组段的上下限:
每个组段的起点称为该组的下限(low limit), 终点称为上 限(upper limit), 上限=下限+组距; 第一组段必须包括最小值,因此其下限取包含最小值、较 为整齐的数值; 例8.1 第一组段下限为 3.60,上限为3.60+0.20=3.80 各组段不能重叠,每一组段均为半开半闭区间,即包括下 限,不包含上限。 例8.1 第一组段为3.60~ 即[3.60,3.80);以此类推。 最后一组段,须包括最大值,且要列出这一组段的下限和 上限,即5.40~5.60, [5.40,5.60]
第十一章 资料的描述性分析
第十一章 资料的描述性分析
第一节 第二节 统计图表 计量资料的统计描述方法 计数资料的统计描述方法
2018/10/9
2
第一节 计量资料的统计描述方法
常用的描述定量资料分布规律的统计方法 有两类:
统计图表:频数分布表/图 选用适当的统计指标:
集中趋势指标:均数、中位数 离散趋势指标:极差、标准差
绘制频数分布直方图 坐标轴
横坐标:变量值即研究指标,无需从0开始,以单位尺度 划分。 纵坐标:为频数f,必须从0开始(f为每一组段内的人数)
直条
直条的宽度:组距 直条的高度:每一组段的频数
累计
2018/10/9
15
2.绘制频数分布直方图
2018/10/9
16
2.绘制频数分布直方图
计算方法
直接法:即将所有观察值x1,x2,x3,…,xn直接相加 再除以观察值的个数,写成公式
2018/10/9
5
第一节 数值变量资料的频数分布
1. 频数表的编制步骤 (1)求数据的极差: 极差(range)是全部数
据中的最大值与最小值之差,它描述了数据的变 异幅度。
公式:R=XMax-XMin 例8.1: XMax =5.59
XMin =3.60
R=5.59-3.60=1.99
2018/10/9
2018/10/9
17
3、频数分布的特征 从频数表可以看到频数分布的两个重要的特征
集中趋势(central tendency)
血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居 多,是为集中趋势。
离散趋势(tendency of dispersion)
从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频 数分布逐渐减少,是为离散趋势。
22
5.频数表的用途
频数表可揭示资料的分布特征和分布类型 便于进一步计算统计指标和统计分析处理(第二节) 便于发现某些特大或特小可疑值,便于资料的校对。
2018/10/9
23
一、集中趋势指标
算术均数(arithmetic mean) 几何均数(geometric mean) 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组 变量值的集中位置,代表其平均水平或是集中 位置的特征值。
2018/10/9
3
第一节 数值变量资料的频数分布
频数分布表( frequency distribution table ): 将变量值化分为若干个组段,清点并记录各组段 变量值的个数,称为频数表(frequency
table ) 。
2018/10/9
4
第一节 数值变量资料的频数分布
最小 值
最 大 值
2018/10/9
21
4.频数分布的类型
正偏态分布:峰偏左,尾部向右侧延伸 如:以儿童为主的传染病发病人数的分布 右偏态
正偏态分布
(positive skewed)
负偏态分布:峰偏右,尾部向左侧延伸 如:以老年人为主的慢性病发病人数的分布 左偏态
负偏态分布
(negative skewed)
2018/10/9
不同类型的分布,应采用相应的统计分析方 法。
2018/10/9
19
4.频数分布的类型
正态分布 ( normal distribution )
中间高、两边低、左右对称 属于对称分布的一种 许多医学资料都属于这种分布, 例如人体正常的生理生化指标
正态分布
2018/10/9
20
4.频数分布的类型
a.尖峭峰 b.正态峰 c.平阔峰