定量资料的统计描述解析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定量资料的统计描述
第一节 频数分布表与频数分布图
统计描述是统计分析的最基本内容,也 是统计分析的重要一部分.在统计学中经常 用统计指标和统计图表来揭示和反映原始 资料的数量特征和信息.
频数分布表
➢ 用于反映各变量(观察单位的某种特征)值及其 相应频数之间关系的一类表格,我们称之为频 数表.这里频数指对一种变量在多个观察单位 中进行多次观察,其中某一变量值重复出现的 次数.
数表法两种。
(1)直接法 当观察例数 n 不大时,此法常用。
先将观察值按大小顺序排列,选用下列公式
求 M。
当 n 为奇数时
为偶数时
M=
X
n 2
X
n 1 2
2
例 某病患者 8 人的潜伏期(天)分别为 2,3,3,4,7,8, 10,18,求它们的中位数。
本例 n=8 为偶数,将 8 人潜伏期从小到大排列,用公式算 得
➢ 不同的资料类型编制频数表难易程度不同,其 中计数资料和等级资料比较简单,而计量资料 相对较繁杂些.
计量资料频数表的编制
一般情况下,样本含量小于30的统计资料 无须编制频数表,但对于大样本含量的资料, 编制频数表有利于进一步的统计分析、且频 数表本身也具有统计描述的作用.
编制频数表的步骤
一般 8- 15 之间
3、方差(variance) 离均差平方和的算术平均数,即为方差。总体方差用
符号σ2(σ读seigama)表示,样本方差用S2表示。计算公 式分别为:
N
xi 2
2 i1
N
n
xi
X
2
S 2 i1
n 1
4、标准差(standard deviation) 方差的平方根即为标准差。总体标准差用σ表示,
1)直接法
G n x1x2 xn
lg 1 lg x1 lg x2 lg xn
n
n
lg xi
lg
1
i 1
n
例 有 6 份血清的抗体效价分别为 1:10,1:20,1:40, 1:80,1:160,1:320,求平均抗体效价。 为便于计算,可先将抗体效价取倒数,将效价倒数代 入公式 ,得 G=[(lg10+lg20+lg40+lg80+lg160+lg320)/6]= (1.7526)=56.57
P2.5 = 0 + 12/35( 187×2.5% - 0 )=1.6(小时) P25 = 12 + 12/70( 187×25% - 35 )=14.0(小时) P75 = 24 + 12/40( 187×75% - 105 )=34.6(小时)
第三节 离散趋势的描述指标
1、全距(range) 计算公式为:
6 份血清的平均抗体效价为 1:56.57
(2)加权法 又称频数表法,当观察例数 n 较大 时,可先编制频数分布表,用此法计算几何平均 数
k fi lg xi
G
lg
1
i 1
k
fi
i1
例 100 名受试者接种某疫苗三周后,抗体测定结果如下表第(1) 栏和第(2)栏,求平均抗体滴度。
表 187 例某种沙门氏菌食物中毒潜伏期(小时)分布
潜伏期(小时)
频数 f
累计频数Σf
(1)
(2)
(3)
0--
35
35
12--
70
105
24--
40
145
36--
23
168
48--
12
180
60--
6
186
72--84
1
187
M = 12 + 12/70( 187×50% - 35 )= 22.0(小时)
R = Xmax–Xmin 全距越大,说明变量的变异程度越大。其度量单 位与原变量单位相同。 2、四分位数间距(quartile) 是一组数值变量值中上四分数(即P75,记为Qu) 与下四分数(即P25,记为QL)之差,用符号QR表示 计算公式为:
QR =P75-P25 它一般和中位数一起描述偏态分布资料的分布特 征。
143.3 147.2 135.4 138.1 138.1 137.9 129.4* 148.6 149.8 135.5 147.5
156.3 144.8 148.5 147.1 148.1 148.1 143.5 145.0 143.1 149.8 136.1
步骤如下: R=160.8-129.4=31.4。 组段数=10;组距=R/10=3.14≈30(cm);按要
中位数是一个特定的百分位数即P50,用符号M表示。 把一组观察值按从小到大(或从大到小)的次序排列, 位置居于最中央的那个数据就是中位数。中位数也是 反映频数分布集中位置的统计指标,但它只由所处中 间位置的部分变量值计算所得,不能反映所有数值的 变化,故中位数缺乏敏感性。中位数理论上可用于任 何分布类型的资料,但实践中常用于偏态分布资料和 分布两端无确定值的资料。其计算方法有直接法和频
组中值 (3)
130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5 160.5
—
计量资料频数分布图
20
10
Std. Dev = 5.46
Mean = 144.3
0
N = 118.00
130.0 134.0 138.0 142.0 146.0 150.0 154.0 158.0
中位数M即第50百分位数P50,故百分位数Px的计算类似M, 计算公式为:
Px = Lx + i/fx( n×x% - ΣfL )
例 求上表资料的P2.5,P25,P75。 本例n=187,因187×2.5%=4.675,187×25%=46.75,
187×75%=140.25, 结合表第(3)栏累计频数可知P2.5, P25,P75分别在“0--”,“12--”,“24--”组段内,
M=
X
n
2
X
n 2
1
2 = [X4 + X5]/2=(4+7)/2=5.5(天)
(2)频数表法 当观察例数n较多时,可先编制频数表, 再通过频数表计算中位数。
公式为:
M = Lm + i/fm( n×50% - ΣfL )
例 现有187例某种沙门氏菌食物中毒病人的潜伏期(小 时),见表第(1)栏、第(2)栏,求中位数。
151.3 142.0 144.5 139.1 143.8 143.9 135.4 142.1 136.5 143.3 135.4 141.2
134.1 141.3 139.8 144.5 140.5 141.5 147.8 149.8 145.0 157.6 149.8 146.4
某地 13 岁女孩 118 人的身高(cm)资料 143.7 144.9 152.2 145.0 146.4 141.2 142.5 145.5 149.5 141.1 150.6 140.9 145.7 139.3 144.8 147.5 140.5 139.9 138.5 146.2 146.8 142.3 150.9 145.5 138.5 145.2 146.8 148.9 151.8 145.6 160.8* 155.2 138.9 140.9 150.7 148.6 139.9 148.7 139.5 140.6 144.5 142.9 154.6 148.7 153.2 146.5 132.5 146.8 144.6 137.5 143.5 150.0 143.5 146.5 143.7 146.7 139.2 142.6 143.5 131.5 138.9 152.3 141.8 150.8 146.3 142.5 143.8 149.5 147.5 140.3 138.5 142.5
表 100 名受试者平均抗体滴度计算表
抗体滴 度 (1) 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
频数 f
(2) 6 10 16 34 20 8 5 1
100
滴度倒 数X (3) 4 8 16 32 64 128 256 512 ---
lgX
f·lgX
(4) 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072 2.4082 2.7093
3、百分位数(percentile)与中位数(median)
百分位数是一种位置指标,用符号Px表示常 用的百分位数有P2.5,P5,P25,P50,P75,P95, P97.5等,其中P25,P50,P75又称为四分位数。百 分位数常用于描述一组观察值在某百分位置上的 水平,多个百分位结合使用,可更全面地描述资 料的分布特征。
分布特征
集中趋势:指频数表中频数分布表现为频数向某一位置集中的趋势
离散趋势:指频数虽然向某一位置集中,但频数分布表现为各组段都 有频数分布,而不是所有频数分布在集中位置的趋势。
第二节 集中趋势的描述指标
1、算术平均数(arithmetic mean)
(1) 直接法
n
X i1 xi x1 x2 xn
求确定每一组段上下限。 分组统计每一组段的频数,编制频数表。
计量资料频数分布表
身高组段 (1) 129~ 132~ 135~ 138~ 141~ 144~ 147~ 150~ 153~ 156~
159~162 合计
118 例 13 岁女孩身高(cm)资料频数表。 频数 (2) 2 2 8 20 26 25 20 9 3 2 1 118
第一组段包括极小值,最后 一组段包括极大值,除最后 一组段可同时标出上下限, 其他组段只标出下限。
求出极差
确定组段数
确定组距
列出各个组段
极差即最大值 与最小值之差
组距=R/组段数, 但一般取一方便 计算的数字
确定每一组段频数 选
根据变量值大小 把各观察单位归 入各个组段
编制频数表步骤流程图
举例说明计量资料频数表的编制过程
---
(5)=(2)·(4) 3.6126 9.0310 19.2656 51.1734 36.1240 16.8576 12.0410 2.7093
150.8145
k
G
lg
1
i1
fi
k
lg
xi
=(150.8145/100)
fi
i1
=(1.5081)=32.2
100 名受试者平均抗体滴度为 1:32.2。
样本标准差用S表示。计算公式分别为:
N
xi 2
i 1
N
S
n
xi X 2
i 1
n xi2 n xi 2 n
i 1
i1
n 1
n 1
132.0 136.0 140.0 144.0 148.0 152.0 156.0 160.0
身高
频数分布表的用途
揭示数值变量频数分布的类型和特征 作为陈述资料的形式 便于发现一些特大或特小的可疑值 便于进一步的统计分析
计量资料频数分布的类型和特征
分布类型
对称分布:各组段的频数以中间组段为中心,左右两侧基本对称 偏态分布:各组段的频数不以中间组段为中心,而是一侧偏多或偏少
n
n
(2)加权法 又称频数表法,适用于频数表资料。当
观察例数较时用。
k
X
i 1 k
fi xi fi
f1x1 f2 x2 fk xk
f1 f2 fk
i 1
2、几何平均数(geometric mean) 几何平均数用符号 G 表示。用于反映一组经对数转换
后呈对称分布的变量值在数量上的平均水平。医学上常用 于表示类似抗体滴度等呈倍数关系的等比级数资料。
第一节 频数分布表与频数分布图
统计描述是统计分析的最基本内容,也 是统计分析的重要一部分.在统计学中经常 用统计指标和统计图表来揭示和反映原始 资料的数量特征和信息.
频数分布表
➢ 用于反映各变量(观察单位的某种特征)值及其 相应频数之间关系的一类表格,我们称之为频 数表.这里频数指对一种变量在多个观察单位 中进行多次观察,其中某一变量值重复出现的 次数.
数表法两种。
(1)直接法 当观察例数 n 不大时,此法常用。
先将观察值按大小顺序排列,选用下列公式
求 M。
当 n 为奇数时
为偶数时
M=
X
n 2
X
n 1 2
2
例 某病患者 8 人的潜伏期(天)分别为 2,3,3,4,7,8, 10,18,求它们的中位数。
本例 n=8 为偶数,将 8 人潜伏期从小到大排列,用公式算 得
➢ 不同的资料类型编制频数表难易程度不同,其 中计数资料和等级资料比较简单,而计量资料 相对较繁杂些.
计量资料频数表的编制
一般情况下,样本含量小于30的统计资料 无须编制频数表,但对于大样本含量的资料, 编制频数表有利于进一步的统计分析、且频 数表本身也具有统计描述的作用.
编制频数表的步骤
一般 8- 15 之间
3、方差(variance) 离均差平方和的算术平均数,即为方差。总体方差用
符号σ2(σ读seigama)表示,样本方差用S2表示。计算公 式分别为:
N
xi 2
2 i1
N
n
xi
X
2
S 2 i1
n 1
4、标准差(standard deviation) 方差的平方根即为标准差。总体标准差用σ表示,
1)直接法
G n x1x2 xn
lg 1 lg x1 lg x2 lg xn
n
n
lg xi
lg
1
i 1
n
例 有 6 份血清的抗体效价分别为 1:10,1:20,1:40, 1:80,1:160,1:320,求平均抗体效价。 为便于计算,可先将抗体效价取倒数,将效价倒数代 入公式 ,得 G=[(lg10+lg20+lg40+lg80+lg160+lg320)/6]= (1.7526)=56.57
P2.5 = 0 + 12/35( 187×2.5% - 0 )=1.6(小时) P25 = 12 + 12/70( 187×25% - 35 )=14.0(小时) P75 = 24 + 12/40( 187×75% - 105 )=34.6(小时)
第三节 离散趋势的描述指标
1、全距(range) 计算公式为:
6 份血清的平均抗体效价为 1:56.57
(2)加权法 又称频数表法,当观察例数 n 较大 时,可先编制频数分布表,用此法计算几何平均 数
k fi lg xi
G
lg
1
i 1
k
fi
i1
例 100 名受试者接种某疫苗三周后,抗体测定结果如下表第(1) 栏和第(2)栏,求平均抗体滴度。
表 187 例某种沙门氏菌食物中毒潜伏期(小时)分布
潜伏期(小时)
频数 f
累计频数Σf
(1)
(2)
(3)
0--
35
35
12--
70
105
24--
40
145
36--
23
168
48--
12
180
60--
6
186
72--84
1
187
M = 12 + 12/70( 187×50% - 35 )= 22.0(小时)
R = Xmax–Xmin 全距越大,说明变量的变异程度越大。其度量单 位与原变量单位相同。 2、四分位数间距(quartile) 是一组数值变量值中上四分数(即P75,记为Qu) 与下四分数(即P25,记为QL)之差,用符号QR表示 计算公式为:
QR =P75-P25 它一般和中位数一起描述偏态分布资料的分布特 征。
143.3 147.2 135.4 138.1 138.1 137.9 129.4* 148.6 149.8 135.5 147.5
156.3 144.8 148.5 147.1 148.1 148.1 143.5 145.0 143.1 149.8 136.1
步骤如下: R=160.8-129.4=31.4。 组段数=10;组距=R/10=3.14≈30(cm);按要
中位数是一个特定的百分位数即P50,用符号M表示。 把一组观察值按从小到大(或从大到小)的次序排列, 位置居于最中央的那个数据就是中位数。中位数也是 反映频数分布集中位置的统计指标,但它只由所处中 间位置的部分变量值计算所得,不能反映所有数值的 变化,故中位数缺乏敏感性。中位数理论上可用于任 何分布类型的资料,但实践中常用于偏态分布资料和 分布两端无确定值的资料。其计算方法有直接法和频
组中值 (3)
130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5 160.5
—
计量资料频数分布图
20
10
Std. Dev = 5.46
Mean = 144.3
0
N = 118.00
130.0 134.0 138.0 142.0 146.0 150.0 154.0 158.0
中位数M即第50百分位数P50,故百分位数Px的计算类似M, 计算公式为:
Px = Lx + i/fx( n×x% - ΣfL )
例 求上表资料的P2.5,P25,P75。 本例n=187,因187×2.5%=4.675,187×25%=46.75,
187×75%=140.25, 结合表第(3)栏累计频数可知P2.5, P25,P75分别在“0--”,“12--”,“24--”组段内,
M=
X
n
2
X
n 2
1
2 = [X4 + X5]/2=(4+7)/2=5.5(天)
(2)频数表法 当观察例数n较多时,可先编制频数表, 再通过频数表计算中位数。
公式为:
M = Lm + i/fm( n×50% - ΣfL )
例 现有187例某种沙门氏菌食物中毒病人的潜伏期(小 时),见表第(1)栏、第(2)栏,求中位数。
151.3 142.0 144.5 139.1 143.8 143.9 135.4 142.1 136.5 143.3 135.4 141.2
134.1 141.3 139.8 144.5 140.5 141.5 147.8 149.8 145.0 157.6 149.8 146.4
某地 13 岁女孩 118 人的身高(cm)资料 143.7 144.9 152.2 145.0 146.4 141.2 142.5 145.5 149.5 141.1 150.6 140.9 145.7 139.3 144.8 147.5 140.5 139.9 138.5 146.2 146.8 142.3 150.9 145.5 138.5 145.2 146.8 148.9 151.8 145.6 160.8* 155.2 138.9 140.9 150.7 148.6 139.9 148.7 139.5 140.6 144.5 142.9 154.6 148.7 153.2 146.5 132.5 146.8 144.6 137.5 143.5 150.0 143.5 146.5 143.7 146.7 139.2 142.6 143.5 131.5 138.9 152.3 141.8 150.8 146.3 142.5 143.8 149.5 147.5 140.3 138.5 142.5
表 100 名受试者平均抗体滴度计算表
抗体滴 度 (1) 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
频数 f
(2) 6 10 16 34 20 8 5 1
100
滴度倒 数X (3) 4 8 16 32 64 128 256 512 ---
lgX
f·lgX
(4) 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072 2.4082 2.7093
3、百分位数(percentile)与中位数(median)
百分位数是一种位置指标,用符号Px表示常 用的百分位数有P2.5,P5,P25,P50,P75,P95, P97.5等,其中P25,P50,P75又称为四分位数。百 分位数常用于描述一组观察值在某百分位置上的 水平,多个百分位结合使用,可更全面地描述资 料的分布特征。
分布特征
集中趋势:指频数表中频数分布表现为频数向某一位置集中的趋势
离散趋势:指频数虽然向某一位置集中,但频数分布表现为各组段都 有频数分布,而不是所有频数分布在集中位置的趋势。
第二节 集中趋势的描述指标
1、算术平均数(arithmetic mean)
(1) 直接法
n
X i1 xi x1 x2 xn
求确定每一组段上下限。 分组统计每一组段的频数,编制频数表。
计量资料频数分布表
身高组段 (1) 129~ 132~ 135~ 138~ 141~ 144~ 147~ 150~ 153~ 156~
159~162 合计
118 例 13 岁女孩身高(cm)资料频数表。 频数 (2) 2 2 8 20 26 25 20 9 3 2 1 118
第一组段包括极小值,最后 一组段包括极大值,除最后 一组段可同时标出上下限, 其他组段只标出下限。
求出极差
确定组段数
确定组距
列出各个组段
极差即最大值 与最小值之差
组距=R/组段数, 但一般取一方便 计算的数字
确定每一组段频数 选
根据变量值大小 把各观察单位归 入各个组段
编制频数表步骤流程图
举例说明计量资料频数表的编制过程
---
(5)=(2)·(4) 3.6126 9.0310 19.2656 51.1734 36.1240 16.8576 12.0410 2.7093
150.8145
k
G
lg
1
i1
fi
k
lg
xi
=(150.8145/100)
fi
i1
=(1.5081)=32.2
100 名受试者平均抗体滴度为 1:32.2。
样本标准差用S表示。计算公式分别为:
N
xi 2
i 1
N
S
n
xi X 2
i 1
n xi2 n xi 2 n
i 1
i1
n 1
n 1
132.0 136.0 140.0 144.0 148.0 152.0 156.0 160.0
身高
频数分布表的用途
揭示数值变量频数分布的类型和特征 作为陈述资料的形式 便于发现一些特大或特小的可疑值 便于进一步的统计分析
计量资料频数分布的类型和特征
分布类型
对称分布:各组段的频数以中间组段为中心,左右两侧基本对称 偏态分布:各组段的频数不以中间组段为中心,而是一侧偏多或偏少
n
n
(2)加权法 又称频数表法,适用于频数表资料。当
观察例数较时用。
k
X
i 1 k
fi xi fi
f1x1 f2 x2 fk xk
f1 f2 fk
i 1
2、几何平均数(geometric mean) 几何平均数用符号 G 表示。用于反映一组经对数转换
后呈对称分布的变量值在数量上的平均水平。医学上常用 于表示类似抗体滴度等呈倍数关系的等比级数资料。