数值变量的描述性统计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
转氨酶含量
12~ 15~ 18~ 21~ 24~ 27~ 30~ 33~ 36~ 39~ 42~45
人数
2 9 14 23 19 14 11 9 7 4 3
2)左偏态分布(负偏态分布):
左侧的组段数多于右侧的组段数,频 数向左侧拖尾。
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
0 0
3.20~
0
3.50~
17来自百度文库
3.80~
20
4.10~
17
4.40~
12
4.70~
9
5.00~
0
5.30~
0
5.60~5.90
8
合计
101
4.便于进一步做统计分析和处理
第二节 集中趋势的描述
统计上使用平均数(average)这一指标体系来描 述一组变量值的集中位置或平均水平。 常用的平均数有:
算术均数(均数)(mean) 几何均数(geometric mean) 中位数 (median)与百分位数(percentile) 众数(mode)
第一讲 计量资料的统计描述
第一节 第二节 第三节 第四节 第五节
频数分布 集中趋势的描述 离散趋势的描述 正态分布 医学参考值范围的制定
第一节 频数分布
一、频数分布表(frequency table)
例2-1 测得130名健康成年男子脉搏资料(次/分)如下,试编制 频数表和观察频数分布情况。
75 76 72 69 66 72 57 68 71 72 69 72 73 82 80 82 67 69 73 64 74 58 70 64 60 77 66 77 64 67 76 75 75 71 65 62 76 72 71 60 67 75 75 73 79 66 69 79 78 70 72 70 72 78 72 67 72 80 68 70 61 70 73 72 71 81 70 66 75 71 63 77 74 76 68 65 77 69 77 75 79 64 79 73 76 61 80 64 69 70 73 69 68 65 70 69 66 81 63 64 80 74 78 76 84 66 70 73 60 76 82 73 64 65 73 73 63 80 68 76 70 79 77 64 70 66 69 73 78 76
1.54 5.38 14.62 26.15 45.38 65.38 80.00 91.54 99.23 100.00
频数
二、频数分布图
30
25 20
15 10
5 0
56~ 59~ 62~ 65~ 68~ 71~ 74~ 77~ 80~83~85 脉搏(次/分)
图 2-1 130 名 正 常 成 年 男 子脉搏的 频 数 分 布
• (3) 列出组段:第一组段的下限略小于最小值,最后一 个组段上限必须包含最大值。56~ 59~ …… 80~ 83~85
• (4) 划记计数:用划记法将所有数据归纳到各组段,得 到各组段的频数。
表2-1 130名健康成年男子脉搏(次/分)的频数分布表
脉搏组段
(1) 56~ 59~ 62~ 65~ 68~ 71~ 74~ 77~ 80~ 83~85
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
人数
表2-3 101名正常人的血清肌红蛋白含量分布
肌红蛋白含量 g/mL
0~ 5~ 10~ 15~ 20~ 25~ 30~ 35~ 40~ 45~50
人数
2 3 7 9 10 22 23 14 9 2
2.描述频数分布的特征
频数表的编制步骤
• (1)求极差(range):即最大值与最小值之差,又称 为全距。R=84 – 57 =27(次/分)
• (2) 决定分组组数、组距:根据研究目的和样本含量n 确定分组组数,通常分为10~15个组。组距=极差/组数, 为方便计,组距为极差的十分之一, 再略加调整。
27/10=2.7 ≈3
一、算术均数
算术均数:简称均数(mean) 可用于反映一组呈对称分布的变量值
在数量上的平均水平或者说是集中位置 的特征值。
1、计算方法
(1)直接计算法 公式 : X X1 X 2 n
表2-1数据的频数分布特征: ①数据变异(离散)的范围在57~84 (次/分 ) ②数据集中(平均)的组段在68~73 (次/分)
之间,尤以组段的人数71~(次/分)最多。 且上下组段的频数分布基本对称。
3.便于发现一些特大或特小的可疑值
组段
频数 f
(1)
(2)
2.30~
1
• 2.60~ 2.90~
频数
是否为对称分布?
45 40 35 30 25 20 15 10
5 0
2.45 3.05 3.65 4.25 4.85 5.45 6.10
变量
频数
是否为对称分布?
50 45 40 35 30 25 20 15 10 5 0
2.45 3.05 3.65 4.25 4.85 5.45 6.10
变量
合计
频数, f 相对频数(%)
(3)
(4)= (3)/N
2
1.54
5
3.85
12
9.23
15
11.54
25
19.23
26
20.00
19
14.62
15
11.54
10
7.69
1
0.77
130 N=∑f
累积频数
(5)=(3)↓
2 7 19 34 59 85 104 119 129 130
累积相对频数
(6)=(5)/N
(2)偏态分布 :
1)右偏态分布(正偏态分布):右侧的组段数多于 左侧的组段数,频数向右侧拖尾。
25 20 15 10
5 0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
人数
表2-2 115名正常成年女子血清转氨 酶(mmol/L)含量分布
三、频数表和频数分布图用途
1.描述频数分布的类型
(对称分布、偏态分布) 25
频数
20
(1)对称分布 :若 15 各组段的频数以中 10
心位置左右两侧大 5
体对称,就认为该 资料是对称分布
0 2.45 3.05 3.65 4.25 4.85 5.45 6.10
血 清 总 胆 固 醇(mmol/L)
图 2 - 1 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布