第3讲 计量资料与计数资料的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
住院 天数
5 5 6 5 11 2 4 3 7
职业
无 无 管理员 无 商业 无 无 无 干部
文化 程度 中学 小学 大学 中学 中学 小学 中学 中学 中学
分娩 方式 顺产 助产 顺产 剖宫产 剖宫产 顺产 助产 助产 剖宫产
妊娠 结局 足月 足月 足月 足月 足月 早产 早产 足月 足月
计量资料
计数资料
33.3
合计
72
42
30
27
41.7
37.5
表 2-16 1964~1968 年急性心肌梗塞患者的病死率 (修改表)
年份
1964 1965 1966 1967 1968 合计
病例数
17 13 15 15 12 72
死亡例数
住院数 急性期
8
7
5
4
7
6
6
6
4
4
30
27
病死率(% ) 住院期 急性期
47.1
直方图(Histogram)
用途:直方图是以面积表示数量,适用于表达连 续性资料的频数或频率分布。
正正正
17
1.35
22.95
正正
13
1.45
18.85
正
9
1.55
12.40
正
8
1.65
14.85
3
1.75
5.25
160
182.30
对称分布:以频数最多组段为中心左
右大体对称.
右(正)偏态分布: 频数最多组段右侧组
段数多.(skewed to the right distribution)
左(负)偏态分布: 频数最多组段左侧组
定义:将统计分析的事物及指 标用表格列出.
特点:避免长篇文字叙述,便 于阅读和对比分析;数据具体.
定义:用点的位置,线段的升 降,直条的长短或面积的大小 等形式表达统计资料.
特点:直观,醒目,常给人以深 刻印象.
1、统计表的结构 统计表由以下几个部分组成:
①标题、②标目、③线条、④数字、⑤备注
表2-9 某省某工厂 1994、1998年四项检测指标异常检出率
表2-1: 160名正常成年女子的血清甘油三酯(mmol/L)
编号
血清甘油三脂
编号 血清甘油三脂
1
0.51
…
…
2
0.52
153
1.65
3
0.59
154
1.66
4
0.61
155
1.67
5
0.61
156
1.67
6
0.62
157
1.69
7
0.63
158
1.7
8
0.64
159
1.71
…
…
160
1.77
组段 (1) 0.5~ 0.6~ 0.7~ 0.8~ 0.9~ 1.0~ 1.1~ 1.2~ 1.3~ 1.4~ 1.5~ 1.6~ 1.7~1.8 合计
妊娠结局 足月 足月 足月 早产 足月 足月 死产 足月 足月 足月
按年龄(2岁一组)与职业整理
年龄 工人 管理人员 农民 商业服务 无 知识分子 总计
18
2
0
0
0
3
0
5
20
9
2
6
10
18
0
45
22 28
7
10
24
70
11
150
24 50
34
28
52
153
44
361
26 50
43
25
45
133
70
R X max X min X 2 X 2 n
S n 1
四分位间距:QR=P75- P25
CV S 100% X
三、SPSS实现计量资料的统计描述
四、计数资料的统计描述
1、计数资料数据的整理
住院号 年龄 职业 文化程度
2025655 27
无
中学
2025653 22
(4)=(2)+(3)
急性期 死亡数
(5)
住院期总病 急性期病 死率(%) 死率(%) (6)=(4)/(2) (7)=(5)/(2)
1964
17
9
8
7
47.1
41.2
1965
13
8
5
4
38.5
30.8
1966
15
8
7
6
46.7
40.0
1967 15
9
6
6
40.0
40.0
1968 12
8
4
4
33.3
例: 率与构成比
白内障 患者年龄
年龄组 受检人数 例数 构成比(%) 患病率(%)
⑴
⑵
⑶
⑷
⑸=(3)/(2)
40~ 560
68
15.18
12.14
50~ 441
129
28.79
29.25
60~ 296
135
30.13
45.61
70~ 149
97
21.65
65.10
≥80
22
19
4.24
86.36
合计 1468
366
28 34
35
10
34
78
57
248
30 11
14
11
22
39
17
114
32 14
2
3
14
24
3
60
34
4
2
5
3
12
2
28
36
2
1
1
4
5
1
14
38
3
1
1
0
2
1
8
40
0
0
2
0
0
0
2
合计 207
141
102
208 537 206 1401
2、常用相对数指标
计数资料常用的数据形式是绝对数,如某病的出院人数,治愈人数 等.但绝对数不具可比性,需要计算相对数.
P=(x1+ x2+ x3)/ n1+ n2+ n3) (正确) P=(P1+ P2+ P3)/3 (错误)
计数资料和等级资料的SPSS表示
五、统计表与统计图
统计表(statistical table)——数据代替文字描述,便于 统计结果的精确、简洁的表达和对比分析.
统计图(statistical chart)——用图形代替数据,获得直 观、形象的效果.
三类资料来自百度文库关系
例:一组2040岁成年人的血压
等级 资料
<8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压
计量资料 计数资料
以12kPa为界分为正常与异常两组,统计每组例数
二、计量资料的统计描述
1、频数分布 (frequency distribution)
为了了解数据的分布情况,可以编制频数表(frequency table).
编制频数表,绘制频数分布图
划记 (2)
频数,f 组中值,X
fX
(3)
(4)
(5)= (3)×(4)
3
0.55
1.65
正
9
0.65
5.85
正正
12
0.75
9.00
正正
13
0.85
11.05
正正正
17
0.95
16.15
正正正
18
1.05
18.90
正正正正
20
1.15
23.00
正正正
18
1.25
22.50
实例数据
住院号 年龄 身高 体重
2025655 27 165 71.5 2025653 22 160 74.0 2025830 25 158 68.0 2022543 23 161 69.0 2022466 25 159 62.0 2024535 27 157 68.0 2025834 20 158 66.0 2019464 24 158 70.5 2025783 29 154 57.0
2、三线表
表号 标题(包括何时、何地、何事)
横标目的 总标目 横标目
┋
总标目
纵标目 纵标目
××× ×××
××
××
总 标 目(单位)
纵标目
纵标目
××. ×× ××. ××
×. ×× ×. ××
┋ ┋ 合计
┋ ┋ ×××
┋ ┋ ×××
┋ ┋ ××. ××
┋ ┋ ××. ××
备注:
3、统计表的分类
根据分组标目的复杂程度,统计表可大致分为简单表 和复合表。
用途:用等宽直条的长短来表示相互独立的各统 计指标的数值大小,也叫直条图. 分单式和复式两种.
单式条形图
复式条形图
圆图(Pie Chart)
用途:以圆的半径将圆面分割成多个大小不等的 扇形,以扇形面积来表达构成比的图形。
线图(Line Chart)
用途:适用于连续变量资料,说明某事物因时间、 条件推移而变迁的趋势。
448
100.00
30.52
3、相对数应用注意事项
(1) 不能以构成比代替率。 (2) 计算相对数的分母不宜过小, 小则直接叙述。 (3) 进行率的对比分析时,应注意资料可比性。如比较疗
效时,比较组间应病情轻重相同,性别影响,应按性别 分组后再作比较。 (4) 正确求平均率。 例: 若P1=x1/n1 P2=x2/n2 P3=x3/n3
检测
1994年
指标 受检人数 异常人数 检出率(%)
血压 519
55
10.16
心率 519
44
0.48
TTT 519
36
6.94
GPT 519
20
3.85
受检人数
582 582 582 582
1998年
异常人数 检出率(%)
38
6.52
39
6.70
23
3.95
16
2.75
:TTT(麝香草酚浊度试验), :GPT(谷丙转氨酶)。 (丁建生等. 中国卫生统计 1999; 16(3):166 )
特点:无计量单位,如肤色(黑白)、血型(ABO)、职业(工农兵)、 性别(1=男,2=女)等.
3、等级资料 (ordinal data)
半定性或半定量的观察结果,有大小顺序,又称有序分类变量. 如 ①癌症分期:早、中、晚。
②药物疗效:治愈、好转、无效、死亡。 ③尿蛋白: ,,,++,+++及以上
段数多.(skewed to the right distribution)
2、集中趋势的描述
统计上使用平均数(average)来反映计量资料的集中趋 势( central tendency ).
常用平均数有: 1. 算术均数(arithmetic mean),简称均数 (mean) 2. 几何均数(geometric mean) 3. 中位数 (median) 4. 百分位数(percentile)
一、数据类型的分类
1、计量资料 (measurement data)
用仪器、工具等测量方法获得的数据,又称数值变量。 特点:有计量单位,如患者的身高(cm),体重(kg),血压(kPa)等.
2、计数资料 (count data)
按某种属性分类计数后得到的数据,又称无序分类变量,有二分 类和多分类两种情形.
无
小学
2025830 25 管理人员 大学
2025677 24 知识分子 中学
2025647 30 管理人员 大学
2025848 32
无
小学
2019915 27
无
中学
2025861 29
无
大学
2024601 25
农民
中学
2000386 26
无
小学
分娩方式 顺产 助产 顺产 顺产 顺产
剖宫产 顺产
剖宫产 顺产 顺产
41.2
38.5 46.7
30.8 40.0
40.0 33.3
40.0 33.3
41.7
37.5
3、统计图
统计图(statistical chart 或statistical graph)是用点、线、面等几何图形,直观形象地表达、 描述数据或结果。
SPSS绘制基本图形
条形图(Bar Chart)
频数表的编制步骤
(1)求极差(range):即最大值与最小值之差,又称为全距。 (2)数据分组: 由样本容量n确定组数、通常分10-15个组; 一般采取等距分 组, 组距=极差/组数。 (3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包 含最大值,其它组段上限值忽略。 (4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。
X X1 X 2 X n X
n
n
G n X1X2 Xn
G lg1
fi
lg fi
Xi
X f1X1 fX 2 fX3 fk X k fXi
f1 f2 f3 fk
fi
Md
x(n xn
1) /2
/2
x1n / 2
2
n为奇数 n为偶数
3、离散趋势的描述
反映数据的离散度(Dispersion), 即个体观察值的变异 (variation)程度, 常用的统计指标有:
1. 极差(Range) (全距) 2. 四分位数间距 (Quartile range) 3. 方差(Variance) 4. 标准差(Standard Deviation) 5. 变异系数(Coefficient of Variation)
率(rate):说明某现象或某事物发生的频率或强度。 率=(实际发生数/可能发生总数)×比例基数
比例基数:100%、1000‰、10000/万、100000(1/10万)等 如:发病率、死亡率、发生率、阳性率、患病率等 构成比(proportion):说明某一事物内部,各组成部分所占的比 重,也叫百分比。 构成比=(某部分观察单位数/各组成部分观察单位总数)×100% 如:教研室20人中高级职称有5人,占25%。 相对比(relative ratio):是A、B两个有关指标之比,说明A是 B的若干倍或百分之几,通常用倍数或分数表示。如:男:女、医生: 护士、教师:学生
简单表(simple table):只按一个特征或标志分组。 如表2-8 。
复合表(combinative table) :按两个或两个以上特 征或标志结合起来分组。如表2-9。
3、不良统计表的修改
表 2-15 第三组病人各年存活及死亡情况 (原表)
年份 (1)
病例数 (2)
存活数 (3)
住院期死 亡总例数