数据处理PPT课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

178
已婚
7

174
已婚
8

170
已婚
9

167
离异
10

186
离异
11

182
分居
12

159
分居
13

167
分居
14

182
分居
不同性别的婚姻状况
婚姻状况
单身 已婚 离异 分居
性别 男女 21 23 11 22
婚姻状况 性别 频数
单身

2
已婚

2
离异

1
分居

2
单身

1
已婚

3
离异

1
分居

2
研究频数分布的意义
200名学生的血型
O
A
B
AB
65
72
38
25
合计 200
二维频数表
表 两组新生儿 HBV 感染率的比较
组别
阳性
阴性 合计
感染率 (%)
预防注射组 4
18
22
18.18
非预防组
5
6
11
45.45
合计
9
24
33
27.27
高维频数表
表 新旧两药物治疗某种疾病的222三维列联表
药物 治疗结果
病情( Z )
类别。
1.定性变量通常属于离散型数据 (discrete data)
2.这些数据全都是整数,而且不能再细 分,也不能进一步提高他们的精度
定量变量(Quantitative Variable)
也称为:度量数据(measurement data)
例如:长度、时间、数量和血压值
1.定量数据通常属于连续型数据 (continuous data)。
婚姻状况 单身 单身 单身 已婚 已婚 已婚 已婚 已婚 离异 离异 分居 分居 分居 分居
状况14名成人的婚姻
婚姻状况 频数
单身
3
已婚
5
离异
2
分居
4
合计
14
原始数据整理成二维频数表
14名成人的原始数据
编号
性别
身高 婚姻状况
1

175
单身
2

167
单身
3

187
单身
4

176
已婚
5

167
已婚
6

频数(frequency)——将定量数据分类成若 干个组段,或将定性数据分类成若干个类别, 所清点得到的每一组段或类别的数据出现个数。
定量数据的频数分布
当观测值不多(n≤30)时,不必分组,直
接进行统计分析。
当观测值较多(n>30)时,宜将观测值分成若
干组,以便统计分析。将观测值分组后,制成频 数分布表,即可看到资料的集中和变异情况。
2.这类数据通常是非整数,虽然有时记载的 是整数,提高精度后,会出现小数。
观察单位 observations 个体 individuals
住院号 年龄 2025655 27 2025653 22 2025830 25 2022543 23 2022466 25 2024535 27 2025834 20 2019464 24 2025783 29
2、有序疗效等级:显效、有效、好转、无效
4
3
21
Hale Waihona Puke Baidu
赋值的合理性?
丢失信息
定量变量--定性变量
例:一组2040岁成年人的血压

<8
低血压 定量变量
8 正常血压
序 分 类
12 15
轻度高血压 中度高血压
定性变量
17 重度高血压
以12kPa为界分为正常与异常两组,统计每组例数
数据的整理
频数分布表
变量 variables
分娩方式 顺产 助产 顺产
剖宫产 剖宫产
顺产 助产 助产 剖宫产
妊娠结局 足月 足月 足月 足月 足月 早产 早产 足月 足月
Quantitative data Qualitative data
定量数据
定性数据
定量变量的离散化 与有序分类变量的数量化
1、实际年龄---------少年、青年、中年、老年 丢失信息
组段
(1)
2.7~ 3.1~ 3.5~ 3.9~ 4.3~ 4.7~ 5.1~ 5.5~ 5.9~6.3
表 2.4 频数、频率与累计频率
划记
频数(f)
频率
(P)%
累计频数
(fc)
(2)
(3) (4) (5)
正-
6
4.00
6
正正T
12
8.00
18
正正正正正
25
16.67
43
正正正正正T
28
18.67
频数表的编制步骤
(1)求极差(range): 即最大值与最小值之差,又称为全距。
(2) 决定分组组数、组距
根据研究目的和样本含量n确定分组组数,通常分为10~15个
组。组距=极差/组数。 (3) 列出组段
第一组段的下限略小于最小值,最后一个组段上限必须包含 最大值。 (4)在频数表中列出全部组限、组界及中值。 (5) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频 数。 (6) 计算频率:Pi=fi /n, (7) 计算累计频数(fc) (8) 计算累计频率: Pc=fc /n
身高 体重 165 71.5 160 74.0 158 68.0 161 69.0 159 62.0 157 68.0 158 66.0 158 70.5 154 57.0
Units;elements
住院天数 5 5 6 5 11 2 4 3 7
职业 无 无
管理员 无
商业 无 无 无
干部
文化程度 中学 小学 大学 中学 中学 小学 中学 中学 中学
1 可以看出数据的集中情况 2 可以直观的看出数据的变异情况 3 可以看出图形的形状
常用的统计图
直方图(Histogram): 用于描述定 量变量的数据分布特征。
人数
35 30 25 20 15 10
71
正正正正正正-
31
20.67
102
正正正止
19
12.67
121
正正正
15
10.00
136
正上
8
5.33
144
正-
6
4.00
150
累计频率
(Pc)%
(6)
4.00 12.00 28.67 47.33 68.00 80.67 90.67 96.00 100.00
定性数据的频数分布
一维频数表
血型 观测数
( X ) (Y ) 不严重
严重
新药
治愈 未愈
98 5
986 9125
旧药
治愈 未愈
5251 5820
49 1051
原始数据整理成一维频数表
14名成人的原始数据
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
性别 男 女 男 女 男 女 男 女 男 女 男 女 男 女
身高 175 167 187 176 167 178 174 170 167 186 182 159 167 182
第二章 统计数据的收 集与整理
抽样
偏性抽样 随机抽样
放回式抽样 非放回式抽样
试验资料的数据类型
定性变量
也称为:计数数据
(1)名义变量二项分类 性别分类,如男性为1,女性为0。
多项无序分类 血型的A、B、AB、O型多项无序分类
(2)有序(等级)变量 多项有序分类
疗效观测分为显效、有效、好转及无效4 个
相关文档
最新文档