数据统计学处理方法与选择
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(一)单变量计量资料的分析
1、样本均数于已知总体均数比较
1、一般健康孕妇生产男孩的出生体重为3kg。随 机抽样调查某地某年15名梅毒感染孕妇生产男孩 的出生体重,得如下数据,问:问梅毒感染孕妇 与健康孕妇生产男孩的出生体重是否有差异?
15名梅毒感染孕妇生产男孩的出生体重(kg):
1.8 2.2
2.2 1.9
肌酐 520 523 209 1033 . 331
胆固 醇 4.1 4.5 3.3 4.1 . 6.1
肾功能 预后 治愈 治愈 治愈 未愈 . 未愈
2、原始数据的录入
在进行统计分析前,原始数据需录入计算机。录入的文件 类型大致有:数据库文件,如dBASE、FoxBASE、Lotus、 EPIinfo等;Excel文件;统计应用软件的相应文件,如SPSS数 据文件、SAS数据文件、STATA数据文件等。目前,上述文件类 型绝大多数都可以相互转换。 录人数据时,应遵循便于录入,便于核查,便于转换,便于 分析的原则。便于录入是指尽可能地减少录入工作量,录入时, 用数值变量取代了字符变量,可以大大节约录入的时间和费用。 便于核查是指一定要设有标识变量,以方便数据核查。便于转换 是指录入数据时要考虑不同软件对字节和字符的要求,便于分析 是指每项研究最好录成一个数据文件,录入的格式满足各种统计 分析的需要,这样才能保证分析数据时的高效和全面 。
2.5
2.0
2.6
2.5
1.6
2.6
1.8
1.7
1.9
2.0
2.6
样本均数与总体均数比较
(一)单变量计量资料的分析
2、配对样本均数比较 3、两样本均数比较
2014-12-26
冯启明
40名艾滋病患者随机分为两组,分别给予A药和B药治 疗,治疗后艾滋病患者血液CD4含量如下,请比较两组 患者治疗后CD4差异。
偏态分布与开口资 料,采用中位数(M) 与四分位数间距 (Q75-Q25)描述
1500~ 2000~ >=2500 合计
8 6 2 74
某人收集到如下的统计资料,从资料表达方式的角度 看,存在的主要错误是什么?该资料应如何进行表达?
艾滋病患者某药治疗前后CD4测定结果
治疗例数 治疗前 治疗后 19 19
187名宾馆女性服务人员年龄分布
年龄分组(岁) <20 频数 21
20~
25~ 30~ >=35
49
89 19 9
计量资料统计描述
集中趋势
离散趋势
全距
四分位数 间距 方差 标准差 变异系数
均数
几何均数 中位数
计量资料描述的常用统计指标选择
集中趋势 指标 适用范围 离散趋势 指标 适用范围
均数
x
件对其的定义为:观察值距箱式图(boxplot)的箱体底线(第25百
分位数)或顶线(第75百分位数)的距离为箱体高度(四分位数间距) 的1.5倍至3倍时被视为离群点,观察值距箱体底线或顶线的距离
超过3倍的箱体高度时被视为极端值。
300
93
250
200
95
150
100
39
50
94
0
体重
二、输入数据的质量控制
第三部分
统计学假设检验方法的选择
选择统计方法的基本思路: 反应变量是单变量、双变量或多变量
数据属于哪种类型资料:计量资料、计数资料或等级资料
(针对单变量数据) 数据所属的设计类型:完全随机设计、配对设计、随机区组设 计或其他设计 影响因素是单因素还是多因素
数据是单一样本、两组样本还是多组样本
数据是否符合拟采用的统计分析方法的应用条件
中位数
率
构成比
构成比
据表中某地、某年梅毒监测资料,计算各年龄的 构成比和梅毒报告发病率
某地、某年梅毒监测资料
年龄(岁)
0203040>=50 合 计
人口数
589452 654935 432567 123794 31129 1831877
梅毒报 构成比/% 发病率(1/万) 告数
19 194 503 536 261 1513
20~
25~ 30~ >=35
49
89 19 9
现检测出11名梅毒患者的血清梅毒抗体滴 度如下,请计算其平均抗体滴度。 1:5 1:20 1:40 1:80 1:80 1:80 1:160 1:160 1:320 1:320 1:640
数据之间呈倍数关系-几何均数
艾滋病患者月均收入的频数表
月均收入(天) <500 500~ 1000~ 人数 31 14 13
20
22
22
25
26
24
28
18
40
21
……………………………………………………………………………. 22 19 19 20 22 25 20 24 22 29 33 31 29 32 38 28 40 26 22 25 18 19
187名宾馆女性服务人员年龄分布
年龄分组(岁) <20 频数 21
第二部分 数据统计描述方法的选择
抽样
总体
样本
抽样误差
统计推断
一、计量资料的描述
某市抽查187名宾馆女性服务人员年龄资料如下
23 25 40 33 18 22 25 33 30 35 18
24
20
22
22
25
26
24
28
18
40
21
……………………………………………………………………………. 22 19 19 20 22 25 20 24 22 29 33 31 29 32 38 28 40 26 22 25 18 19
3、离群数据的处理 若有离群数据出现,可分为两种情况处理:
(1)如果确认数据有逻辑错误,又无法纠正,可直接 删除该数据。例如,若某一数据中某病例的身高变量为 “1755”cm,且原始记录亦如;又无法再找到该病例时, 显然这是一个错误的记录,只能删除。 (2)若数据并无明显的逻辑错误,可将该数据剔除前 后各做一次分析,若结果不矛盾,则不剔除;若结果矛 盾,并需要剔除,必须给以充分合理的解释,例如用何 种方法确定偏离数据,该数据在实验中何种干扰下产生 等。
正态分布或对称分布资料
四分位数 间距 Q75-Q25
标准差 S
偏态数据或“开口数据”
几何均数 对数正态分布或成倍数关 系的数据 G 中位数 M 偏态数据或“开口数据”
正态分布或对称分布资料
某市抽查187名宾馆女性服务人员年龄资料如下
23 25 40 33 18 22 25 33 30 35 18
24
数据统计学处理方法与选择
2014-12-26
第一部分
数据输入与整理
一、原始数据的录入
1、原始数据的记录形式
医学研究的原始数据常列成类似下表的二维结构,即行与列结构的数据集形式。 每 一 行 称 为 一 个 记 录 (record) , 或 一 个 观 察 单 位 (case) ; 每 一 列 称 为 一 个 变 量 Variable),用以表示变量、项目或观察指标等。 肾衰病人预后分析临床资料
统计学方法对缺失值进行填补。对缺失值进行估计填补
具体方法,可参阅有关文献。
二、输入数据的质量控制
3、离群数据的处理 当个别数据与群体数据严重偏离时,被称为离群数据(outlier)。 判断离群数据的方法可通过观察数据的频数表或直方图进行初步 判断;统计软件一般都有判断离群数据的方法,例如,SPSS软
两方法治疗尖锐湿疣疗效比较
组别 例数
控制
30
显效
50
有效
22
无效
38
A方法 150
B方法 130
10
60
48
12
等级资料(多项有序分类资料)
资料统计描述方法
计量资料 集中 趋势 均数 几何均数 离散 趋势
全距 四分位数 间距 方差 标准差 变异系数
分类资料 计数资料
等级资料 二项分类 资料
多项无序 分类资料
2014-12-26
冯启明
二、输入数据的质量控制
1、数据核查 数据录入后,首先须对录入的数据进行核查,以确 保录入数据的准确性和真实性。核查准确性可分两步进 行。第一步逻辑检查,通过运行统计软件中的基本统计 量过程,列出每个变量的最大值与最小值,如果某变量 的最大值或最小值不符合逻辑,则数据有误;第二步将 原始数据与输入数据进行核对,更正错误。 在一些大型数据的录入过程中,为保证数据的质量, 往往采用对同一资料进行双人重复录入的方法,然后应 用程序对两个数据库进行比对,如有录入结果不符,则 进行核查,找出其错误所在。
A药组 365 394 373 375 358 370 350 410 360 B药组 348 355 319 354 352 356 324 356 350 C药组 360 368 386 369 352 371 374 368 372
完全随机设计多样本比较
按性别相同、年龄相近、病情相近把33例艾滋病患者配成11个 区组,每区组3个患者,分别给予A药、B药和C药治疗。治疗后 患者血浆中的IGA含量见表。问经三种不同药物治疗后该病患者 血浆中IGA含量有无差别? A药 B药 C药 1.67 1.77 2.10 随机区组 2.04 2.03 2.07 设计计量 1.38 1.45 1.48 资料 1.02 1.09 1.07 1.29 1.15 1.92 1.32 1.05 1.28 1.17 1.26 1.08 2.12 1.87 2.07 1.64 1.72 1.65 1.75 1.85 2.45 1.65 1.56 1.38
病人 编号 1 2 3 4 . 274
病案 号
004757 007950 011093 017555 . 279183
性 别 男 Hale Waihona Puke Baidu 男 男 . 女
年龄 26 31 55 25 . 78
生理 评分 14 13 17 9 . 15
肾毒 黄疸 性 无 无 无 有 . 有 有 无 无 无 . 无
昏迷 无 无 无 无 . 无
治疗后艾滋病患者血液CD4含量
A药
B药
200, 250,300, 500 , 1005, 350, 280, 450,600, 780 1400,1250,1580,1890,900 1104,1589,789, 698, 1560 完全随机设计两样本均数比较
两种方法检测 7名艾滋病患者的血液 CD4含量, 所得结果如下。问:甲乙两法检出 CD4 含量 是否相同,用何统计方法?
样本号 乙 法 甲 法 1 2 3 4 500 625 5 485 508 6 185 175 7 650 761
270 540 125 329 602 101
配对设计计量资料
(一)单变量计量资料的分析
4、多个样本均数比较
某研究者将 27 只感染艾滋病雄性猩猩随机分成三组(每组 9 只),给予不同处理,观察12周。测定。处理前后血液中的CD4 升高值见下表。问三组的CD4升高值是否相同?
50 40 90 40 30 70
其他
40 20 60
干预组 150 对照组 120 合计 270
资料 类型
多项无序分类资料
案例2
请选择适当指标描述两组结果。
两方法治疗尖锐湿疣疗效比较
组别 例数 有效 无效
A方法
B方法
150
130
112
118
38
12
两项分类资料
案例3
请选择适当指标描述两组结果。
xs
24ª38 1008ª1586
标准差 大于均 数,提 示明显 偏态。
明显偏态资料-采用中位数描述平均水平,由于例 数太少,采用最大值-最小值反映离散。
二、分类资料的统计描述
案例1
请选择适当指标描述该两组资料结果。 艾滋病健康教育干预组与对照组的职业构成
组别
例数
工人
20 30 50
个体户 职员
二、输入数据的质量控制
2、缺失值的处理 在资料收集过程中,特别是大型数据的收集,不可避免的会 有一些缺失值产生,这主要来自于资料收集中的漏填和漏报。通 常认为,缺失值应控制在数据记录总量的10%以内。在计算机的
数据录入过程中,要注意把缺失值和“0”区分开来,“0”通常用
来表示“无”,即该事件未发生,具有确切的含义,表明该数据 已收集到;而缺失值表示该数据未填或未收集,两者要注意区分,
以免混淆。在一般的数据库软件中,缺失值通常都用“.”表示。
二、输入数据的质量控制
2、缺失值的处理
在资料分析中,如一例记录的某个变量有缺失值, 统计分析软件都会自动把该例作删除处理。因此,当资 料可避免地产生了缺失值,而该例记录由于其他的变量 仍有统计分析的价值,或者当删除该例记录后样本例数 太少,不能保证数据分析结果的可靠性时,则可用一些
某医院用某中药给8名吸毒者戒毒,在治疗前、治疗后一周、 二周、三周和四周分别测定患者的血清谷丙转氨酶SGPT的变化, 其数据如表5-2所示,试分析各周SGPT值的差别是否有显著性 意义。
ª í 5-2 Ð Ò Ö © Ö Î Á Æ 8Ã û Ñ ª Î ü ³ æ ² ¡ » ¼ Õ ß Ö Î Á Æ Ç ©ó º SGPT Ö µ µ Ä ª ä » ¯ Î Æ Ö Á º ó Ú Ò µ » Ö Ü 188 238 300 140 175 300 207 165 Ú ¶ µ þ Ö Ü 138 220 83 213 150 163 185 130 Ú È µ ý Ö Ü 63 188 100 144 100 144 122 l00 Ú Ë µ Ä Ö Ü 54 144 92 100 36 90 87 65 ¼ Õ » ß ª à º Å 1 2 3 4 5 6 7 8 Î Á Ö Æ Ç © 63 90 54 45 54 72 64 68