数据处理的一般原则与方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
号
别龄
分
性 疸迷
醇
后
1 004757 男 26 14 无 有 无 520 — 治愈
2 007950 女 31 13 无 无 无 523 4.5 治愈
3 011093 男 55 17 无 无 无 209 3.3 治愈
4 017555 男 25 9 无 无 无 1303 4.1 治愈
┇
┇ ┇┇ ┇ ┇ ┇┇ ┇ ┇
┇
274 279183 女 88 15 有 无 无 331 6.1 丧失
行:观察单位
列:变量
18
肾衰病人预后研究的临床资料记录
病人
生理 肾毒
胆固 肾功能
编号 病案号 性别 年龄 评分 性 黄疸 昏迷 肌酐 醇 预后
1 004757 男 26 14 无 有 无 520 — 治愈 2 007950 女 31 13 无 无 无 523 4.5 治愈 3 011093 男 55 17 无 无 无 209 3.3 治愈 4 017555 男 25 9 无 无 无 1303 4.1 治愈 ┇ ┇ ┇┇┇ ┇ ┇ ┇ ┇ ┇ ┇
第29章
数据处理的 一般原则与方法
寒亭区 人民医院
1
讲课内容:
第一节 医学统计学概述(重点) 第二节 原始数据的录入 第三节 数据处理的几个基本问题 第四节 统计方法选择的基本思路(重点)
2
第一节 医学统计学概述
3
医学统 计学
研究 设计
数据 处理
观察性研究 (调查)
实验性研究
统计描述 统计推论
根据: 医学专业知识 医学统计学知识 计算机统计软件技术
26
设计类型:完全随机、随机区组、拉丁方、 交叉、析因、正交、嵌套、裂区设计
处理因素:单因素、双因素、多因素 反应变量:单变量、双变量、多变量 资料类型:计量、无序分类、有序分类 样本数目:单样本、两样本、多样本 数据提供信息:完全数据、不完全数据、
14
统计推论
1.进行检验假设 假设样本来自某一特定总体
2.确定检验水准
假设 确定最大允许误差 检验 3.选定检验方法计算检验统计量 步骤 计算样本与总体的偏离程度
4.根据一特定分布计算与检验统计 量对应的P值
5.作出结论 根据小概率反证法思想作出推断
15
统计推论
假设 检验 方法
比较差别:2、t、u、F、q、log-rank 、 秩和检验等
联系:相关、回归分析 分类:聚类、回归分析 鉴别:判别分析 推测:回归分析 筛选影响因素:回归分析 综合变量信息:主成分分析 寻找潜在支配因素:因子分析
16
第二节 原始数据的录入
17
一、原始数据的记录形式
肾衰病人预后研究的临床资料记录
病人编 病案号 性 年 生理评 肾毒 黄 昏 肌酐 胆固 肾功能预
极端值(extreme value) 与P25或P75的距 离为“四分位数间距”的3.0倍以上。
剔除离群或极端值要予以合理解释。
23
三、统计方法前提条件的检验
多样本比较的方差分析: 独立 正态分布 方差齐性
多重线性回归分析: 变量间无多重共线 残差分布正态
┇
24
第四节 统计方法选择
的基本思路
25
3 011093 男 55 17 无 无 无 209 3.3 治愈
4 017555 男 25 9 无 无 无 1303 4.1 治愈
┇ ┇ ┇┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇
274 279183 女 88 15 有 无 无 331 6.1 丧失
解释变量
反应变量
标识变量
分析变量
20
二、原始数据的录入
文件类型: 数据库文件:EpitaDa
274 279183 女 88 15 有 无 无 331 6.1 丧失
标识变量
分析变量
19
肾衰病人预后研究的临床资料记录
病人
生理 肾毒
胆固 肾功能
病案号 性别 年龄
黄疸 昏迷 肌酐
编号
评分 性
醇 预后
1 004757 男 26 14 无 有 无 520 — 治愈
2 007950 女 31 13 无 无 无 523 4.5 治愈
对照
空白
实验
设置 安慰剂
基本原则 随机化
标准 相互
重 复 1-
(样本含量) 、、
7
统计描述
一张表表达一个中心内容
制表原则 主语在左、宾语在右
统计表 制表要求
简单明了
标题 标目 线条 数字 备注
8
统计描述
统计图
制图原则 制图要求
间断性资料:
条图、圆图、百分比条图
ቤተ መጻሕፍቲ ባይዱ连续性资料:
线图、直方图、散点图
标题 标目 纵轴、横轴 刻度 图例
9
统计 指标
统计描述
计量资料
(单变量)
中心 正态: X、M
位置
对数正态: XG 非正态: M
正态 量纲相同:S
离散
个体值
量纲不同:CV
非正态:QR
程度 样本均数: S
X
计量资料 r、b
(双变量) 离散程度:Sb、Sr
10
统计描述
统计 指标
计量资料 (多变量)
中心位置:均数向量 离散程度:离均差矩阵
13
统计推论
X 、p 、r 、b
点估计 S 、S2 2
参数
S X
X、Sp
p
估计
双侧:X t / S 2, X
区间 估计
单侧:X t,SX 或 X t,SX 双侧: p u / 2Sp 单侧:p uSp 或 p uSp
RR(OR):RR(OR ) 1u / 2 M 2 H
参数估计 假设检验
4
调查设计
简单随机
研究目的 调查方法
按范围
普查 抽样
概率 非概率
系统
分层随机 整群
横向(现况调查)
调查对象
按时间
纵向
队列研究 病例对照研究
调查指标
调查工具
调查员
5
实验设计
动物实验 实验分类 临床试验
社区干预试验
处理因素 基本要素 受试对象
实验效应
6
实验设计
原则:均衡可比
类型:配对、组间
dBASE、FoxBASE、Foxprow Oracle Excel文件: Excel 文本文件:Word 统计软件数据文件:SPSS、SAS、STATA 变量名的定义: 变量值的量化:
21
第三节 数据处理 的几个基本问题
22
一、数据的净化
逻辑检查 计算检查
二、离群数据的处理
离群值(outliner) 与P25或P75的距离为 “四分位数间距”的1.5~3.0倍。
协方差矩阵 相互关系:相关矩阵
11
统计描述
统计 指标
绝对数、率、构成比、
计数资料 相对比 、RR(OR)
离散程度:标准误
等级 资料
单变量
秩号、秩和 离散程度:秩和的标准误
双变量:rs
12
统计描述
参考 值 范围估计
正态 偏态
双侧: X u/ 2S 单侧:X uS 或 X uS 双侧:px ~ p100x 单侧: px 或 p100x