2014_02 统计学的几个基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
费别
X5 1 2 2 1 2 3 3 1 2 2
治疗 死亡 效果 X6 X7 1 1 1 0 1 0 1 0 2 1 1 0 2 0 1 0 1 0 1 0
性别: 1=男 2=女,费别: 1=自费 2=医保 3=公费, 治疗效果: 1= 治愈 2=好转 3=无效, 存活:0=存活 1=死亡
2.计数资料(enumeration data, Nominal)
二、变量与资料
病历号 医疗费用 年龄 身高 性别 (元) (岁) (cm) OBS X1 X2 X3 X4 1 2492 43 177.0 1 2 2665 40 171.2 1 3 4495 57 180.7 2 4 3231 51 171.0 1 5 2567 56 169.5 1 6 2005 53 174.9 1 7 1926 61 174.8 1 8 6580 53 175.8 2 9 1973 35 175.4 1 10 2218 50 170.4 1 …… 费别 X5 1 2 2 1 2 3 3 1 2 2 治疗 死亡 效果 X6 X7 1 1 1 0 1 0 1 0 2 1 1 0 2 0 1 0 1 0 1 0
1.计量资料(measurement data, Scale) 定量观察结果,通常有度量衡单位。 绝大多数情况下是连续性变量,但也可以 是间断性变量,如某市每天因交通事故死 亡的人数X1。
OBS(日) 1 2 3 4 5 31 X1(人数/日) 2 0 1 9 5 12
病历号 医疗费用 年龄 身高 性别 (元) (岁) (cm) OBS X1 X2 X3 X4 1 2492 43 177.0 1 2 2665 40 171.2 1 3 4495 57 180.7 2 4 3231 51 171.0 1 5 2567 56 169.5 1 6 2005 53 174.9 1 7 1926 61 174.8 1 8 6580 53 175.8 2 9 1973 35 175.4 1 10 2218 50 170.4 1 ……
半定性或半定量的观察结果。 观察结果之间有大小等级和程度的差别, 但不能精确比较。 统计时经常清点绝对数。
ordinal categorical data categorical data
死亡 11 无效 23 有效 70 治愈 99
A型 B型 AB型 O型
33 54 42 60
4.资料转换 定量 定量(记分)
半定量(多分类) 二分类
三、误差
观察结果=真值+系统误差+随机误差
1.随机误差:
影响因素众多,大小变化无规律。无方向性。
2.系统误差
受确定因素影响,大小变化有方向性。
3.非系统误差(过失误差)
研究者偶然失误而造成的误差。
四、频率与概率
1.频率(relative frequency) 一个随机 试验“阳性”结果发生率. 实验者 投掷次数 出现( f ) 频率 “正面”次数 Buffon 4040 2048 0.5069 K. Pearson 12000 6019 0.5016 K. Pearson 24000 12012 0.5005
郭祖超(1912~1999) 编著的《医学与生物统 计方法》,1948年由正 中书局出版,被当时的 教育部颁定为“大学用 书”,是我国第一部医 学统计方法的教材。
练习题
1.作为硕士研究生,为什么要学 习医学统计学? 2.下载相关教学课件,获得你的 临床观察数据,做描述性统计。
n
在相同条件下,独立地重复n次试验, 随机事件A出现 f 次,则称 f/n 为随机事 件A出现的频率。
2.概率(probability) 概率是描 述随机事件发生可能性大小的一个度 量。
当n逐渐增大时,频率接近一个常数。 该常数c称为为随机事件A发生的概率,记 为P(A)= c,简记为P=c。
当P ≤0.05,称A为小概率事件。 小概率事件如果在一次试验中发生, 如(连续投掷50次硬币都是“正 面”),可能有特殊原因。统计上 特别关心一次试验中小概率事件是 否发生。 统计上估计概率值( P值)主 要依据概率分布,如正态分布、t 分 布等。
推论统计: 用样本数据特征推论总体数据特 征。 如何评价样本对总体的代表性? (1)是否是随机样本? (2)是否有足够的观察例数?
6.抽样误差(sampling error) 样本均数=总体均数?
样本均数是随机变量,总体均数是常数。
同质总体中,随机样本统计量与总 体参数的差异,称为抽样误差。 在抽样误差存在的情况下,如何保证 “样本推论总体”的结论是正确的?
2.样本(sample) (1)实体样本
实际得到的观察单位
随机样本
随机抽样获得的样本
非随机样本
(2)样本数据
样本测量值。
X1=性别,X2=年龄,X3=身高,X4=体重, X5=体重指数,X6=收缩压,X7=舒张压,……
同性别、同年龄身高值的实际测量值 同性别、同年龄体重值的实际测量值 ……
RCT设计示意图
干预
日历时间
实验设计的三个基本原则
•随机(randomization) •重复(replication) •对照(control)
试验完成后再找统计学家,无异于
请统计学家为试验进行“尸体解剖”。
统计学家只能告诉你试验源自文库败的原 因,但为时已晚。
—— R. A. Fisher
二、搜集资料
研究生教学用书《医学统计学(第三版)》
第一章 绪论
第一节 统计学的几个基本概念
一、总体与样本
1.总体(population)
(1)实体总体 特定范围内所有同
质(homogeneity)观
察单位的集合。
有限总体(finite population)
可获得抽样框架(sampling frame)
第二节 医学统计工作的基本步骤 一、设计
二、搜集资料
三、整理资料 四、分析资料
一、设计
按是否施加干预划分: 1.实验性研究, 前瞻性研究 2. 观察性研究 , 调查研究,现况研究或回顾 性研究 “因果推论”的研究需要严格的实验设计 (experiment design),如随机对照试验,即
RCT的研究。
实验性研究需要收集一手数据,即前瞻性 研究。 观察性研究可以收集报告数据,日常临 床工作记录(如病历),或历史数据(回顾 性研究)。
三、整理资料
同质性分组与数据表达 同质性分组: 性别 年龄组 病种 …… 数据表达:
平均住院日 平均费用 治愈率 死亡率 ……
四、分析资料
1.统计描述: 计算统计指标,描述差别 2.统计推论:试验结果的重复性?
3.变量 实体总体或样本的测量值,也称为变量
(variable)。最简单的情况是单变量。
抽样
总体均数(RBC,F)
样本 均数 (RBC,F)
4.总体参数(parameter) 表示总体特征的统计指标,如总体均数、总体率。 5.统计量(statistic) 样本特征的统计指标,如样本均数、样本率。
3.统计解释:“因果”还是“关联”?
第三节 统计学发展简史
S.D. Poisson ( 1781 ~ 1840 ), 法国数学家的学生 J. Gavarret , 1840 年在巴黎出版了 《医学统计 学》,是世界上第一部医学统计教 科书。 1948 年 ,第一个 RCT 的临床试 验(英国)。
定性观察结果,二分类或多分类。统 计时经常清点绝对数(count data)。 (1)二分类:两类间相互对立,互不 相容。 ( 2 )多分类:如观察某人群的血型分 布,以人为观察单位,结果可分为A型、 B型、AB型与O型,为互不相容的四个类 别。
3.等级资料(ranked data, Ordinal )
无限总体(infinite population )
不能获得抽样框架
抽样 样本 (n)
实际总体 (N) 还是抽象总体(?)
(2)数据总体 特定范围内所有同
质观察单位测量值的
集合。
X1=性别,X2=年龄,X3=身高,X4=体重,X5=体重指数,
X6=收缩压,X7=舒张压,……
同性别、同年龄身高值的集合 同性别、同年龄体重值的集合 ……