计量资料统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
54
(1)建立检验假设,确定检验水准
– H0: =0 =140g/L,即铅作业男性工人平均血红 蛋白含量与正常成年男性平均值相等 – H1: ≠0=140g/L,即铅作业男性工人平均血红 蛋白含量与正常成年男性平均值不等 – =0.05
55
(2)计算检验统计量
本例 n=36, X =130.83g/L,S=25.74g/L, 0 =140g/L 按公式
受 H1,有统计学意义。结合本题可认为从事 铅作业的男性工人平均血红蛋白含量低于正 常成年男性。
57
二、配对t 检验 (paired / matched t-test)
130.83 140 t 2.138, 36 1 35 25.74 36
56
(3)确定P值,作出推断结论
以=35、 t 2.138 2.138 查 t 界值表,因
t0.05 / 2,35 <2.138 < t0.02 / 2,35 , 故 双 尾 概 率 0.02<P<0.05。按 = 0.05 水准,拒绝 H0,接
38
2.点估计
1.点估计(point estimation):就是用 相应样本统计量直接作为其总体参数的 估计值。如用 X 估计 、S 估计 等。其 方法虽简单,但未考虑抽样误差的大小。
39
2.区间估计(interval estimation)
• 按预先给定的概率 (1) 所确定的包含未知总 体参数的一个范围。 • 总体均数的区间估计:按预先给定的概率(1)
二、t 分布的图形与特征
t 分布只有一个参数,即自由度
t 分布是一簇曲线。当自由度ν 不同时,曲线的形 状不同。当ν 时,t 分布趋近于标准正态分布(u
分布) ,但当自由度ν 较小时,与标准正态分布差异较 大。其图形如下:
34
f(t)
ν─>∞ (标准正态曲线) ν =5
ν =1
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
Байду номын сангаас
4.0
5.0
图3-3 不同自由度下的t 分布图
35
t
1. 特征
•
• •
单峰分布,以0为中心,左右对称;
自由度ν越小,则t值越分散,t分布的峰部
越矮而尾部翘得越高;
当ν逼近, S X 逼近 ,X t分布逼近u分布,可
将标准正态分布看作是t分布的特例。
45
假设检验的一般步骤
1.建立检验假设,确定检验水准
• (3) 检验水准,过去称显著性水准,是预
先规定的概率值,它确定了小概率事件的
标准。在实际工作中常取 = 0.05。可根据 不同研究目的给予不同设置。
46
假设检验的一般步骤
2. 计算检验统计量
• 根据变量和资料类型、设计方案、统计推
断的目的、是否满足特定条件等(如数据
的分布类型)选择相应的检验统计量。
47
假设检验的一般步骤
3. 确定P值
• P的含义是指从H0规定的总体随机抽样,抽 得等于及大于(或/和等于及小于)现有样本 获得的检验统计量(如t、u等)值的概率 • 当零假设成立时,得到所观测的数据或者 更极端的数据的概率 • Fisher把0.05,20分之1作为小概率标准
为 ,样本均数的标准差为 / n。
抽样分布
抽样分布示意图
27
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的变异越
小说明估计越精确,因此可以用标准误表示抽样误 差的大小:
X
n
实质:样本均数的标准差
28
三、标准误(Standard Error)
实际工作中,σ常属未知,而是用样本标准差s来估
• 假设检验:参数的值是否等于某个特别感 兴趣的值
24
内容
1. 均数的抽样误差与标准误 2. t分布 3. 总体均数的估计 4. 假设检验的一般步骤 5. 假设检验注意事项
25
1. 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息
研究总体。由于个体存在差异,因此通过样本推
概率
• 描述随机事件发生的可能性大小的数值, 常用P表示 • 小概率事件:习惯上将P<0.05称为小概率 事件
统计描述
8
统计图表
• 茎叶图
9
两组数据
10
点图
• dotplot lead, over(group)
4 lead 0 1 2 3
1 group
2
11
箱图
• graph box lead, over(group)
计量资料的统计分析
邹宇量 武汉大学健康学院
统计工作的步骤 1. 设计:问题?目的?假设?实施……
2. 搜集资料
3. 整理资料 4. 分析资料:统计描述、统计推断(估计、 假设检验) ——科学研究思路,假设、实证
2
基本概念
变量的概念
• 观察单位、个体:可以是一个人,一个家庭、 一个地区、一个样品、一个采样点等 • 变量( variable ):对每个观察单位某项特征 进行测量,所得观察单位的特征值
10 g / L
• 女性为110-150g/L 130 g / L 10 g / L
115 140 2.5 10
110 130 2 10
18
u变换
u
X
19
标准得分:u变换
• 标准得分:比较苹果和橘子,馒头和包子(不同
质) • 不同的变量一般有不同的均值和标准差。统计上, 均值和标准差不同时,一个变量的值不能与另一 个变量的值相比较
所确定的包含未知总体均数的一个范围。
如给定=0.05,该范围称为参数的95%可信区间
或置信区间;
如给定=0.01,该范围称为参数的99%可信区间
或置信区间。
40
二、总体均数可信区间的计算
• 总体均数可信区间的计算
• 需考虑:
– (1)总体标准差是否已知, – (2)样本含量n的大小
• 通常有两类方法:
论总体时会存在一定的误差,如样本均数往往不 等于总体均数,这种由抽样造成的样本均数与总 体均数的差异称为抽样误差。对于抽样研究,抽 样误差不可避免。
26
二、抽样误差分布
• 理论上可以证明:若从正态总体 N( , 2 )中,反复多 次随机抽取样本含量固定为n 的样本,那么这些 样本均数 X 也服从正态分布,即 X 的总体均数仍
• 解决办法:将原始得分换算成标准得分,得到得
分与均值的相对距离
20
u变换
u
X
绝对距离
21
u界值表
参考值范围(%) 80 90 95 99 单 侧 0.84 1.28 1.64 2.33 双 侧 1.28 1.64 1.96 2.58
22
统计推断
23
统计推断
• 估计:主要任务是找参数等于几
即 u 分布;
31
X 服从总体均数为 、 2.若样本均数
2 N ( , ) ,则通 总体标准差为 X 的正态分布 X
过同样方式的 u 变换( X
X
)也可将其转换为
标准正态分布 N(0, 12),即 u 分布。
32
ν:自由度(degree of freedom, df)
33
36
u变换和 t 变换
u X
绝对距离
标准差
处理来自正态分布的个体值X时, 计算标准得分
X u / n X t s/ n
处理样本均值时,计算标准得分
标准误
t变换,总体标准差未知
37
第三节 总体均数的估计
一、参数估计
– 用样本统计量推断总体参数。
• 总体均数估计:
– 用样本均数(和标准差)推断总体均数。
4 lead 0 1 2 3
1
2
12
更大的数据
13
频数分布,直方图
14
正态分布及应用
15
正态分布曲线下的面积
.58 1 .96 -5 2 -4 -3 -2 -1
0
1.96 2 1 3
4 2.58 5
68 .3% 95 .0% 99 .0%
16
正态分布的两个参数
• 位置参数μ,形态参数σ
• 若固定σ,改变μ值,曲线沿着x轴平行移动, 形态不变 • 若固定μ,σ越小,曲线越陡峭(瘦),反 之,σ越大,曲线越平坦(胖)
17
正态分布应用:血红蛋白含量比较
问:男115g/L,女110g/L,谁更低?
• 假设:血红蛋白(Hb): • 男性为120-160g/L, 140 g / L
– (1)t分布法
– (2)u分布法
41
第四节 假设检验的一般步骤
假设检验基本思想及步骤
• 假设检验过去称显著性检验。它是利用小概
率反证法思想,从问题的对立面(H0)出发间
接判断要解决的问题(H1)是否成立。然后在
H0成立的条件下计算检验统计量,最后获得
P值来判断。
42
实例
例3-5 某医生测量了36名从事铅作业男性工人 的血红蛋白含量,算得其均数为130.83g/L, 标准差为25.74g/L。问从事铅作业工人的血红 蛋白是否不同于正常成年男性平均值140g/L? 130.83g/L ≠140g/L 原因: 1.可能是总体均数不同 2.是抽样造成的
50
若P , 按所取检验水准 , 拒绝 H 0 , 接受 H1 ,下“有差别”的结论。其统计学依 据是,在 H 0 成立的条件下,得到现有检验结 果的概率小于 ,因为小概率事件不可能在 一次试验中发生,所以拒绝 H 0 。
51
• 若
P
,是否也能下“无差别”或“相等”的结论?
不能。正确的说法是按所取检验水准 ,接受
44
• 对于检验假设,须注意:
– ③H1的内容直接反映了检验单双侧。若H1中只 是 0 或 <0,则此检验为单侧检验。它不 仅考虑有无差异,而且还考虑差异的方向。 – ④ 单双侧检验的确定,首先根据专业知识,其 次根据所要解决的问题来确定。若从专业上看一 种方法结果不可能低于或高于另一种方法结果, 此时应该用单侧检验。一般认为双侧检验较保守 和稳妥。
48
• 例3-5的P值可用图3-5说明,P为在
=0=140g/L的前提条件下随机抽样,其
t 小于及等于-2.138和大于及等于2.138的 概率。
49
.4
.3
f(t)
.2
.1
P
0.0 -5.0 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 5.0
t
图3-5 例3-5中P值示意图
X X X 0 t , n 1 SX S n S n
单样本:最简单的情形
53
• 例3-5 某医生测量了36名从事铅作业男性 工人的血红蛋白含量,算得其均数为 130.83g/L,标准差为25.74g/L。问从事铅 作业工人的血红蛋白是否不同于正常成年 男性平均值140g/L?
43
假设检验的一般步骤
1.建立检验假设,确定检验水准(选用单侧或双 侧检验)
– (1)无效假设又称零假设,记为H0; – (2)备择假设又称对立假设,记为H1。
• 对于检验假设,须注意:
– ①检验假设是针对总体而言,而不是针对样本; – ②H0和H1是相互联系,对立的假设,后面的结论 是根据H0和H1作出的,因此两者不是可有可无, 而是缺一不可;
4
变量类型
变量类型
定量变量
变量值表现
数值的大小
例
身高、血压、红细胞数
分类变量
无序:二项 多项
定性(不相容的 类别)
对立的两类 不相容的多类 疗效:治愈、未愈 血型:A、B、AB、O 疗效:治愈、显效、好 转、无效
5
有序(等级)
类间有程度差别
总体与样本
• 总体(population):根据研究目的确定 的同质的观察单位的全体 • 样本(sample):从总体中随即抽取部分 观察单位的集合
计,于是标准误(估计值)可由下式得出:
X
n
sX
s n
29
标准误
第二节 t 分布
一、t 分布的概念
1.若某一随机变量 X 服从总体均数为 、总体
2 N ( , ) ,则可通过 u 变换 标准差为 的正态分布
(
X
)将一般正态分布转化为标准正态分布 N(0,12),
H1 的统计证据不足。其统计学依据是,在 H1 成立的
条件下,如果试验样本少,也同样可以得到 P 的 检验结果,我们不知道下“无差别”或“相等”的结 论犯错误的概率有多大, 也就是说, 假设检验方法不 能为我们提供相信“无差别”结论正确的概率保证。
52
一、单样本 t 检验(one sample / group t-test) • 即样本均数 X (代表未知总体均数 )与已 知总体均数 0( 一般为理论值、标准值或经 过大量观察所得稳定值等 ) 的比较。其检验 统计量按下式计算