第六章分类资料的统计推断(pdf 6)

合集下载

6 统计推断

6 统计推断

第六章统计推断第四章研究了随机变量的几种分布律,总体如何配合样本,第五章讲的是样本统计量的分布规律,这些都属于总体与样本之间关系的第一个方面。

本章讨论第二个方面,即如何通过样本来推断总体。

由样本推断总体是以各种样本统计量的抽样分布为基础的。

所谓统计推断是指根据样本以及问题的条件和假定模型对未知事物(即总体)作出的以概率形式表述的推断,它主要包括假设检验和参数估计两个内容。

对所估计的总体提出一个假设,例如假设这个总体的平均数μ等于某个值μ0(μ= μ0),然后通过样本数据去推断这个假设是否可以接受。

如果可以接受,样本很可能抽自这个总体;否则,很可能不是抽自这个总体。

这一统计推断过程就是所谓的统计假设检验。

第一节单个样本的统计假设检验一、一般原理及两种类型的错误二、单个样本显著性检验的程序三、在σ已知的情况下,单个平均数的显著性检验—U 检验四、在σ未知时平均数的显著性检验——t 检验五、变异显著性的检验—x 2检验一、一般原理及两种类型的错误例1 用实验动物做实验材料,要求动物平均体重μ=10.00g ,若μ<10.00g,则需再饲养,若μ>10.00g则应淘汰。

动物体重是服从正态分布N (μ,σ2)的随机变量。

已知总体标准差σ= 0.40g ,但总体平均数μ是未知的。

为了得出对总体平均数μ的推断,从动物群体中,随机抽取含量为n的样本,通过样本平均数推断总体平均数μ。

(一)基本概念x 零假设是被检验的假设,通过检验可能被接受,也可能被否定。

本例中如果接受H 0:μ=10.00g , 表示该实验条件下饲养的实验动物可供实验用。

这里假设μ=μ0或μ-μ0=0, 称为零假设(null hypothesis),记作H 0:μ=μ0或H 0:μ-μ0=0。

1.假设提出零假设的同时,相应地有一对应假设,称为备择假设(alternative hypothesis),记作H A :μ>μ0, μ<μ0,μ≠μ0。

统计推断

统计推断

经济生活与数学第六单元 统计推断与风险评估课程第六单元 统计推断与风险评估(共四讲)目录CONTENTS课程第一单元 ●第一讲 §6.1 统计推断 ●第二讲 §6.2 全概率公式和贝叶斯公式 ●第三讲 §6.3 风险评估 ●第四讲 §6.4 贝叶斯推断与信用评级经济生活与数学第六单元 统计推断与风险评估 第一讲 统计推断湖南大学 王利平 副教授第六单元第一讲 §6.1 统计推断要点●统计推断的定义与案例 ●信息分类 ●主观概率的意义●统计推断的定义与实例统计推断统计学中根据来自样本的信息 对总体分布规律或总体的数字特征 进行的推断,称为统计推断。

●统计推断的定义与案例案例一 :一位同学和一位猎人去打 猎,发现了一只兔子,两人一起瞄准 目标,枪响了,兔子中了一枪,应声 倒地,是谁射中了兔子?●统计推断的定义与案例推论:这一枪是猎人射中的。

只发一 枪便打中,猎人命中的概率一般大于这 位同学命中的概率。

这个推断体现了 数学中极大似然法的基本思想 。

●统计推断的定义与案例案例二 :2014年3月8日,马航MH370 客机失联,媒体曝光近十年来空难真 相,人们不禁担忧:在通常出行方式 中乘坐飞机还是安全的吗?●统计推断的定义与案例推论:安全。

乘坐飞机出行在通常的出 行方式中发生意外的概率最小。

这个推 断体现了数学中对数据进行统计分析的 基本思想 。

说明:(1)信息和经验很重要; (2)用数学方法量化信息更重要。

●信息分类总体信息信息分类样本信息 先验信息经验 历史资料两大统计学派:经典学派与贝叶斯学派●主观概率的意义先验信息中根据个人经验确定事件 发生的可能性称为主观概率。

请看经济生活中用常用的主观概率 的例子。

●主观概率的意义(1)企业家预测:“某项新产品畅销的可 能性为80%”;(2)外科医生认为:“某位患者手术成功 的可能性为70%”;(3)中学班主任评估:“某位同学考取大 学的可能性为95%”。

医学统计学-分类资料的统计推断

医学统计学-分类资料的统计推断
✓在这样的假设前提下,可以计算各组理论 频数(theoretical frequency) T。
理论频数的计算
理论频数=53 76.15%
处理 试验组
有效 人数
理论 频数
无效 人数
理论 频数
合计 有效率 (%)
43 40.36 10 12.64 53 7861..1153
对照组 40 42.64 16 13.36 56 7761..1453
基本思想
• 四格表确切概率的基本思想是:在四格表的周 边合计不变的条件下,用公式
Pi
(a
b)!(c
d )!(a c)!(b a!b!c!d!n!
d )!
直接计算表内四个数据的各种组合之概率。
每一种组合的概率
a
b
a+b
c
d
c+d
a+c b+d
n
Pi
(a
b)!(c d )!(a c)!(b d )! a!b!c!d !n!
组别 试验组 对照组
合计
表6.2 表6.1资料理论频数的计算
有效 40.36 42.64
83
无效 12.64 13.36
26
合计 53 56 109
T11=53×83/109=40.36;T12=53×26/109=12.64 T21=56×83/109=42.64;T22=56×26/109=13.36。
合计 83
26
109 76.15
Trc
nr nc n
理论频数=56 76.15%
四格表的理论频数由下式求得 :
nn
TRC
RC
n
式中:TRC为第R 行C 列的理论频数, nR为相应的行合计, nC为相应的列合计。

分类资料统计推断-PPT精品文档

分类资料统计推断-PPT精品文档

=
确定P值,作结论: 查t界值表中,υ= ∞ 时,u 0.05 = 1.96 , u 0.01 = 2.5758 , 因而 0.05 >P>0.01 , 则P<α, 拒绝H0, 接受H1, 可以认为两组发病率不同,用药组发病率低于对照组, 说明该草药有预防流感的作用
三、χ2 检验
χ2检验(Chi-square test)用途极广,这里 仅介绍它在分类变量资料中用于推断两 个或两个以上总体率(或构成比)之间 有无差别或有无关联的分析方法。
式中 n 为样本例数,X 为样本阳性数,样本率 p = X/n ;π0 为总体率; 0.5 为连续性校正数,当 n 较大时可以省去,而︱X— nπ︱≤ 0.5 时不 宜采用校正数。
例2 以往经验脑梗塞患者治疗三周的生活能力改善率为30 % ,某 医院用新疗法治疗38例的三周生活能力改善率为50 % ,能否认为新疗 法的改善率与以往不同? 此为样本率与总体率比较:且n p和 n(1-p) 都大于5,故用u检验。
1、总体率的估计:
总体率的估计有两种方法,一是正态分布法,二是 查表法。
★正态分布法 适用于样本较大,且p和/或1-p都不太小, 如np和n(1-p)都大于5时。计算公式为:
p u s , p u s
p p
★查表法 适用于小样本。利用样本含量2
8 7 . 1 0
甲 氰 咪 胍 组 合 计
4 4( 4 9 . 8 ) 9 8
2 0( 1 4 . 2 ) 2 8
6 4 1 2 6
6 8 . 7 5 7 7 . 7 8
设 H 0 : 1 2 H 1: 1 2
α= 0.05 计算统计量χ2值: χ2值的基本公式为:
2

分类资料的推断与x2检验统计学课件

分类资料的推断与x2检验统计学课件
主要用于检验分类变量之间是否存在关系。
3
联系
两者都是用于检验变量之间关系的统计方法,但 所针对的变量类型不同,一个是连续变量,一个 是分类变量。
X2检验与回归分析的比较
回归分析
主要用于研究一个或多个自 变量对因变量的影响,并估 计自变量对因变量的预测值

X2检验
主要用于检验分类变量之间 的关系,不涉及预测值的估
分类资料的常见类型
总结词
分类资料的常见类型包括计数资料、等级资料和属性 资料等。
详细描述
计数资料是指对某一事件或现象发生的次数进行计数的 数据类型,例如某地区的人口数量、某时间段内交通事 故发生的次数等。等级资料是指将观察对象按照某种属 性或特征进行等级划分的数据类型,例如按照病情严重 程度将病人分为轻症、中症和重症等。属性资料是指对 个体或单位按照某种属性或特征进行分类的数据类型, 例如性别、婚姻状况、血型等。
数据整理
对数据进行整理,确保数据符合X2检验的要 求。
实际案例分析:拟合优度检验
建立期望频数
根据理论分布,建立期望频数。
计算实际频数和期望频数
统计实际频数和期望频数,并计算X2值。
判断显著性
根据X2值和自由度,判断显著性水平。
结论推断
根据显著性水平,得出结论并解释结果。
04
X2检验的优缺点与注意事 项
贝叶斯推断
贝叶斯推断是一种基于概率的统计方法,它能够将先验信息与样本数据相结合,进行更准确的推断。近年来,贝叶斯 方法在分类资料推断中得到了广泛应用,如贝叶斯分类器、高斯过程回归等。
集成学习方法
集成学习是一种通过结合多个学习器来提高预测性能的方法。在分类资料推断中,集成学习方法如 bagging、boosting等被广泛应用于提高模型的稳定性和预测精度。

第六章分类资料的统计推断

第六章分类资料的统计推断

1不满足正态近似条件,所以采用直接计算概率法。

H0:加维生素C的治愈率与不加相同,即π=π0=0.6H1:加维生素C的治愈率高于不加维生素C,即π>π0α=0.05P(X≤8)=1-P(X≥9)=1-P(X=9)-P(X=10)=1-C109*0.69*0.41-C1010*0.610*0.40= 0.9536>0.05 不拒绝H0,差别无统计学意义,可以认为加维生素C的治愈率与不加相同。

2满足正态近似条件,采用正态近似法。

H0:经健康教育后的高血压患病率与以前相同,即π=π0=0.6H1:经健康教育后的高血压患病率比以前降低,即π<π0单侧α=0.05u==4.9453536u>u0.05,单侧=1.64p<0.05,拒绝H0,接受H1,差别有统计学意义,可以认为经健康教育后的高血压患病率与以前有差别。

3①建立检验假设和确定检验水准H0:男女大学生HBV感染对其心理影响相同,即π1 =π2H1:男女大学生HBV感染对其心理影响不同,即π1≠π2检验水准α=0.05②计算检验统计量χ2=(ad-bd)2*n/(a+b)(c+d)(a+c)(b+d)=(250*213-246*320)/(250+320)(246+213)(250+246)(320+213)=9.651ν=1③确定p值查χ2届值表,得p<0.05④统计推断按α=0.05水准,拒绝H O,接受H1,差别有统计学意义,可以认为HBV感染对不同性别的大学生在心理行为方面的影响不同。

4①建立检验假设和确定检验水准H0:两组的治愈率相等,即π1 =π2H1:两组的治愈率不等,即π1≠π2检验水准α=0.05P (i) = 0.280>0.05 ③统计推断按α=0.05水准,不拒绝H 0,差别无统计学意义,尚不能认为两组治愈率有差别。

5①建立检验假设和确定检验水准H 0:治疗三种类型病人的有效率相同,即π1 =π2 =π3 H 1:治疗三种类型病人的有效率不等或不全相等。

分类资料的统计推断资料

分类资料的统计推断资料

性别,是否吸烟
血型
2
定量资料的基本统计分析方法 统计描述:
均数、几何均数、中位数、百分位数 全距、四分位数间距、方差、标准差和变异系数
统计推断:
可信区间
假设检验:t检验、u检验、方差分析
3
定性资料的统计描述
❖ 相对数(率、构成比、比) ❖ 分类资料的频数表
4
6.1 率的区间估计
6.1.1 率的抽样误差及标准误
Sp 0.0903(1 0.0903) /144 0.0239 2.39%
因此该地人群的乙型肝炎表面抗原阳性率的95%可 信区间为:4.35%~13.71%
8
6.1.3 两总体率之差π1-π2的区间估计(略)
9
6.2 样本率与总体率的比较
6.2.1 正态近似法
当n较大,且p和1-p均不太小,即np和n(1-p)均大 于5时,利用样本率近似正态分布原理,可作样 本率p与已知总体率π0的比较,检验统计量
H0:两组有效率无差别,π1 = π2; H1:两组有效率有差别,π1 ≠ π2 α =0.05
p1=43/53=0.8113,p2=40/56=0.7143 Pc=(43+40)/(53+56)=0.7615
u=1.188,查附表1,得P=0.234>0.05,不拒绝H0,差别无统计
学意义,尚不能认为两组有效率有差别。 16
H0:该地新生儿染色体异常率与一般相同,即异常率
= 0= 0.01
H1:该地新生儿染色体异常率低于一般,即<0.01
α=0.05(单侧)
P(X≤1)=P(X=0)+P(X=1) =0.0905>0.05
不拒绝H0,差别无统计学意义,尚不能认为该地新

第六章统计推断 2

第六章统计推断 2

p p1 p
22
2013-8-18
第五章 抽样推断
2.2 点估计
样本方差
符号 公式
2 x
S 2 x
2
x x
n
x x
n1
2
反映样本的 作用 离散程度
2013-8-18 第五章 抽样推断
推断总体
23
2.2 点估计
总体参数的点估计:
缺点: 优点: 原则:总体参数估计值就取统
1. 精确性—适当的极限误差范围;
2. 可靠性—估计结果正确的概率。
参数估计—点估计和区间估计。
2013-8-18 第五章 抽样推断 16
2.2 点估计
点估计就是根据总体参数与样本统计 量之间的内在联系,直接以样本统计量 作为相应总体参数的估计值,点估计又 称为定值估计。 常用的点估计量有:
ˆ Xx
1.4 统计推断的误差
2. 抽样平均(标准)误差:
抽样平均误差是抽样平均数的标准差,
它反映样本平数(样本成数)与总体
平均数(总体成数)之间的平均差异程
度。
x
2013-8-18
X
n
p
P 1 P n
10
第五章 抽样推断
1.4 统计推断的误差
总体标准差σ(X)和成数P的确定:
t
x X x X ~ t 2 n 1 分 布 Sx n

t
2013-8-18
X : x ,x
第五章 抽样推断


40
2.3 区间估计
【例 5-4】 从某校学生中随机 抽取25人,调查到他们平均每天
参加体育锻炼的时间为25分钟,

医学统计学分类变量资料的统计推断

医学统计学分类变量资料的统计推断
总体率未知的时候用
率的标准误的意义
▪ 率的标准误小,说明抽样误差较小,表示 样本率与总体率越接近;
▪ 率的标准误大,说明抽样误差较大,表示 样本率与总体率相距较远。
▪ 有研究者在某地采用随机整群抽样法获得 642名青少年,调查其留守情况,得出留守 率为16.98%,求其留守率的标准误。
▪ 已知n=642,p=0.1698,则
单侧α= 0.05
本例,n=304,p=0.316,π0=0.2,则有
u=5.06>1.645,p<0.05,则拒绝H0,接受H1,老年 胃溃疡患者出血率高于一般胃溃疡患者。
案例
▪ 某地调查了50岁以上吸烟者200人中患慢 性支气管炎者41人,患病率为20.5%;不 吸烟者162人中患慢性支气管炎者15人, 患病率为9.3%。
案例
▪ 2003年,某学校欲了解大学生乙肝表面抗原 携带情况以评价防控措施,随机抽取1000名 大学生,做乙肝表面抗原检查,查得乙肝表 面抗原阳性者52人,乙肝表面抗原阳性率为 5.2%,欲用此率推断该校大学生乙肝表面抗 原总体阳性率。

▪ 某校大学生乙肝表面抗原总体阳性率的 95%的可信区间:
分类变量资料的 统计推断
二项分布
▪ 考虑一系列彼此独立的随机试验,每次试 验只有两个可能发生的结果,且每种结果 发生的可能性是一定的,即发生和不发生 的概率分别是:和1- ,那么这n次试验 中发生或者不发生的次数服从二项分布。 (没有“排列”的意义,而体现了“组合” 的意义)
只有两个可能发生的结果
▪ 问题
➢ 据以上资料能否下结论说吸烟者慢性支气管炎 患病率高于不吸烟者?
➢ 用什么方法对两个率进行比较?
吸烟组和不吸烟组慢性支气管炎患病率比较

医学统计学-分类变量资料的统计推断

医学统计学-分类变量资料的统计推断

分组
发病人数 未发病人数 合 计 发病率%
服药组
40(a) 190(b) 230(a+b) 17.39
对照组
50(c) 130(d) 180(c+d) 27.78
合计
90(a+c) 320(b+d) 410(n)
21.95
2
a
ad bc2 n bc d a cb
d
1
四格表资料的χ2检验(校正χ2值的计算)
分类变量资料的 统计推断
第一节 率的抽样误差和总体率的估计 第二节 率的u检验 第三节 χ2检验
统计推断:
用样本信息推论总体特征的过程。 包括:
参数估计:运用统计学原理,用从样本计算出来的统
计指标量,对总体统计指标量进行估计。
假设检验:又称显著性检验,是指由样本间存在的差
别对样本所代表的总体间是否存在着差别做出判断。
=1时,P=0.05,x2 =3.84 P=0.01,x2 =6.63
P=0.05时,=1,x2 =3.84 =2,x2 =5.99
当自由度取1时,u2= x2
例1:某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松 (对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分 为两组,结果见表7-1。问两组降低颅内压的总体有效率有无差别?
情况。
第二节 率的u检验
率的u检验的应用条件: 1. 已知π0 2. nP>5, n(1-P)>5
(当样本含量足够大、样本率p和1-p均不接近 于零的前提下,且np和n(1-p)均大于5时,样本 率的分布近似于正态分布,样本率和总体率、 两个样本率之间差异来源的判断可用u检验。)
一、样本率与总体率的比较

卫生学 10.分类变量资料的统计推断

卫生学 10.分类变量资料的统计推断


40 6 2 16 64 / 2
42 22 56 8
2
64
4.79
自由度υ=(行数-1)(列数-1)
=(2-1)(2-1)=1
查X2界值表,得 P<0.05,按α=0.05水准, 拒绝H0,可认为两组有效率差别有统计学意 义。
三、配对设计分类变量资料的X2检验
H0:π= π0
H1:π≠ π0
α=0.05 P=0.26
u p 0 0.30 0.26 0.3(1 0.3) 385
0 (1 0 )
n

1.713
查t界值表中υ为∝对应的界值,得P> 0.05,按α=0.05水准,不拒绝H0,尚不 能认为该院认为该院直肠癌患者围术期 并发症发生率与一般情况不同

1 n2
)

0.0854 0.1486 1 1 0.1258(1 0.1258) 8207 14585
0.0046
查t界值表中υ为∝对应的界值得, P< 0.01,按α=0.05水准,拒绝H0,接受H1, 可认为该人群HBV感染率有性别差异。
第三节
x2 检 验
率的抽样分布特征:
1、为离散型分布 2、π为0.5时,呈对称分布 3、当n不断增大时,二项分布逐渐逼近正 态分布 • 当nP和n(1-P)都大于5时,二项分布近 似于正态分布。
二、率的抽样误差和总体率的估计
一、率的抽样误差和标准误(sampling error and standard error of rate)
表10-9 两种血清学方法对肝癌检测的结果比较
甲法 + 乙法 合计
+
合计
50(a)

统计学 第6章 统计推断(3节)

统计学 第6章 统计推断(3节)
第六章
统计 推 断
第一节 统计推断及其特点
第二节 总体参数估计 第三节 假设检验
第三节
假设检验
一、 基本概念、原理及步骤
二、总体平均数的检验 三、总体比例的检验
四、总体方差的检验
一、基本概念、原理与步骤
1.基本概念 2.原理 3.步骤
3
引例:某企业生产一种零件,过去的大量资 料表明,零件的平均长度为4CM,标准差为 0.1CM.改革工艺后,抽查了100个零件,测得 样本平均长度为3.95CM。
有证据表明这批灯泡的使用 寿命有显著提高
0
1.645
Z
32
2 未知小样本均值的检验
(例题分析)
【例】某机器制造出的肥 皂厚度为5cm,今欲了解 机器性能是否良好,随机 抽取10块肥皂为样本,测 得平均厚度为5.3cm,标 准 差 为 0.3cm , 试 以 0.05 的显著性水平检验机器性 能良好的假设。
2 已知均值的检验
(小样本例题分析)
H0: 1020 检验统计量: x 0 1080 1020 H1: > 1020 z 2.4 n 100 16 = 0.05 n = 16 决策: 临界值(s): 在 = 0.05的水平上拒绝H
拒绝域 0.05
0
结论:
结论:
t
不能认为制造商的产品同他所 说的标准不相符
37
-1.7291 0
H0 检验 实际情况 H0为真 1- H0为假
有罪
错误
正确
拒绝H0
第二类 错误() 第一类 功效(1) 错误()
11
假设检验中的两类错误
3. 错误和 错误的关系 和的关系就像翘翘 板,小就大, 大 就小

分类资料的统计推断

分类资料的统计推断

1. 完全随机设计两样本率的比较
通过例题说明:
例题: 某医师研究奥美拉唑(洛赛克)治疗消化性溃疡的 疗效,以西咪替丁(泰胃美)作为对照组,观察结果如下表, 试问两组病人的疗效是否有差异?
表 3-5
首先制四格表资料的效果计算表:
表 3-5
注:a、b、c、d分别为四格表中的四个理论 频数(需计算), n为总例数。
操作步骤:
(1)建立检验假设,确定检验水准
H : 0 1 2
即洛赛克组与泰胃美组患者的有效率相同
H : 1 1 2
即洛赛克组与泰胃美组患者的有效率不同
0 . 05
检验水准!
(2)计算统计量
2
2

2
( A T ) T

(A T ) RC RC T RC
计算公式
分母实为两个 率的标准误!
u
p1 p2 1 1 pc (1 pc )( ) n1 n2
表示为: Sp1-p2
X1 X 2 pc n1 n2
例题:为了解某地小学生蛔虫感染率的城乡差异,抽样 调查了该地小学生共22792人,其中城镇小学生抽查8207
人,粪检蛔虫卵阳性数为 701 人,蛔虫感染率为 8.54% ,
它可以用于对总体率的区间估计与频率间 的显著性检验。
二、总体率的估计
点估计 用样本率估计总体率!
p
π
用的较少!
用一定概率来估计总体率
区间估计
的所在范围。
1.正态近似法
当样本含量n足够大,样本率p和(1 -- p )均不太小时【可 通过np与n(1--p)均大于5】,样本率p的分布近似正态分布,这
Sp p(1 p) n

生物统计学第6章

生物统计学第6章

ANOVA基本步骤
生物统计
Chap.6 Analysis of Variance I
• 零假设:处理无效( 1= 2= 3= 4) • 备择假设:处理有效(至少两个均数不等)
• 基本计算(1): X i. X i.
X .. X
• 基本计算(2): SST SSE SSA dfT dfA dfE
组内变异: 由于同组内的个体来自同一总体(接受同
一处里),因此组内变异仅仅是由于个体之间的 随机误差造成。 组间变异:
不同组个体间的变异,除了个体之间的随机 误差以外,还包括不用处理(不同的组来自不用 总体)所造成的差异。
方差分析法的基本思想:
组间变异 组内变异
检验统计量
比较组间变异和组内变异,如果组间变异显
误差均方
• 显著性水平:
c
总的一型错误概率 需要比较的次数
饲料
1 2 • 34例
增重 57 42 60 37 54 13 33 19 39 41 13 29 20 15 13 18 22 13 24 38
N = 20, X·· = 600, X
生物统计
Chap.6 Analysis of Variance I
dfT N 1 32 1 31
dfE N k 32 4 28 dfA k 1 4 1 3
定义统计量 均方(MS) 平方和自由度
MSA
SSA df A
85.8563 3 16.855, MSE
SSE dfE
47.5409 1.6979 28
实例-小鼠脾脏
生物统计
Chap.6 Analysis of Variance I
生物统计
Chap.6 Analysis of Variance I

第6章 统计推断

第6章 统计推断
p (1 p ) p (1 p ) p z 2 , p z 2 n n 45% 55% 45% 55% 45% 1.96 ,45% 1.96 500 500 (40.64%,49.36%)
二、参数估计的方法
置信度(置信系数/置信水平)
——臵信区间中包含总体参数真值的可能 性大小,也就是人们可以信赖的程度,通常用 1 表示。 另外,置信度也可以指重复抽样条件下, 在构造的所有置信区间中包含参数真值的区间 所占的比例,也就是说构造的所有置信区间中 有100(1 )%个区间包含总体参数真值。
第一节 统计推断及其特点
2、非抽样误差
非抽样误差是随机因素之外的原因,即 其他原因引起的样本观测结果与总体真值之间 的差异。 非抽样误差存在于各种抽样和调查中。
第六章 统计推断
第一节 统计推断及其特点
非抽样误差的影响因素
(1)抽样框因素 (2)回答因素 (3)无回答因素 (4)调查员的因素 (5)测量因素 注:非抽样误差从理论上可以避免,但实际上 很难控制。
(a)无偏性 估计量的数学期望等于被估计的总体参数。 (b)有效性 对于同一总体参数的两个无偏估计量来说, 方差越小的估计量就越有效。
第六章 统计推断
二、参数估计的方法
(3)一致性
随着样本容量n的增大,点估计量越来越 接近被估总体参数。 3、点估计的特点 (a)优点:简洁明了、能提供具体的估计值 (b)缺点:无法提供误差情况、估计的可靠 程度
2 1- 0.05 2
(10 1) 2.7004
根据题中样本数据计算得:
x
x
i 1
10
i
n
7.16 s

08 分类资料的统计推断

08 分类资料的统计推断

32 59 24 63
四个基本数字,实际数A
24
四格表资料的2检验
1、四格表:将资料列成表格,表格中四 个数字是基本的:32、24、59、63,称四 格表fourfold table 2、实际数:表内各格数字为实际资料的 数字,称observed value, actual frequency, 记为O或A 两样本率不同的原因:①抽样误差;②总 体率确实不同。
7
本例,n=201,p=127/201=0.6318
Sp
p(1 p) n
0.6318 (1 0.6318) 0.034 201
故复方丹参滴丸显效率的 95%的置信区间为:
(0.6318-1.96×0.034, 0.6318+1.96×0.034)=(56.51%,69.84%)
复方丹参滴丸显效率的 99%的置信区间为:
P=0.01, χ2 =6.63 P=0.05时, ν=1, χ2 =3.84
ν=2, χ2 =5.99
• 当自由度取1时, z2= χ2
=(0.052-1.96×0.007,0.052+1.96×0.007)
=(0.038,0.066)
即总体率的95%可信区间为3.8%~6.6%
2019年6月18日4时58分
10
2. 查表法:
当样本含量较小时,如n≤50,查附表6
(百分率的可信区间表)得到总体率的 可信区间。
注意:
附表6中的X值只列出 X n 部分;

当 Xn
时,应以 n X
2
查表,求总体阴性率可
信区间2,再用100%减去查得的区间,即得所求
置信区间。
2019年6月18日4时58分
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第六章 分类资料的统计推断
分类资料中最常用的统计方法是2χ检验,确切概率法,另外还有秩和检验。

秩和检验在后一章介绍,本章重点介绍2χ检验,其它方法简略讲述。

6.1 四格表资料2χ检验
例 6.1 某医院治疗慢性肾炎病人,其中用西药治疗79例,有效者63人,有效率79.75%,用中药治疗54例,有效者47人,有效率87.04%,问两种药物治疗慢性肾炎有效率是否相同?
处理 有效
无效 西药组 63 16 中药组
47 7
具体步骤:
1. 数据录入 设变量group 代表处理组(西药组为1,中药组为2),变量effect 代表是否有效(有效为1,无效为0),变量f 代表频数,即例数。

如西药组有效例数为63,则group 为1,effect 为1,freq 为63。

数据格式如图6.1。

2.统计分析 首先依次选取Data -weight Cases ,展开对话框如图6.2,选择Weight cases by ,将freq 选入Frequency Variable :框,即赋予权重;然后依次选取Analyze -Descriptive Statistics -Crosstabs ,展开对话框如图6.3,将group 选入Rows 框,effect 选入Columns 框,或相反;
该对话框下方有三个按钮:Statistics 、Cells 和Format ,现将其子对话框选项介绍如下:
Statistics 选择要输出的统计量,常用的有2χ(Chi -square )、Pearson
相关系数
χ(McNemar)(Correlations)、Kappa系数(Kappa)、相对危险度(Risk)、配对2
等。

Cells指定多维分布表中显示实际频数、理论频数、行列及全部百分比和残差等。

Format指定行顺序(升序或降序)。

在对话框下方还有两个选项:Display Clustered Bar Charts(输出直方图)和Suppress Tables(不输出多维分布表)。

本例仅计算2
χ,单击Statistics,弹出对话框如图6.4,选取Chi-square。

返回主对话框,单击OK提交执行。

χ检验数据格式
图6.1 2
图6.2 赋权对话框
图6.3 Crosstabs对话框
图6.4 Statistics对话框
3.结果解释
GROUP * EFFECT Crosstabulation
Count
EFFECT Total
0 1
GROUP 1 16 63 79
2 7 47 54
Total 23 110 133
Chi-Square Tests
Value df Asymp.
Sig.
(2-sided) Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
Pearson
Chi-Square
1.192 1 .275
Continuity
Correction
.737 1 .391
Likelihood
Ratio
1.226 1 .268
Fisher's Exact
Test
.353 .196
Linear-by-Line
ar Association
1.183 1 .277
N of Valid
Cases
133
a Computed only for a 2x2 table
b 0 cells (.0%) have expected count less than 5. The minimum expected count is 9.34.
第一个表格为多维分布表,group和effect分别代表处理组和是否有效,格子中给出了各个组合下的频数及合计。

第二个表格是2
χ检验结果,Pearson Chi-Square为Pearson2χ值,即所求统计量;Continuity Correction为校正2
χ值;Likelihood Ratio为似然比2χ;Fisher’s Exact Test为确切概率法;Linear-by-Linear Association为线性关联系数;Asymp. Sig.
(2-sided)为
2
χ检验所得P值;Exact Sig. 为确切概率法P值(分单双尾)。

本例2χ值
为1.192,P>0.05,故尚不能认为两组有效率有差别。

6.2列联表资料的2χ检验
这种资料的检验在SPSS中实现的步骤与以上相同,数据录入格式也相同,只是变量可能不再是二分类,而是多分类,与之对应,变量赋值也不再是两个,而是多个。

例6.2下列资料为年龄与视力的关系,问各年龄组的视力差异有无统计学意义?
表6.2 年龄与视力关系
视力
年龄组
≤0.6 0.7~0.9 1.0~1.2 1.2~1.5
5~ 4 11 143 411
11~ 9 37 317 1183
21~ 39 22 182 355
41~ 147 94 139 160 设变量age表示不同年龄组(5~组为1, 11~组为2, 21~组为3,41~组为4),变量eyesight 表示视力(≤0.6为1,0.7~0.9为2,1.0~1.2为3,1.2~1.5为4),变量freq表示频数。

其数据的录入格式如图6.5。

图6.5 列联表数据录入格式。

相关文档
最新文档