独立性检验的思想及应用(1)

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

9
不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事件
A下和应B该发有生的频P(数A)。由a n+于b频, 率P(接B)近 a于n+ c概,率P,(A所B)以 an在. H0成立的条件
a ≈ a + b×a + c nn n
求解思路:
1. 在H0成立的条件下,构造与H0矛盾的小概率 事件;
2. 如果样本使得这个小概率事件发生,就能 以一定把握断言H1成立;否则,断言没有发 现样本数据与H0相矛盾的证据。
2021/3/10
郑平正 制作
4
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
郑平正 制作
19
例2:为研究不同的给药方式(口服与注射)和药的效果(有效
与无效)是否有关,进行了相应的抽样调查,调查的结果列 在表中,根据所选择的193个病人的数据,能否作出药的效果 和给药方式有关的结论?
口服 注射 合计
有效 58 64 122
无效 40 31 71
合计 98 95 193
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
患心脏病 214 451 665
不患心脏病 175 597 772
总计 389 1048 1437
根据联表1-13中的数据,得到
K 2 1437 (214 597 175 451)2 16.373 6.635. 3891048 665 772
所以有99%的把握认为“秃顶患心脏病有关”。
2021/3/10
其中n = a + b + c + d为样本容量,即
(a+b+c+d)a (a+b)(a+c),
即ad bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
2021/3/10
郑平正 制作
10
皮肌炎图片——皮肌炎的症状表现
皮肌炎是一种引起皮肤、肌肉、 心、肺、肾等多脏器严重损害的, 全身性疾病,而且不少患者同时 伴有恶性肿瘤。它的1症状表现 如下:
吸烟 吸烟
不患肺癌 比例
等高条形图更清晰地表达了两种情况下患肺癌的比例。
2021/3/10
郑平正 制作
8
上面我们通过分析数据和图形,得到的直观印象是吸烟和 患肺癌有关,那么事实是否真的如此呢?这需要用统计观点 来考察这个问题。
现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设
H0:吸烟与患肺癌没有关系.
郑平正 制作
18
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有 175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏 病是否有关系?你所得的结论在什么范围内有效?
解:根据题目所给数据得到如下列联表:
秃顶 不秃顶
总计
复方江剪刀草 胆黄片 合计
有效 184 91 275
无效 61 9 70
合计 245 100 345
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
有关系”;如果k的值很小,则说明由样本观测数据没有发现
反对H0 的充分证据。
(3)根据随机变量K2的含义,可以通过评价该假设不合理的程 度,由实际计算出的,说明假设合理的程度为99%,即“两个分 类变量有关系”这一结论成立的可信度为约为99%.
2021/3/10
郑平正 制作
15
5、独立性检验
随机变量-----卡方统计量 K 2
12
在H0成立的情况下,统计学家估算出如下的概率
P(K 2 6.635) 0.01.
(2)
即在H0成立的情况下,K2的值大于6.635的概率非常小,近似
于0.01。
也就是说,在H0成立的情况下,对随机变量K2进行多次观 测,观测值超过6.635的频率约为0.01。
思考 如果K 2 6答.635:,就判断断定H出0不错成立的,概这率种判为断0出.错01的。可能性有多大?
肺癌的可能性大。
2021/3/10
郑平正 制作
6
通过图形直观判断两个分类变量是否相关:
1、列联表
不吸烟 吸烟 总计
2、三维柱形图
不患肺癌 7775 2099 9874
患肺癌 42 49 91
总计 7817 2148 9965
3、二维条形图
8000
7000 6000
不患肺癌 患肺癌
5000
4000
不患肺癌 患肺癌
解:设H0:两种中草药的治疗效果没有差异。
K 2 345184 9 61 912 11.098
275 70 245100
如果 k 6.635 ,就判断 H0 不成立,即认为吸烟与
患肺癌有关系;否则,就判断 H0 成立,即认为吸烟 与患肺癌有关系。
在该规则下,把结论“H0 成立”错判成H“0 不
成立”的概率不会差P过(K 2 6.635) 0.01,
即有99%的把握认为 H0不成立。
独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上可 以认为“两个分类变量有关系”的方法,称为两个 分类变量的独立性检验。
• 假设“面包份量足”,则一年购买面包的质量数据 的平均值应该不少于1000g ;
• “这个平均值不大于950g”是一个与假设“面包份量 足”矛盾的小概率事件;
• 这个小概率事件的发生使庞加莱得出推断结果。
2021/3/10
郑平正 制作
2
一:假设检验问题的原理
假设检验问题由两个互斥的假设构成,其中
解:设H0:药的效果与给药方式没有关系。
K2
19358 31 64 402
1.3896
122 71 98 95
因当H0成立时,K2≥1.3896的概率大于15%,故不能否定假设H0, 即不能作出药的效果与给药方式有关的结论。
2021/3/10
郑平正 制作
20
例5:气管炎是一种常见的呼吸道疾病,医药研究人 员对两种中草药治疗慢性气管炎的疗效进行对比, 所得数据如表所示,问:它们的疗效有无差异?
一个叫做原假设,用H0表示;另一个叫做备择 假设,用H1表示。
例如,在前面的例子中,

假设为: H0:面包份量足, 备择假设为: H1:面包份量不足。 这个假设检验问题可以表达为:
H0:面包份量足 ←→ H1:面包份量不足
2021/3/10
郑平正 制作
3
二:求解假设检验问题
考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足
1、早期皮肌炎患者,还往往 伴有全身不适症状,如-全身肌肉 酸痛,软弱无力,上楼梯时感觉 两腿费力;举手梳理头发时,举 高手臂很吃力;抬头转头缓慢而 费力。
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分
析,我们构造一个随机变量-----卡方统计量
K2
n(ad bc)2
,
(a b)(c d )(a c)(b d )
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R 2、残差分析)
分类变量—— 独立性检验
本节2研021/3/究10 的是两个分类变郑平正量制作的独立性检验问题。5
2021/3/10
郑平正 制作
Leabharlann Baidu14
独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H0 :“两个分类变量没有关系”.
(2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H0 不成立.即在一定可信程度上认为“两个分类变量
现在观测值k 9965(7775 49 42 2099)2 56.632太大了, 7817 2148987491
在H
成立的情况下能够出现这样的观测值的概率不超过0.01,
0
因此我们有99%的把握认为H
不成立,即有99%的把握认为“吸烟
0
与患肺2021癌/3/1有0 关系”。
郑平正 制作
13
判断H 0是否成立的规则
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
不吸烟 吸烟 总计
吸烟与肺癌列联表
不患肺癌
患肺癌
7775
42
2099
49
9874
91
总计 7817 2148 9965
在不吸烟者中患肺癌的比重是 0.54%
在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患
K 2 10.828
K 2 6.635
K 2 2.706
K 2 2.706
2021/3/10
0.1%把握认为A与B无关
1%把握认为A与B无关
99.9%把握认A与B有关 99%把握认为A与B有关
10%把握认为A与B无关 90%把握认为A与B有关
没有充分的依据显示A与B有关,但也不能显示A与B无关
解:根据题目所给数据得到如下列联表:
秃顶 不秃顶
总计
患心脏病 214 451 665
不患心脏病 175 597 772
总计 389 1048 1437
患心脏病 患其他病
597 600
500 451
400
300
175
214
200
100
0 秃头
2021/3/10
不秃头
患其他病 患心脏病
相应的三维柱形图如图所 示,比较来说,底面副对 角线上两个柱体高度的乘 积要大一些,因此可以在 某种程度上认为“秃顶与 患心脏病有关”。
n(ad bc)2
,
(a b)(c d )(a c)(b d )
临界值表
其中n a b c d为样本容量。
P(K2 k0 ) 0.50
k0 0.455
0.40 0.708
0.25 1.323
0.15 2.072
0.10 0.05 0.025 0.010 0.005 0.001 2.706 3.841 5.024 6.635 7.879 10.828
不吸烟 吸烟
从三维柱形图能清晰看出 各个202频1/3数/10的相对大小。
3000
2000
1000
0 不吸烟
吸烟
从二维条形图能看出,吸烟者中
郑平正 制作
7
患肺癌的比例高于不患肺癌的比例。
4、等高条形图
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
0
不吸烟 不吸烟
患肺癌 比例
(1)
其中n a b c d为样本容量。
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:
k 9965(7775 49 42 2099)2 56.632 (2) 7817 2148987491
2那021/3么/10 这个值到底能告诉郑平我正 制们作 什么呢?
郑平正 制作
16
反证法原理与假设检验原理
反证法原理: 在 假设检验原理:
一个已知假设下, 在一个已知假设 如果推出一个矛 下,如果一个与 盾,就证明了这 该假设矛盾的小 个假设不成立。 概率事件发生,
就推断这个假设 不成立。
2021/3/10
郑平正 制作
17
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有 175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏 病是否有关系?你所得的结论在什么范围内有效?
3.2独立性检验的 基本思想及其初 步应用
高二数学 选修2-3
2021/3/10
第三章 统计案例
郑平正 制作
1
问题: 数学家庞加莱每天都从一家面包店
买一块1000g 的面包,并记录下买回的面
包的实际质量。一年后,这位数学家发 现 , 所 记 录 数 据 的 均 值 为 950g 。 于 是 庞 加莱推断这家面包店的面包分量不足。
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”
等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B).
把表中的数字用字母代替,得到如下用字母表示的列联表
不吸烟 吸烟 总计
不患肺癌
a c a+c
患肺癌
b d b+d
总计
a+b c+d a+b+c+d
2021/3/10
郑平正 制作
相关文档
最新文档