独立性检验的基本思想及其初步应用PPT课件
合集下载
《3.2 独立性检验的基本思想及其初步应用》PPT课件(安徽省市级优课)
bc
0
其
初
ad bc 越小,说明吸烟与患肺癌之间关系越弱;
步 应
ad bc 越大,说明吸烟与患肺癌之间关系越强.
用
三、小组讨论,合作交流
独 为了使不同样本容量的数据有统一的评判标准,
立 基于上述分析,我们构造一个随机变量
性
检 验 的 基
K2
n(ad bc)2
(a b)(c d )(a c)(b d )
验 的
基 2.了解独立性检验的基本思想;
本 思 想
及 3.了解独立性检验的操作步骤。
其 初 步 应 用
八、课后作业,自主学习
独
立 性
必做题:课本 习题3.2 第1题
检
验 的
选做题:课本 复习参考题A组 第3题
基
本
思
想
及
其
初
步
应
用
想
民族
…
及
其 初
…
步
应
用
二、阅读教材,探究新知
独
为研究吸烟是否对患肺癌有影响,某肿瘤研究
立 所随机地调查了9965人,得到如下结果:
性 检
表3—7 吸烟与患肺癌列联表
单位:人
验
的
不患肺癌 患肺癌
总计
基
不吸烟
7775
42
7817
本
思
吸烟
2099
49
2148
想 及
总计
9874
91
9965
其 初
这样列出的两个分类变量的频数表,称为列联表
检
根据列联表中的数据,得到
验
的 基 本
k 500 (104 173 128 95)2 232 268199 301
人教版高中数学选修2-3课件:3.2 独立性检验的基本思想及其初步应用(共38张PPT)
P(K2≥k0) 0.05 0.025 0.010 0.005 0.001
例如:
k0
3.841 5.024 6.635 7.879 10.828
①如果k≥10.828,就有99.9%的把握认为“X与Y有关系”;
②如果k≥7.879,就有99.5%的把握认为“X与Y有关系”;
③如果k≥6.635,就有99%的把握认为“X与Y有关系”;
≈7.8.
备课素材
附表:P(K2≥k0) k0
0.050 3.841
0.010 6.635
0.001 10.828
参照附表,得到的正确结论是 (A ) A.有99%以上的把握认为“爱好该项运动与性别有关” B.有99%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c
b+d a+b+c+d
若要推断的论述为H1:“X与Y有关系”,则可以按如下步骤判断H1成立的可能性:
预习探究
预习探究
P(K2≥k0) 0.50 0.40 0.25 0.15 0.10
k0
0.455 0.708 1.323 2.072 2.706
考点类析
考点一 两分类变量之间关联关系的定性分析
例1 为考察某种药物预防某种疾病的效果,进行了一 项动物试验,得到如下列联表:
服用药 未服用药
独立性检验的基本思想及其初步应用-PPT课件
上面这种利用随机变量K 2来确定在多大程度上
可以认为 "两个分类变量有关系"的方法称为两
个分类变量的 独立性检验. .
独立性检验的基本思想 类似于反证法.要确认"两个
分类变量有关系" 这一结论成立的可信程 度,首先假
设该结论不成立,即假设结论 "两个分类变量没有关
系" 成立,在该假设下构造的随机 变量K2应该很小.如
1.通过三维柱形图和二维 条形图 ,可以粗略地判断两 个分类变量是否有关,但是这种判断无法精确 地给出 所得结论的可靠程度.
1在三维柱形图中,主对角线上两个柱形高 度的乘积
ad与副对角线上的两个柱 形高度的乘积bc相差越大, H1成立的可能性越大.
16
2在二维条形图中,可以估计满足条件X x1的个体
2
探究 为调查吸烟是否对患肺 癌有影响 ,某 肿瘤研究所随机地调查 了9 965人,得到如下 结果 (单位 : 人) :
表3 7吸烟与患肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 吸烟 总计
7775 2099 9874
42 7817 49 2148 91 9965
那么吸烟是否对患肺癌 有影响?
3
像表 3 7 这 样列出的两个分类变量 的 频数表 ,称为列联表 .由吸烟情况和患肺 癌情况的列联 表可以粗略 估计出: 在不 吸烟者中, 有0.54%患有肺癌; 在吸烟者中, 有2.28%患有肺癌.因此,直观上可以得出 结论 : 吸烟者和不吸 烟者患 肺癌可能存 在差异.
PAB PAPB.
8
大家学习辛苦了,还是要坚持
继续保持安静
9
把表3 7中的数字用字母代替,得到如下用字
母表示的列联表 :
独立性检验的基本思想及其初步应用 课件
等高条形图的应用
从发生交通事故的司机中抽取 2000 名司机作随 机样本,根据他们血液中是否含有酒精以及他们是否对事故负有 责任将数据整理如下:
有责任 无责任 总计
有酒精 650
150 800
ห้องสมุดไป่ตู้
无酒精 700
500 1200
总计 1350
650 2000
试分析血液中含有酒精与对事故负有责任是否有关系.
独立性检验的基本思想及其初步应用
1.分类变量和列联表 (1)分类变量 变量的不同“值”表示个体所属的 不同类别 ,像这样的 变量称为分类变量. (2)列联表 ①定义:两个分类变量的 频数表 称为列联表.
②2×2 列联表
一般地,假设两个分类变量 X 和 Y,它们的取值分别为 {x1,x2} 和{y1,y2},其样本频数列联表(也称为 2×2 列联表)
[解析] 作等高条形图如右图,图中阴影部分表示有酒精 负责任与无酒精负责任的比例,从图中可以看出,两者差距较 大,由此我们可以在某种程度上认为“血液中含有酒精与对事 故负有责任”有关系.
[点评] (1)通过等高条形图可以粗略地直观判断两个分类 变量是否有关系,一般地,在等高条形图中,a+a b与c+c d相差 越大,两个分类变量有关系的可能性就越大.
有甲、乙两个班级进行一门考试,按照学生考
试成绩优秀和不优秀统计后,得到如下的列联表
班级与成绩列联表
优秀 不优秀 总计
甲班 10
35
45
乙班 7
38
45
总计 17
73
90
试问能有多大把握认为“成绩与班级有关系”?
[错解] 由公式得:K2=90×17×107×3×7-453×5×45382=56.86, 56.86>6.635 所以有 99%的把握认为“成绩与班级有关 系”.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
与表格相比 , 三维柱形图和二维条形 图 能更直观地反映出相关数据的总体 状 况.
8000 7000 6000 5000 4000 3000 2000 1000 0
吸烟
2 1是列联表的三维柱形图 , 从中能清晰 地看出各个频数的相对 大小. 作三维柱形图要注意选 择恰当的视角 ,以使每 个柱体都能看到 .
9000 8000 7000 6000 5000 4000 3000 2000 1000 0
不患肺癌
患肺癌
不吸烟
吸烟
图3.2 2
图 3.2 2 是叠在一起的二维条形 图, 其中绿色 条高表示不患肺癌的人 数,黑色条高表示患肺 癌的人数 .从图中可以看出 ,吸烟者中患肺癌的 比例高于不吸烟者中患 肺癌的比例 .
上面这种利用随机变量K 来确定在多大程度上
2
可以认为 " 两个分类变量有关系"的方法称为两 个分类变量的 独立性检验 .. 独立性检验的基本思想 类似于反证法 .要确认" 两个 分类变量有关系 " 这一结论成立的可信程 度, 首先假 设该结论不成立 ,即假设结论" 两个分类变量没有关 系" 成立, 在该假设下构造的随机 变量K 2 应该很小 .如 果由观测数据计算得到 的K 2 的观察值很大 , 则在一 定程度上说明假设不合 理.根据随机变量 K 2 的含义, 可以通过概率2 式评价该假设不合理的 程度,由实 际计算出的k 6.635 , 说 明 假 设 不 合 理的程度为 99%,即" 两个分类变量有关系 " 这一结论成立的可信 程度约为 99%.
a ab ac , 其中n a b c d为样本容 n n n 量, 即 a b c da a b a c , 即 ad bc.
因此,| ad bc | 越小,说明吸烟与患肺癌之间关 系越弱;| ad bc | 越大,说明吸烟与患肺癌之间 关系越强. 为了使不同样本容量的数据有统一的评判标 准, 基于上面的分析, 我们构造一个随机变量
nad bc K a bc da c b d 其中n a b c d为样本容量.
2 2
1
若H0成立, 即" 吸烟与肺癌没有关系" , 则K 2应该 很小.现在, 根据表3 7中的数据, 利用公式1计 算得K 2的观测值为 9965 7775 49 42 2099 k 56.632, 7817 2148 9874 91 这个值是不是很大呢 ? 在H0成立的情况下, 统计学家估算出如下概率 2 PK 2 6.635 0.01. 即在H0成立的情况下K 2的值大于6.635的概率 非常小.近似于0.01.也就是说.在H0成立的情况
探究 为调查吸烟是否对患肺 癌有影响,某 肿瘤研究所随机地调查 了9 965人, 得到如下 结果 (单位 : 人) :
表3 7吸烟与患肺癌列联表
不患肺癌 患肺癌 不吸烟 吸烟 总计 7775 2099 9874 42 49 91
总计 7817 2148 9965
那么吸烟是否对患肺癌 有影响?
像表 3 7 这 样列出的两个分类变量 的 频数表 , 称为列联表. 由吸烟情况和患肺 癌情况的列联 表可以粗略 估计出: 在不 吸烟者中 , 有0.54%患有肺癌 ; 在吸烟者中 , 有2.28% 患有肺癌 .因此, 直观上可以得出 结论 : 吸烟者和不吸烟者患 肺癌可能存 在差异.
图3.2 3
上面我们通过分析数据 和图形 , 得到的直观印 象是吸烟和患肺癌有关 .那么事实是否真的如 此呢 ? 或者说我们能够以多大 的把握认为 "吸 烟与患肺癌有关 "呢 ? 为了回答上述问题, 我们先假设 H0 : 吸烟与患肺癌没有关系. 用A表示不吸烟,B表示不患肺癌, 则" 吸烟与患 肺 癌没有关系 " 等价于" 吸烟与患肺癌独立" , 即H0等价于 PAB PA PB.
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00
不吸烟
吸烟
为了更清晰地表达这个 特征, 我们还可用如下的等 高条形图表示两种情况 下患肺癌的比例.如图3.2 3 所示, 在等高条形图中 , 绿色的条高表示不患肺 癌 的百分比 ;黑色的条高表示患肺癌 的百分比 .
2
下对随机变量K 2进行多次观测, 观测值超过6.635 1 的频率约为 . 100 在2中,n越大,近似程度越高 .在实际应用中 , 通常 要求a, b, c, d都不小于5. 思考 如果K 2 6.635, 就断定H0不成立, 这种判 断出错的可能性有多大 ? 现在观测值k 56.632远远大于6.635, 在H0 成立 的条件下,由 2式可知能够出现这样的观测值的 概率不超过 0.01. 因此我们有99% 的把握认为H0 不成立, 即有99%的把握认为" 吸烟与肺癌有关系".
把表3 7中的数字用字母代替 , 得到如下用字 母表示的列联表:
表3 8 吸烟与患肺癌列联表
不吸烟 吸烟 总计
不患肺癌 患肺癌 a b c d ac bd
总计 ab cd abc d
在表3 8中, a 恰好为事件AB 发生的频数 : a b 和a c 恰恰好分别为事件A 和 B发生的频数 .由 于频率近似于概率, 所以在H0成立的条件下应有
思考 利用上面的结论 , 你能从列联表的三维柱 形图中看出两个分类变 量是否相关吗 ? 一般地, 假设两个分类变量 X和Y,它们的值域分 别为 x1, x 2 和 y1, y 2 , 其样本频数列联表 (称为 2 2列联表) 为 :
对于性别变量 , 其取值为男和女两种 .这 种变量的不同 " 值" 表示个体所属的不同 类 别 , 像这类变量称为 分类变量 .在现实 生活中, 分类变量是大量存在的 , 例如 是 否吸烟 ,宗教信仰 ,国籍, 等等. 在日常生活中 , 我们常常关心两个分类 变 量之间是否有关系 .例如, 吸烟与肺癌是否 有关系? 性 别对于是否喜欢数学课 程 有 影响? 等等.