32独立性检验的基本思想及其初步应用(一)
独立性检验的基本思想及其初步应用 课件
注射药物 A
a=70
b=30
100
注射药物 B
c=35
d=65
100
合计
105
95
n=200
母题探究:1.(改变问法)典例 2 中条件不变,改变问法:是否有 99%的把 握认为注射药物 A 后的疱疹面积与注射药物 B 后的疱疹面积有差异?
[解] k=20100×0×701×006×5-10355××93502≈24.56. 由于 K2>6.635,所以有 99%的把握认为“注射药物 A 后的疱疹面积与 注射药物 B 后的疱疹面积有差异”.
3.在探究 2 中,你认为文科学生总成绩不好与数学成绩不好有关系吗?
[提示] 由探究 2 计算随机变量 K2 的观测值: k=9134×904×784×232×4-87379×9×36122≈6.233>5.024, ∵P(k≥5.024)≈0.025, ∴在犯错误的概率不超过 0.025 的前提下,认为文科学生总成绩不好与 数学成绩不好有关系.
秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则我们能否在犯
错误的概率不超过 0.001 的前提下认为数学成绩优秀与物理、化学优秀有关系?
物理优秀
化学优秀
总分优秀
数学优秀
228
225
267
数学非优秀
143
156
99
注:该年级此次考试中数学成绩优秀的有 360 人,非优秀的有 880 人.
[思路探究] 首先分别列出数学成绩与物理、化学、总分的 2×2 列联表, 再正确计算 K2 的观测值,然后由 K2 的值作出判断.
表 1:注射药物 A 后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
《独立性检验的基本思想及其初步应用》PPT课件
0.05 3.841
0.025 5.024
0.010 0.005 6.635 7.879
0.001 10.828
K2的观测值为k
如果 k k0,就以 (1 P(K 2 k0 )) 100%的把握
认为“X与Y有关系”;而这种判断有可能出错,出
错的概率不会超过 P(K 2 k0 )。
7
例如 :
1如果k 10.828,就有99.9%把握认为" X与Y有
❖ 试用你所学过的知识进行分析,能否在犯错 误的概率不超过0.005的前提下,认为“喜欢 体育还是文娱与性别有关系”?
体育 文娱 总计
男生 21 23 44
女生 6 29 35
总计 27 52 79
16
[思路探索] 可用数据计算 K2,再确定其中的具体关系. 解 判断方法如下: 假设 H0“喜欢体育还是喜欢文娱与性别没有关系”,若 H0 成立, 则 K2 应该很小. ∵a=21,b=23,c=6,d=29,n=79, ∴k=a+bcn+add-ab+cc2b+d =21+237×9×6+212×9×29-212+3×66×223+29≈8.106.
12
例4:为研究不同的给药方式(口服与注射)和药的效果(有效 与无效)是否有关,进行了相应的抽样调查,调查的结果列 在表中,根据所选择的193个病人的数据,能否作出药的效果 和给药方式有关的结论?
口服 注射 合计
有效 58 64 122
无效 40 31 71
合计 98 95 193
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
独立性检验的基本思想及其初步应用
如果“吸烟与患肺癌没有关系”,那么吸烟样
本中不患肺癌的比例应该与不吸烟样本中相应的比
例差不多.
所以
a a+
b
c
c +d
,
所以 a c + d ca + b,
ad bc
即 ad bc 0.
︱ad-bc︱越小,说明吸烟与患肺癌之间的关系越弱;
︱ad-bc︱越大,说明吸烟与患肺癌之间的关系越强.
患心脏病 患其他病 总计
秃顶
214
175
389
不秃顶
451
597
1 048
总计
665
772
1 437
(1)相应的等高条形图如下所示,
不患心脏病 患心脏病
秃顶
不秃顶
由图可认为秃顶与患心脏病有关系
吸烟与患肺癌列联表(单位:人)
不患肺癌
患肺癌
总计
不吸烟
7 775
42
7 817
吸烟
2 099
49
2 148
总计
9 874
91
9 965
在不吸烟者中患肺癌的比重是__0_._5_4_%_,
在吸烟者中患肺癌的比重是__2_._2_8_%_.
说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大.
K2
(n ad bc)2
(a b)(c d )(a c)(b d )
临界值表:
P ( K 2 k 0 ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
独立性检验的基本思想及其初步应用 课件
[29.94,29.98) 86
[30.10,30.14) 4
[29.98,30.02) 182
乙厂:
分组 频数 分组 频数
[29.86,29.90) 29
[30.02,30.06) 76
[29.90,29.94) 71
[30.06,30.10) 62
[29.94,29.98) 85
理科 138 98 236
文科 73 52 125
总计 211 150 361
根据列联表中数据由公式计算得 K2 的观测值为 k=3612×36×13182×5×522-117×3×159082≈1.871×10-4. 因为 1.871×10-4<2.706,所以据目前的数据不能认为学生选报 文、理科与对外语的兴趣有关,即可以认为学生选报文、理科与对 外语的兴趣无关. 点评:“有关”的检验:通过 2×2 列联表,先计算 K2 的观测 值 k,然后借助 k 的含义判断“两个分类变量有关系”这一结论成 立的可信程度.“无关” 的检验方法同 “有关” 的检验方法相 同.
A.统计方法的特点是统计推断准确、有效
B.独立性检验的基本思想类似于数学上的反证法
C.任何两个分类变量有关系的可信度都可以通过查 表得到
D.不能从等高条形图中看出两个分类变量是否相关 解析:根据独立性检验的概念知,选项B正 确.故选B. 答案:B
题型一 有关、无关的检验
例1 磨牙不仅影响别人休息,而且可能与患某种疾 病有关,下表是一次调查所得的数据,试问:每晚都磨 牙与肠道中有寄生虫有关吗?
所以有 99%的把握认为“两间分厂生产的零件的质量有差异”.
点评:解独立性检验问题的基本步骤: (1)认真读题,指出相关数据,得出2×2列联表; (2)根据2×2列联表中的数据,计算K2的观测值k; (3)通过观测值k与临界值k0的比较; (4)在犯错误的概率不超过a的前提下能否推断“X 与Y有关系”.
独立性检验的基本思想及初步应用教案
独立性检验的基本思想及初步应用教学目标:1. 了解独立性检验的基本思想及其在实际问题中的应用。
2. 学会使用假设检验方法判断两个分类变量之间是否具有独立性。
3. 掌握利用独立性检验解决实际问题的基本步骤。
教学内容:第一章:独立性检验的基本思想1.1 独立性检验的定义1.2 独立性检验的基本原理1.3 独立性检验的应用场景第二章:列联表与卡方检验2.1 列联表的定义及制作2.2 卡方检验的原理及计算2.3 卡方检验的判断标准第三章:假设检验方法3.1 假设检验的定义及类型3.2 独立性检验的假设条件3.3 独立性检验的步骤及注意事项第四章:实际问题中的应用4.1 案例一:产品质量检验4.2 案例二:消费者偏好调查4.3 案例三:疾病与性别关系的分析第五章:总结与拓展5.1 独立性检验在实际问题中的应用范围5.2 独立性检验的局限性5.3 独立性检验与其他统计方法的比较教学方法:1. 讲授:讲解独立性检验的基本思想、原理及应用。
2. 案例分析:分析实际问题,引导学生运用独立性检验解决问题。
3. 小组讨论:分组讨论案例,培养学生的合作与交流能力。
4. 练习与反馈:布置课后习题,及时了解学生掌握情况,给予针对性的指导。
教学评估:1. 课后习题:检验学生对课堂内容的掌握程度。
2. 案例分析报告:评估学生在实际问题中运用独立性检验的能力。
3. 课堂表现:观察学生在课堂讨论、提问等方面的参与度。
教学资源:1. 教材:独立性检验相关章节。
2. 案例材料:产品质量检验、消费者偏好调查、疾病与性别关系等实际问题。
3. 计算器:用于计算卡方值及概率。
教学时数:1. 共计4课时,每课时45分钟。
2. 分配如下:第一章1课时,第二章1课时,第三章1课时,第四章1课时。
第六章:多组独立性检验6.1 多组独立性检验的定义6.2 多组独立性检验的方法6.3 多组独立性检验的应用案例第七章:非参数检验7.1 非参数检验的定义及意义7.2 非参数检验方法简介7.3 独立性检验与非参数检验的比较第八章:独立性检验的软件操作8.1 统计软件的选择与操作8.2 独立性检验的软件实现8.3 结果解读与分析第九章:独立性检验在实际问题中的应用案例分析9.1 案例一:市场调查与分析9.2 案例二:教育公平性研究9.3 案例三:医学研究中的应用第十章:总结与展望10.1 独立性检验在统计学中的地位与作用10.2 独立性检验的发展趋势10.3 独立性检验在未来的挑战与机遇教学方法:1. 讲授:讲解多组独立性检验、非参数检验及软件操作相关知识。
独立性检验的基本思想及其初步应用(共10张PPT)
吸烟是与患肺癌列联表
不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
独立性检验原理〔与反证法类似〕:
反证法
假设检验
要证明结论A 备择假设H
在A不成立的前 在H不成立的条件下,即H成立的 提下进行推理 条件下进行推理
推出矛盾,意味 推出有利于H成立的小概率事件
那么吸烟能否对患肺癌有影响? 假设检验
42
在H不成立的条件下,下,即H成立的条件下进行推理
49
总计 7817 2148
总计
9874
91
9965
那么吸烟能否对患肺癌有影响?
第一步:提出假设检验问题H 推出矛盾,意味着结论A成立 在H不成立的条件下,即H成立的条件下进行推理 假设检验 在H不成立的条件下,即H成立的条件下进行推理 第一步:提出假设检验问题H 第二步:选择检验的目的 推出有利于H成立的小概率事件(概率不超过的事件)发生,意味着H成立的可能性 第一步:提出假设检验问题H 在H不成立的条件下,即H成立的条件下进行推理 那么吸烟能否对患肺癌有影响? 那么吸烟能否对患肺癌有影响? 推出有利于H成立的小概率事件不发生,接受原假设 推出有利于H成立的小概率事件(概率不超过的事件)发生,意味着H成立的可能性 第二步:选择检验的目的
独立性检验的根本思想 及其初步运用
分类变量
探求
为调查吸烟能否对患肺癌有影响,某肿瘤研讨所随机的调 查了9965人,得到如下结果〔单位:人〕
第一步:提出假设检验问题H
吸烟是与患肺癌列联表 假设检验
第二步:选择检验的目的 推出有利于H成立的小概率事件不发生,接受原假设
人教版高中数学选修2-3课件:3.2 独立性检验的基本思想及其初步应用(共38张PPT)
P(K2≥k0) 0.05 0.025 0.010 0.005 0.001
例如:
k0
3.841 5.024 6.635 7.879 10.828
①如果k≥10.828,就有99.9%的把握认为“X与Y有关系”;
②如果k≥7.879,就有99.5%的把握认为“X与Y有关系”;
③如果k≥6.635,就有99%的把握认为“X与Y有关系”;
≈7.8.
备课素材
附表:P(K2≥k0) k0
0.050 3.841
0.010 6.635
0.001 10.828
参照附表,得到的正确结论是 (A ) A.有99%以上的把握认为“爱好该项运动与性别有关” B.有99%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c
b+d a+b+c+d
若要推断的论述为H1:“X与Y有关系”,则可以按如下步骤判断H1成立的可能性:
预习探究
预习探究
P(K2≥k0) 0.50 0.40 0.25 0.15 0.10
k0
0.455 0.708 1.323 2.072 2.706
考点类析
考点一 两分类变量之间关联关系的定性分析
例1 为考察某种药物预防某种疾病的效果,进行了一 项动物试验,得到如下列联表:
服用药 未服用药
独立性检验
不
独立性检验的定义
上面这种利用随机变量K 上面这种利用随机变量 2来确定在多大程度上 可以认为“两个分类变量有关系”的方法, 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验 独立性检验。 个分类变量的独立性检验。
独立性检验的基本思想(类似反证法) 独立性检验的基本思想(类似反证法) 反证法
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r ——回归分析 定量变量——回归分析(画散点图、相关系数r、 相关指数R 残差分析) 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验 分类变量——
本节研究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响, 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965 9965人 得到如下结果(单位: 地调查了9965人,得到如下结果(单位:人)
二:求解假设检验问题
考虑假设检验问题: 考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路: 求解思路: 1. 在H0成立的条件下,构造与 0矛盾的小概 成立的条件下,构造与H 率事件; 率事件; 2. 如果样本使得这个小概率事件发生,就能 如果样本使得这个小概率事件发生, 以一定把握断言H 成立;否则, 以一定把握断言 1成立;否则,断言没有 发现样本数据与H 相矛盾的证据。 发现样本数据与 0相矛盾的证据。
的观测值k是大还是小呢 是大还是小呢? 怎样判断K2的观测值 是大还是小呢?
这仅需要确定一个正数 k0 ,当 k ≥ k0 时就认为K2的观测 的判断规则为: 值 k大。此时相应于 k0 的判断规则为: 大
0
就认为“两个分类变量之间有关系” 如果 k ≥ k0 ,就认为“两个分类变量之间有关系”;否则 就认为“两个分类变量之间没有关系” ----临界值 就认为“两个分类变量之间没有关系”。 临界值 k
独立性检验的基本思想及其初步应用(一)
第43课时独立性检验的基本思想及其初步应用(一)学习目标:通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题.教学重点;理解独立性检验的基本思想及实施步骤;教学难点:了解独立性检验的基本思想、了解随机变量2K的含义教学工具:Powerpoint、Excel教学过程:(一)复习引入1、回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.2、观察下列图片,吸烟与患肺癌有关系吗?你有多大程度把握吸烟与患肺癌有关?(二)推进新课问题1、我们在研究“吸烟与患肺癌的关系”时,需要关注哪一些量呢?引出两个新概念.①分类变量:变量的不同“值”表示个体所属不同类别的变量称为分类变量.分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别.如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.②列联表:分类变量的汇总统计表(频数表).如吸烟与患肺癌的列联表:一般我们只研究每个分类变量只取两个值,这样的列联表称为22.思考:由以上列联表,我们估计吸烟是否对患肺癌有影响?方法一:①在不吸烟者中患肺癌的比例为0.54%;②在吸烟者中患肺癌的比例为2.28%. 因此,直观上可以得到结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异. 方法二:我们还能够从图形中得到吸烟与患肺癌之间的关系吗? 如右图,是等高条形图展示列联表数据的频率特征,其中浅色条的高分别表示不吸烟和吸烟样本中不患肺癌的频率;两个深色条的高分别表示不吸烟和吸烟样本中患肺癌的频率.比较两个深色条的高可以发现,在吸烟样本中患肺癌的频率要高一些,因此直观上可以认为吸烟更容易引发肺癌.通过数据和图形分析,我们得到的直观判断是1H :吸烟和患肺癌有关,那么这种判断是否可靠呢? 思考:我们能够从多大程度上认为吸烟与患肺癌之间有关系呢?为了解决上述问题,我们先假设1H 不成立,即 0H :吸烟与患肺癌没有关系.设事件A 表示不吸烟,事件B 表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌相互独立”,由事件相互独立性性质,则“不吸烟与不患肺癌也是相互独立”的,即假设0H 成立等价于 ()()()P AB P A P B =由表可知,a 恰好为事件AB 发生的频数;a b +和a c +恰好分别为事件A 和事件B发生的频数,由于频率近似于概率,所以()()()P AB P A P B =成立时应该有 n c a n b a n a +⨯+≈,其中d c b a n +++=为样本容量,即))(()(c a b a a d c b a ++≈+++ 即bc ad ≈也就是说0H : “吸烟与患肺癌没有关系”成立的充要条件是bc ad ≈,那么这个式子到底能从量上告诉我们什么,怎样来进一步刻画?我们知道bc ad ≈,也就是说bc ad ,的值很接近,那么||ad bc -应该非常接近于0,于是有:问题:||ad bc -的大小说明什么问题?||ad bc -越小,说明0H 成立,即吸烟与患肺癌之间关系越弱; ||ad bc -越大,说明0H 不成立,即1H 成立,吸烟与患肺癌之间有关系.为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.重新审视问题:若0H :吸烟与患肺癌没有关系成立,则2K 应该很小.由上公式计算得到2K 的观测值为29965(777549422099)56.63278172148987491k ⨯-⨯=≈⨯⨯⨯ 这个值到底能告诉我们什么呢?显然,2K 的观测值“很大”,我们有理由认为0H 不成立,即1H 成立,吸烟与患肺癌之间有关系.值得注意的是“很大”是一个什么标准,在样本测量中必须有一个标准——临界值!于是统计学家经过研究发现,在0H 成立的情况下,2( 6.635)0.010.P K ≥≈(小概率事件,发生概率不到5%的事件)这里临界值为6.635,即在0H 成立的情况下,2K 的观测值大于6.635的概率非常小,近似于0.010,是一个小概率事件.也就是说,正常情况下(0H 成立的情况下)2K 的观测值有(以大概率)99%的时候小于6.635.到此,我们就明白了,2K =56.632≥6.635,发生了一个小概率事件,违背了正常情况(0H 成立),所以1H 成立,吸烟与患肺癌之间有关系.上面的过程实际上借助于随机变量2K 的观测值k ,建立了一个判断0H 是否成立的规则:如果 6.635k ≥,就判断0H 不成立,即吸烟与患肺癌有关系;否则就判断0H 成立,即吸烟与患肺癌没有关系.在该规则下,把结论“0H 成立”错判成“0H 不成立”的概率不会超过2( 6.635)0.010.P K ≥≈,即有99%的把握认为0H 不成立.知识形成1、分类变量:变量的不同“值”表示个体所属不同类别的变量称为分类变量.分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别. 2、列联表:分类变量的汇总统计表(频数表). 如吸烟与患肺癌的列联表.一般我们只研究每个分类变量只取两个值,这样的列联表称为22⨯.3、独立性检验:这种利用随机变量2K 来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.4、独立性检验基本思想的形成过程:第一步:提出假设检验问题0H:吸烟与患肺癌没有关系↔ 1H :吸烟与患肺癌有关系;第二步:选择检验的指标22()K ()()()()n ad bc a b c d a c b d -=++++(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大;(三)典例分析1、已知分类变量的列联表如下:和Y X 则下列说法正确的是( C )A bc ad -越小,说明Y 和X 关系越弱B bc ad -越大,说明Y 和X 关系越强C 2)(bc ad -越大,说明Y 和X 关系越强D 2)(bc ad -越接近于0,说明Y 和X 关系越强2、根据右边等高条形图,可知男女性别与患色盲 有 关系(填“有”或“没有”) 3、统计假设:0H )()()(B P A P AB P ⋅=成立时,有 以下判断:①)()()(B P A P B A P ⋅=;②)()()(B P A P B A P ⋅=;③)()()(BP A P B A P ⋅=其中真命题的个数是( C ) A 1 B 2 C 3 D 03、某大学要研究性别与职称(教授与副教授)之间是否有关系,你认为应该收集哪些数据女教授的人数,男教授的人数,女副教授的人数,男副教授的人数 .4、为了调查高中生的数学成绩和物理成绩的关系,在某校随机抽取部分学生调查,得到如下两个图表:根据以下图表,完成以下列联表5、在研究新措施对防治猪白痢是否有效时,得观测结果如上表右,试作出二维条形图并判断新措施对防治猪白痢是否有效? 解:作出二维条形图如下图所示,从二维条形图中,可以估计在新措施中的死亡数所占的比例为15018,在对照组中死亡数所占的比例为15036,二者的差值为15018|1503615018|=-,差别很大,因此从二维条形图中我们可以看出新措施对防治猪白痢是有效的.(四)课时小结1、独立性检验的基本思想;2、独立性检验的操作步骤;3、了解2×2列联表的意义与能识别二维条形图和等高条形图. (五)作业 P 97练习。
32独立性检验的基本思想及其初步应用精品文档
由公式计算得 K2 的观测值 k=2 428000××18702×0×8010-00902×0×1 2400002≈205.22. ………10 分 因为 205.22>10.828,因此在犯错误的概率不超过 0.001 的前提下认为实施西部开发战略的公布对应届大学毕业生 的选择产生了影响. …………………………………………………………12 分
≈325.635.
因为 325.635>6.635,因此,在犯错误的概率不超过 0.01
的前提下认为官员在经济上是否清廉与他们寿命的长短之
间是有关系的.
工具
第三章 统计案例
工具
第三章 统计案例
(2019·湖南高考)通过随机询问110名性别不同的大学生是否 爱好某项运动,得到如下的列联表:
男 女 总计
肠道中有寄生 虫
肠道中没有寄生 虫
合计
每晚都磨牙
224
30
254
不磨牙
24
1 355
1 379
合计
248
1 385
1 633
工具
第三章 统计案例
解析: 根据题意计算得 K2=a+bcn+add-ab+cc2b+d
=1
633×224×1 355-30×242 254×1 379×248×1 385
成绩不小于90分 70 75 145
合计 100 100 200
据此资料是否认为男生比女生成绩差.
工具
第三章 统计案例
工具
第三章 统计案例
[解题过程] 根据列联表中数据,由公式计算得 K2=20505××3104×5×751-002×5×107002≈0.627 ∵0.627<2.706,所以据目前的数据不能认为男生比女 生成绩差,即没理由说男生比女生成绩差.
独立性检验的基本思想及其初步应用导学(谢成志) (1)
3.2独立性检验的基本思想及其初步应用【学习目标】通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题。
【学习过程】问题的引入:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)吸烟与肺癌列联表患肺癌不患肺癌总计吸烟49 2099 2148不吸烟42 7775 7817总计91 9874 9965那么吸烟是否对患肺癌有影响?直观上来判断:在不吸烟的样本中,有_______%患肺癌;在吸烟的样本中,则有______%由此,吸烟群体和不吸烟群体患肺癌的可能性存在差异.但,这种“差异”有多大呢?能够有一个评判的标准呢?我们可以通过以下的统计分析回答这个问题。
独立性检验:1、把上表中数字用字母代替,得到如下用字母表示的列联表:吸烟与肺癌列联表不患肺癌患肺癌总计吸烟 a b a+b不吸烟 c d c+d总计a+c b+d a+b+c+d2、假设H :吸烟与患肺癌没有关系那么吸烟样本中不患肺癌的比例应该与不吸烟样本中不患肺癌的比例差不多,即: __________________________________________ 因此:bcad -越小说明吸烟与患肺癌之间的关系______.反之,则_____3、计算2K为了使不同样本变量的数据有统一的评测标准,构造一个随机变量2K = _________________________________________________________ 其中_______________=n 为样本容量.从而,若H 成立,即“吸烟与患肺癌没有关系”,则2K 应该_______,反之,2K 应该___________。
上题2K =56.632.这个值到底能告诉我们什么?能从中得到什么结论? 4、查表 P (2K >k0) 0.50 0.40 0.25 0.15 0.10 k0 0.4550.7081.3232.0722.706P (K2>k0) 0.05 0.025 0.010 0.005 0.001 k03.8415.0246.6357.87910.828上题中2K =56.632>10.828,所以001.0)828.10(2=>K P 该数据表明了在假设0H 成立的情况下,2K 的值大于10.828的概率非常小,为0.001,是一个小概率事件。
独立性检验的基本思想及初步应用教案
独立性检验的基本思想及初步应用一、教学目标1. 让学生理解独立性检验的基本思想,掌握独立性检验的步骤和应用。
2. 培养学生运用独立性检验解决实际问题的能力,提高学生的数据分析素养。
3. 引导学生运用数学软件或计算器进行独立性检验,培养学生的操作能力。
二、教学内容1. 独立性检验的基本思想(1)理解独立性检验的定义和作用。
(2)掌握独立性检验的基本步骤:提出假设、构造检验统计量、确定显著性水平、计算临界值、做出结论。
2. 独立性检验的初步应用(1)学会运用独立性检验解决实际问题,如判断两个分类变量是否独立。
(2)学会运用数学软件或计算器进行独立性检验,提高数据分析能力。
三、教学重点与难点1. 教学重点:(1)独立性检验的基本思想及步骤。
(2)独立性检验在实际问题中的应用。
(3)运用数学软件或计算器进行独立性检验。
2. 教学难点:(1)独立性检验步骤中构造检验统计量的方法。
(2)如何正确选择显著性水平。
四、教学方法与手段1. 教学方法:(1)讲授法:讲解独立性检验的基本思想和步骤。
(2)案例教学法:分析实际问题,引导学生运用独立性检验。
(3)实践操作法:让学生运用数学软件或计算器进行独立性检验。
2. 教学手段:(1)多媒体课件:展示独立性检验的基本思想和步骤。
(2)数学软件或计算器:让学生进行实际操作。
五、教学过程1. 导入新课:通过一个实际问题引入独立性检验的概念,激发学生的兴趣。
2. 讲解独立性检验的基本思想:讲解独立性检验的定义、作用和基本步骤,让学生理解独立性检验的基本思想。
3. 案例分析:分析一个实际问题,引导学生运用独立性检验,体会独立性检验在解决实际问题中的应用。
4. 实践操作:让学生运用数学软件或计算器进行独立性检验,培养学生的操作能力。
5. 总结与反思:总结本节课的主要内容,让学生巩固所学知识,并思考如何更好地运用独立性检验解决实际问题。
六、教学拓展1. 引导学生探讨独立性检验在实际应用中的局限性,如样本量对检验结果的影响。
独立性检验的基本思想及其初步应用 课件
等高条形图的应用
从发生交通事故的司机中抽取 2000 名司机作随 机样本,根据他们血液中是否含有酒精以及他们是否对事故负有 责任将数据整理如下:
有责任 无责任 总计
有酒精 650
150 800
ห้องสมุดไป่ตู้
无酒精 700
500 1200
总计 1350
650 2000
试分析血液中含有酒精与对事故负有责任是否有关系.
独立性检验的基本思想及其初步应用
1.分类变量和列联表 (1)分类变量 变量的不同“值”表示个体所属的 不同类别 ,像这样的 变量称为分类变量. (2)列联表 ①定义:两个分类变量的 频数表 称为列联表.
②2×2 列联表
一般地,假设两个分类变量 X 和 Y,它们的取值分别为 {x1,x2} 和{y1,y2},其样本频数列联表(也称为 2×2 列联表)
[解析] 作等高条形图如右图,图中阴影部分表示有酒精 负责任与无酒精负责任的比例,从图中可以看出,两者差距较 大,由此我们可以在某种程度上认为“血液中含有酒精与对事 故负有责任”有关系.
[点评] (1)通过等高条形图可以粗略地直观判断两个分类 变量是否有关系,一般地,在等高条形图中,a+a b与c+c d相差 越大,两个分类变量有关系的可能性就越大.
有甲、乙两个班级进行一门考试,按照学生考
试成绩优秀和不优秀统计后,得到如下的列联表
班级与成绩列联表
优秀 不优秀 总计
甲班 10
35
45
乙班 7
38
45
总计 17
73
90
试问能有多大把握认为“成绩与班级有关系”?
[错解] 由公式得:K2=90×17×107×3×7-453×5×45382=56.86, 56.86>6.635 所以有 99%的把握认为“成绩与班级有关 系”.
高一数学独立性检验的基本思想及其初步应用知识点 独立性检验的基本思想
高一数学独立性检验的基本思想及其初步应用知识点独立性检验的基本思想独立性检验的基本思想及其初步应用是高中数学的一个难点,有些知识点需要同学们了解,下面是WTT给大家带来的高一数学独立性检验的基本思想及其初步应用知识点,希高一数学独立性检验的基本思想及其初步应用知识点(一)独立性检验的基本思想及其初步应分类变量与列联表:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量;列出的两个分类变量的频数表,称为列联表。
独立性检验:为了使不同样本容量的数据有统一的评判标准,构造一个随机变量,其中n=a+b+c+d为样本容量。
利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验。
利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,具体做法是:(1)根据实际问题需要的可信程度确定临界值k0;(2)利用公式(1),由观测数据计算得到随机变量K2的观测值;(3)如果k>k0,就以(1-P(K2ge;k0))100的把握认为“与Y有关系”;否则就说样本观测数据没有提供“与Y有关系”的充分证据。
独立性检验的性质:独立性检验没有直观性,必须依靠K2的观测值k作判断。
独立性检验的一般步骤:(1)根据样本数据制成22列联表;(2)根据公式,计算K2的值;(3)查表比较K2与临界值的大小关系,作统计判断。
高一数学独立性检验的基本思想及其初步应用知识点(二)统计学的一种检验方式。
与适合性检验同属于2检验(即卡方检验,英文名:chi square test)它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。
假设有两个分类变量和Y,它们的值域分另为{1, 2}和{y1, y2},其样本频数列联表为:y1y2总计1aba+b2cdc+d总计a+cb+da+b+c+d若要推断的论述为H1:“与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。
独立性检验的基本思想及其初步应用.docx
课题独立性检验的基本思想及其初步应用(一)教学目标教学重点教学难点教学方法教学手段【知识与技能】1、了解独立性检验的基本思想、方法及初步应用。
2、会从列联表(只要求2 2 列联表)、柱形图、条形图直观分析两个分类变量是否有关。
3、会用K2公式判断两个分类变量在某种可信程度上的相关性。
【过程与方法】运用数形结合的方法,借助对典型案例的分析探究,了解独立性检验的基本思想,总结独立性检验的基本步骤。
【情感、态度与价值观】1、通过本节课的学习,让学生感受数学与现实生活的联系,体会独立性检验的基本思想在解决日常生活问题中的作用。
2、培养学生运用所学知识,依据独立性检验的思想作出合理推断的实事求是的好习惯。
理解独立性检验的基本思想及实施步骤。
独立性检验的基本思想和随机变量K 2的含义。
以教师为主导,以学生为主体,遵从学生认识规律进行启发,合作探究式进行学习。
多媒体辅助教学。
教学过程教学内容(一)创设情境,导入新课5 月 31 日是世界无烟日。
有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手。
这些疾病与吸烟有关的结论是怎样得出的呢我们看下面一个问题:为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965 人,得到如下结果(单位:人)表 1吸烟与患肺癌调查表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965那么吸烟是否对患肺癌有影响呢下面先来介绍一下与列联表相关的概念。
设计意图联系生活,引起共鸣,激发学生的学习兴趣。
(大屏幕展示)从生活的实例出发,让学生充分体一、相关概念会数学与1、分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量。
实际生活的联系,从2、列联表:像表 1 这样列出的两个分类变量的频数表,称为列联表。
(高中阶段我们只研究22 列联表。
)而使得本问题 1:根据列联表中的数据,计算吸烟者和不吸烟者中患肺癌的比节知识的重各是多少3、三维柱形图和二维条形图:形成更自将列联表中的数据输入到Excel 表格中,将数据呈现到图形中。
3.2 独立性检验的基本思想及其初步应用
3.2独立性检验的基本思想及其初步应用问题导学预习教材P91~P96的内容,并思考下列问题:1.分类变量与列联表分别是如何定义的?2.独立性检验的基本思想是怎样的?3.独立性检验的常用方法有哪些?1.分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.■名师点拨对2×2列联表的理解(1)2×2列联表用于研究两类变量之间是否相互独立,它适用于分析两类变量之间的关系,是对两类变量进行独立性检验的基础.(2)表中|ad-bc|越小,两个变量之间的关系越弱;|ad-bc|越大,两个变量之间的关系越强.2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.(2)观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.3.独立性检验(1)定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.■名师点拨独立性检验的基本思想与反证法的思想的相似之处1.判断正误(正确的打“√”,错误的打“×”)(1)列联表中的数据是两个分类变量的频数.( )(2)对事件A 与B 的独立性检验无关,即两个事件互不影响.( ) (3)K 2的大小是判断事件A 与B 是否相关的统计量.( )2. 为直观判断两个分类变量X 和Y 之间是否有关系,设它们的取值分别为{x 1,x 2}和{y 1,y 2},通过抽样得到频数表为:y 1 y 2 x 1 a b x 2cd( ) A .a a +c 与b b +dB .a a +d 与c b +cC .a b +d 和c a +cD .a c +d 和c a +b3.如图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的比例,从图中可以看出( )A .性别与喜欢理科无关B .女生中喜欢理科的比为80%C .男生比女生喜欢理科的可能性大些D .男生不喜欢理科的比为60% 4.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅临界值表来确定推断“X 和Y 有关系”的可信度,如果k >5.024,那么就推断“X 和Y 有关系”,这种推断犯错误的概率不超过( )P (K 2≥k 0)0.50 0.40 0.25 0.15 0.10 k 0 0.455 0.708 1.323 2.072 2.706 P (K 2≥k 0)0.05 0.025 0.01 0.005 0.001 k 03.8415.0246.6357.87910.828A .0.25 C .0.025D .0.975等高条形图的应用为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:铅中毒病人与尿棕色素为阳性是否有关系?(1)判断两个分类变量是否有关系的两种常用方法①利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.②一般地,在等高条形图中,a a +b 与c c +d 相差越大,两个分类变量有关系的可能性就越大.(2)利用等高条形图判断两个分类变量是否相关的步骤强化训练某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.独立性检验为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?1.把本例条件“理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.”换成“理科对外语有兴趣的有100人,无兴趣的有136人,文科对外语有兴趣的有93人,无兴趣的有32人.”其他条件不变,再求解该问题.解决独立性检验问题的基本步骤(1)根据已知的数据作出列联表.(2)作出相应的等高条形图,可以利用图形做出相应判断.(3)求K2的观测值.(4)判断可能性:与临界值比较,得出事件有关的可能性大小.强化训练某校推广新课改,在两个程度接近的班进行试验,一班为新课改班级,二班为非课改班级,经过一个学期的教学后对期末考试进行分析评价,规定:总分超过550(或等于550分)为优秀,550以下为非优秀,得到以下列联表:(1)请完成列联表;(2)根据列联表的数据,能否在犯错误的概率不超过0.005的前提下认为推广新课改与总成绩是否优秀有关系?参考数据:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d).基础训练1.在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是() A.频率分布直方图B.回归分析C.独立性检验D.用样本估计总体2.如表是一个2×2列联表:则表中a,b的值分别为()A.94,72 B.52,523.为考察A,B两种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是()A.药物B的预防效果优于药物A的预防效果B.药物A的预防效果优于药物B的预防效果C.药物A,B对该疾病均有显著的预防效果D.药物A,B对该疾病均没有预防效果4.分类变量X和Y的列表如下,则下列说法判断正确的是________.(填序号)①ad-bc②ad-bc越大,说明X与Y的关系越强;③(ad-bc)2越大,说明X与Y的关系越强;④(ad-bc)2越接近于0,说明X与Y的关系越强.能力提升1.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是()A.100个心脏病患者中至少有99人打鼾B.1个人患心脏病,则这个人有99%的概率打鼾C.100个心脏病患者中一定有打鼾的人D.100个心脏病患者中可能一个打鼾的人都没有2.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:() A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关C.在犯错误的概率不超过0.001的前提下认为课外阅读量大与作文成绩优秀有关D.在犯错误的概率不超过0.005的前提下认为课外阅读量大与作文成绩优秀有关3.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:() A.a=5,b=4,c=3,d=2 B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5 D.a=2,b=3,c=5,d=44.某班主任对全班50名学生进行了作业量的评价调查,所得数据如下表所示:A.0.01B.0.025 C.0.10 D.无充分证据5.独立性检验所采用的思路是:要研究X,Y两个分类变量彼此相关,首先假设这两个分类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.6.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________,从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.7.在调查的480名男性中有38名患有色盲,520名女性中有6名患有色盲,请列出2×2列联表,并估计色盲与性别是否有关系.8.(2018·高考全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:(3)根据(2)附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),9.2019年春节,“抢红包”成为社会热议的话题之一.某机构对春节期间用户利用手机“抢红包”的情况进行调查,如果一天内抢红包的总次数超过10次为“关注点高”,否则为“关注点低”,调查情况如下表所示:(1)点高低有关?(2)现要从上述男性用户中随机选出3名参加一项活动,以X表示选中的男性用户中抢红包总次数超过10次的人数,求随机变量X的分布列及数学期望E(X).下面的临界值表供参考:独立性检验统计量K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.。
独立性检验的基本思想及初步应用教案
独立性检验的基本思想及初步应用教案教学目标:1. 了解独立性检验的基本思想及应用;2. 学会使用独立性检验进行数据分析;3. 能够解释独立性检验的结果及意义。
教学内容:一、独立性检验的基本思想1. 引入独立性检验的概念;2. 解释独立性检验的目的;3. 阐述独立性检验的基本步骤。
二、独立性检验的初步应用1. 介绍独立性检验的应用场景;2. 展示独立性检验的实际案例;3. 引导学生通过独立性检验分析数据。
三、独立性检验的计算方法1. 介绍独立性检验的计算方法;2. 解释卡方统计量的含义;3. 演示如何计算卡方统计量及p值。
四、独立性检验的结果解释1. 解释独立性检验的结果;2. 讲解如何判断假设检验的结果;3. 强调独立性检验的局限性。
五、独立性检验的实践操作1. 引导学生使用统计软件进行独立性检验;2. 分析实际数据,展示独立性检验的操作过程;教学方法:1. 采用案例教学法,结合实际数据进行分析;2. 利用统计软件进行独立性检验的演示;3. 引导学生进行小组讨论,分享学习心得。
教学评估:1. 课后作业:要求学生独立完成独立性检验的练习题;2. 课堂问答:提问学生关于独立性检验的概念及应用;3. 小组报告:评估学生在小组讨论中的表现及成果。
教学资源:1. 独立性检验的教学案例及数据;2. 统计软件及相关教学视频;3. 独立性检验的练习题及答案。
六、独立性检验的拓展应用1. 介绍独立性检验在其他领域的应用;2. 分析不同领域中独立性检验的实际案例;3. 引导学生探讨独立性检验的潜在拓展方向。
七、独立性检验的优缺点分析1. 阐述独立性检验的优点;2. 讨论独立性检验的局限性;3. 比较独立性检验与其他统计方法的差异。
八、独立性检验在实际研究中的应用案例1. 分享独立性检验在实际研究中的经典案例;2. 分析案例中独立性检验的使用方法和结果;3. 引导学生从案例中学习独立性检验的应用技巧。
九、独立性检验的敏感性分析1. 介绍独立性检验的敏感性分析概念;2. 解释敏感性分析在独立性检验中的作用;3. 演示如何进行独立性检验的敏感性分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不
独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。
独立性检验的基本思想(类似反证法)
一:假设检验问题的原理
假设检验问题由两个互斥的假设构成,其 中一个叫做原假设,用H0 表示;另一个叫做备 择假设,用H1表示。 例如,在前面的例子中, 原假设为: H0:面包份量足, 备择假设为: H1:面包份量不足。 这个假设检验问题可以表达为:
H0:面包份量足 ←→ H1:面包份量不足
二:求解假设检验问题
2
在实际应用中,要在获取样本数据之前通过下表确定临界值:
P(K k0 )
2
k0
P(K k0 )
2
0.50 0.40 0.25 0.15 0.455 0.708 1.323 2.072 0.05 0.025 0.010 0.005 3.841 5.024 6.636 7.879
0.10 2.706 0.001 10.828
K
2
n(ad bc)
2
(a b)(c d )(a c)(b d )
,
(1)
其中n a b c d 为样本容量。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
9965(7775 49 42 2099)
5000
4000
不吸烟 不患肺癌 患肺癌
3000 2000 1000
吸烟
从三维柱形图能清晰看出 各个频数的相对大小。
0
不吸烟
吸烟
从二维条形图能看出,吸烟者中 患肺癌的比例高于不患肺癌的比例。
4、等高条形图
1 0.9
0.8
患肺癌 比例
0.7
0.6
0.5
0.4
0.3
0.2
不患肺癌 变量K2的含义,可以通过评价该假设不合理的 程度,由实际计算出的,说明假设合理的程度为99%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%.
怎样判断K2的观测值k是大还是小呢?
这仅需要确定一个正数 k 0 ,当 k k 0 时就认为K2的观测 值 k大。此时相应于 k 0 的判断规则为: 如果 k k 0 ,就认为“两个分类变量之间有关系”;否则 就认为“两个分类变量之间没有关系”。 k ----临界值
3.2独立性检验的 基本思想及其初 步应用(一)
高二数学 选修2-3
第三章
统计案例
问题: 数学家庞加莱每天都从一家面包店
买一块1000g 的面包,并记录下买回的面 包的实际质量。一年后,这位数学家发 现,所记录数据的均值为950g。于是庞 加莱推断这家面包店的面包分量不足。 • 假设“面包份量足”,则一年购买面包的质量数据 的平均值应该不少于1000g ; • “这个平均值不大于950g”是一个与假设“面包份量 足”矛盾的小概率事件; • 这个小概率事件的发生使庞加莱得出推断结果。
若要判断的结论为:H1 :“X与Y有关系”,可以 按如下步骤判断H1成立的可能性: 1、通过三维柱形图和二维条形图,可以粗略地判断两个变
量是否有关系,但是这种判断无法精确地给出所得结论的可靠 程度。 (1)在三维柱形图中, 主对角线上两个柱形高度的乘积 ad与副对角线上两个柱形高度的乘积bc相差越大,H1成立的 可能性就越大。 a a b c (2)在二维条形图中,可以估计满足条件X=x1的个体中具 a c d 有Y=y1的个体所占的比例 a b ,也可以估计满足条件X=x2
本节研究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟
吸烟 总计
7775
2099 9874
42
49 91
7817
2148 9965
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
不患肺癌 a c a+c
患肺癌 b d b+d
总计 a+b c+d a+b+c+d
不吸烟 吸烟 总计
不患肺癌 a c a+c
患肺癌 b d b+d
总计 a+b c+d a+b+c+d
在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事 件A和B发生的频数。由于频率接近于概率,所以在H0成立的条 件下应该有 P ( A ) a + b , P ( B ) a + c , P ( A B ) a .
在H 0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99%的把握认为 H 0不成立,即有99%的把握认为“吸烟 与患肺癌有关系”。
判断 H 0是否成立的规则
如果 k 6.635 ,就判断 H 0 不成立,即认为吸烟与 患肺癌有关系;否则,就判断 H 0 成立,即认为吸烟 与患肺癌有关系。
c
的个体中具有Y=y1的个体所占的比例c d 。两个比例相差越 大,H1成立的可能性就越大。
2、可以利用独立性检验来考察两个分类变量是否有关系,并
且能较精确地给出这种判断的可靠程度。
具体作法是: (1)根据实际问题需要的可信程度确定临界值 k 0; (2)利用公式(1),由观测数据计算得到随机变量 K 2 的观测值; (3)如果 k k 0 ,就以 (1 P ( K k 0 )) 100% 的把握认为“X 与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。
0
按照上述规则,把“两个分类变量之间有没关系”错误的判断 2 为“两个分类变量之间有关系”的概率为P( k ). K 0 在实际应用中,我们把 k k0解释为有(1 P ( K 2 k )) 100% 的把握认为“两个分类变量之间有关系”;把 k0 解释为 k 不能以 P ( K 2 k )) 100% 的把握认为“两个分类变量 (1 之间有关系”,或者样本观测数据没有提供“两个分类变量 之间有关系”的充分证据。
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
通过图形直观判断两个分类变量是否相关: 1、列联表 2、三维柱形图
不吸烟 吸烟 总计 不患肺癌 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
3、二维条形图
8000 7000 6000 不患肺癌 患肺癌
n
n
n
a n
≈
a+b n
×
a+c n
其 中 n = a + b + c + d为 样 本 容 量 , 即
(a+b+c+d)a (a+b) (a+c),
即 ad bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分 析,我们构造一个随机变量-----卡方统计量
0
吸烟
吸烟
等高条形图更清晰地表达了两种情况下患肺癌的比例。
上面我们通过分析数据和图形,得到的直观印象是吸烟和 患肺癌有关,那么事实是否真的如此呢?这需要用统计观点 来考察这个问题。 现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设
H0:吸烟与患肺癌没有关系.
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系” 等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B). 把表中的数字用字母代替,得到如下用字母表示的列联表 不吸烟 吸烟 总计
考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路:
1. 在H0成立的条件下,构造与H0矛盾的小概 率事件; 2. 如果样本使得这个小概率事件发生,就能 以一定把握断言H1成立;否则,断言没有 发现样本数据与H0相矛盾的证据。
两种变量:
定 量 变 量 : 体 重 、 身 高 、 温 度 、 考 试 成 绩 等 等 。 变 量 分 类 变 量 : 性 别 、 是 否 吸 烟 、 是 否 患 肺 癌 、 宗教信仰、国籍等等。
思考
如果K
2
6 .6 3 5, 就 断 定 H 0 不 成 立 , 这 种 判 断 出 错 的 可 能 性 有 多 大 ?
答:判断出错的概率为0.01。
9965( 7775 49 42 2099) 7817 2148 9874 91
2
现在观测值k
56.632太大了,
2
k
7817 2148 9874 91
56.632
(2)
那么这个值到底能告诉我们什么呢?
在H0成立的情况下,统计学家估算出如下的概率 2 P( K 6.635) 0.01. (2) 即在H0 成立的情况下,K2 的值大于6.635的概率非常小,近似 于0.01。 也就是说,在H0成立的情况下,对随机变量K2进行多次观 测,观测值超过6.635的频率约为0.01。
k0
例1.在500人身上试验某种血清预防感冒作用,把他们一年中 的感冒记录与另外500名未用血清的人的感冒记录作比较,结 果如表所示。
未感冒 使用血清 未使用血清 合计 252 224 476 感冒 248 276 524 合计 500 500 1000