§3.2独立性检验的基本思想及其初步应用(一)
第三章--统计案例-3.2-独立性检验的基本思想及其初步应用
解:由列联表中的数据,得 K2 的观测值为 1 633×30×1 355-224×242 k= ≈68.033>10.828. 254×1 379×54×1 579 因此,在犯错误的概率不超过 0.001 的前提下,认为每 一晚都打鼾与患心脏病有关.
为了调查某生产线上,某质量监督员甲对产
品质量好坏有无影响,现统计数据如下:质量监督员在现 场时,990件产品中合格品为 982 件,次品数为 8 件,甲不 在现场时,510件产品中合格品为493件,次品数为17件, 试分别用列联表、等高条形图、假设检验的方法对数据进
的方法来判断色盲与性别是否有关?你所得的结论在什么
范围内有效? 解:根据题目所给的数据作出如下的列联表: 色盲 不色盲 合计
男 女 合计
38 6 44
442 514 956
480 520 1 000
根据列联表作出相应的等高条形图,如图所示:
38 从等高条形图来看在男人中患色盲的比例480比在女人
38 6 6 中患色盲的比例520要大,其差值为480-520 ≈0.068,差
位统一,图形准确,但它不能给我们两个分类变量有关或
无关的精确的判断,若要作出精确的判断,可以进行独立 性检验的有关计算.
本题应首先作出调查数据的列联表,再根据列联表画
出等高条形图,并进行分析,ห้องสมุดไป่ตู้后利用独立性检验作出判 断.
在调查 480 名男士中有 38 名患有色盲, 520名女士中有6名患有色盲,分别利用图形和独立性检验
步
骤
③如果 k≥k0 ,就推断“X与Y有关系”,这种推断
犯错误的概率不超过α;否则,就认为在犯错误的概 率不超过α的前提下不能推断“X与Y有关系”,或者 在样本数据中没有发现足够证据支持结论“X与Y有 关系”.
高中数学3.2独立性检验的基本思想及其初步应用优秀课件
例2 为考察高中生的性别与是否喜欢数学课程 之间的关系,在某城市的某校高中生中随机 抽出 300 名学生, 得到如下列联表 :
表3 12 性别与喜欢数学课程列联表
喜欢数学课程 不喜欢数学课程 总计
男
37
85
122
女
35
143
178
3.2 独立性检验的根本思想及其初步应用
一、分类变量的定义
对于性别变量,其取值为男和女两种.
这种变量的不同“值〞表示个体所属的不同类别, 像这类变量称为分类变量.
生活中的分类变量
是否吸烟,宗教信仰,国籍…
两个分类变量之间是否有关系?
吸烟
患肺癌
性别
是否喜欢 数学课程
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查
患心脏病 患其他病 总计
秃顶
214
175
389
不秃顶 451
597
1048
总计
665
772
1437
根据列联表3 11中的数据,得到
K2 1437 214 597 175 4512 16.373 6.635 .
389 1048 665 772
所以有99%的把握认为"秃顶与患心脏病有关".
例1 在某医院,因为心脏病而住院的 665 名男性 病人中,有214 人秃顶,而另外772 名不是因为患心 脏病而住院的男性病人中有175 人秃顶.分别利用 图形和独立性检验方法判断秃顶与患心脏病是否
有关系? 你所得的结论在什么范围内有效?
解 根据题目所给数据得到如下列联表
表3 11 秃顶与患心脏病列联表
独立性检验的基本思想及其初步应用
如果“吸烟与患肺癌没有关系”,那么吸烟样
本中不患肺癌的比例应该与不吸烟样本中相应的比
例差不多.
所以
a a+
b
c
c +d
,
所以 a c + d ca + b,
ad bc
即 ad bc 0.
︱ad-bc︱越小,说明吸烟与患肺癌之间的关系越弱;
︱ad-bc︱越大,说明吸烟与患肺癌之间的关系越强.
患心脏病 患其他病 总计
秃顶
214
175
389
不秃顶
451
597
1 048
总计
665
772
1 437
(1)相应的等高条形图如下所示,
不患心脏病 患心脏病
秃顶
不秃顶
由图可认为秃顶与患心脏病有关系
吸烟与患肺癌列联表(单位:人)
不患肺癌
患肺癌
总计
不吸烟
7 775
42
7 817
吸烟
2 099
49
2 148
总计
9 874
91
9 965
在不吸烟者中患肺癌的比重是__0_._5_4_%_,
在吸烟者中患肺癌的比重是__2_._2_8_%_.
说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大.
K2
(n ad bc)2
(a b)(c d )(a c)(b d )
临界值表:
P ( K 2 k 0 ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
3.2独立性检验的基本思想及其应用
导语
对于性别变量,其取值为男和女两种。这种变 量的不同“值”表示个体所属的不同类别,像这样 的变量称为分类变量。在现实生活中,分类变量是 大量存在的,例如是否吸烟、宗教信仰、国籍等等。
导语
对于性别变量,其取值为男和女两种。这种变 量的不同“值”表示个体所属的不同类别,像这样 的变量称为分类变量。在现实生活中,分类变量是 大量存在的,例如是否吸烟、宗教信仰、国籍等等。
复方江剪刀草 胆黄片 合计
有效 184 91 275
无效 61 9 70
合计 245 100 345
解:设H0:两种中草药的治疗效果没有差异。
K 2 345184 9 61 912 11.098
275 70 245100
因当H0成立时,χ2≥10.828的概率为0.001,故有99.9%的把握 认为,两种药物的疗效有差异。
比例
0.6
0.5
0.4
患肺癌
0.3
比例
0.2
0.1
0
不不吸吸烟烟
吸吸烟烟
其中两个浅色条的高分别表示不吸烟和吸烟样本中不患肺癌的 频率;两个深色条的高分别表示不吸烟和吸烟样本中患肺癌的频率.
比较图中两个深色条的高可以发现,在吸烟样本中患肺癌的频 率要高一些,因此直观上可以认为吸烟更容易引发肺癌.
上面我们通过分析数据和图形,得到的直观印象是吸烟和 患肺癌有关,那么这种判断是否可靠呢?这就需要通过统计 分析回答这个问题.
在日常生活中,我们常常关心两个分类变量之 间是否有关系。例如吸烟与患肺癌是否有关系?性 别是否对喜欢数学课程有影响?等等。
探究
为研究吸烟是否对肺癌有影响,某肿瘤研究所随 机地调查了9965人,得到如下结果(单位:人)
课件9:§3.2 独立性检验的基本思想及其初步应用
解:等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样 本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色 素为阳性的频率差异明显,因此铅中毒病人与尿棕色素 为阳性有关系.
规律方法 (1)判断两个分类变量是否有关系的两种常用方法 ①利用数形结合思想,借助等高条形图来判断两个分类 变量是否相关是判断变量相关的常见方法. ②一般地,在等高条形图中,a+a b与c+c d相差越大, 两个分类变量有关系的可能性就越大.
解:根据题目所给数据得如下 2×2 列联表:
合格品数 次品数 总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总计
1 475
25
1 500
所 以 ad - bc = 982×17 - 8×493=12 750,|ab-bc|比较 大,说明甲在不在生产现场与 产品质量好坏有关系.相应的 等高条形图如图所示: 图中两个阴影部分的高分别表示甲在生产现场和甲不 在生产现场时样本中次品数的频率.
0.708 0.025
1.323 0.01
2.072 0.005
2.706 0.001
k0 A.0.25
3.841 5.024 6.635
B.0.75
C.0.025
7.879 10.828 D.0.975
【解析】因为 P(k>5.024)=0.025,故在犯错误的概率不 超过 0.025 的前提下,认为“X 和 Y 有关系”. 【答案】C
名师点拨
独立性检验的基本思想与反证法的思想的相似之处
反证法
独立性检验
要证明结论 A 要确认“两个分类变量有关系”
独立性检验的基本思想及其初步应用(1)
一般地,假设有两个分类变量X和Y,它们的可能取值 分别为{x1,x2}和{y1,y2},其样本频数列联表(称为 2x2列联表)为: y1 x1 x2 总计 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d
若要判断结论为:H1 :“X与Y有关系”,可按如下步 骤判断H1成立的可能性: 1.通过三维柱形图和二维条形图,可以初略地判断两个 分类变量是否有关系,但是这种判断无法精确地给出所 得结论的可靠程度. (i)在三维柱形图中,主对角线上两个柱形高度的乘积 ad与副对角线上的两个柱形高度的乘积bc相差越大, H1成立的可能性就越大. (ii)在二维条形图中,可以估计满足条件X=x1的个体中 件X=x2的个体中具有Y=y1的个体所占的比例
有时也可以把分类变量的不同取值用数字来表示,但 这时的数字除了分类以外没有其他的含义,
例如用0表示“男”,1表示“女”,性别变量就变成 取值为0和1的随机变量,但是这些数字没有其他的含 义. 此时比较性别变量的两个不同值之间的大小没有意义,
性别变量的均值和方差也没有意义. 两个分类变量的相关关系的分析:通过图形直观判 断两个分类变量是否相关;独立性检验.
a 具有Y=y1的个体所占的比例 ,也可以估计满足条 ab c
cd 个比例的值相差越大,H1成立的可能性就越大.
,两
利用独立性检验来考察两个分类变量是否有关系,能 较精确地给出这种判断的可靠程度. 具体作法是:
(1)根据实际问题需要的可信程度确定临界值k0;
(2)由观测数据计算得到随机变量K2的观测值k;
1、列联表 2、三维柱形图
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
人教版高中数学选修2-3课件:3.2 独立性检验的基本思想及其初步应用(共38张PPT)
P(K2≥k0) 0.05 0.025 0.010 0.005 0.001
例如:
k0
3.841 5.024 6.635 7.879 10.828
①如果k≥10.828,就有99.9%的把握认为“X与Y有关系”;
②如果k≥7.879,就有99.5%的把握认为“X与Y有关系”;
③如果k≥6.635,就有99%的把握认为“X与Y有关系”;
≈7.8.
备课素材
附表:P(K2≥k0) k0
0.050 3.841
0.010 6.635
0.001 10.828
参照附表,得到的正确结论是 (A ) A.有99%以上的把握认为“爱好该项运动与性别有关” B.有99%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c
b+d a+b+c+d
若要推断的论述为H1:“X与Y有关系”,则可以按如下步骤判断H1成立的可能性:
预习探究
预习探究
P(K2≥k0) 0.50 0.40 0.25 0.15 0.10
k0
0.455 0.708 1.323 2.072 2.706
考点类析
考点一 两分类变量之间关联关系的定性分析
例1 为考察某种药物预防某种疾病的效果,进行了一 项动物试验,得到如下列联表:
服用药 未服用药
独立性检验的基本思想及其初步应用(一)
第43课时独立性检验的基本思想及其初步应用(一)学习目标:通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题.教学重点;理解独立性检验的基本思想及实施步骤;教学难点:了解独立性检验的基本思想、了解随机变量2K的含义教学工具:Powerpoint、Excel教学过程:(一)复习引入1、回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.2、观察下列图片,吸烟与患肺癌有关系吗?你有多大程度把握吸烟与患肺癌有关?(二)推进新课问题1、我们在研究“吸烟与患肺癌的关系”时,需要关注哪一些量呢?引出两个新概念.①分类变量:变量的不同“值”表示个体所属不同类别的变量称为分类变量.分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别.如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.②列联表:分类变量的汇总统计表(频数表).如吸烟与患肺癌的列联表:一般我们只研究每个分类变量只取两个值,这样的列联表称为22.思考:由以上列联表,我们估计吸烟是否对患肺癌有影响?方法一:①在不吸烟者中患肺癌的比例为0.54%;②在吸烟者中患肺癌的比例为2.28%. 因此,直观上可以得到结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异. 方法二:我们还能够从图形中得到吸烟与患肺癌之间的关系吗? 如右图,是等高条形图展示列联表数据的频率特征,其中浅色条的高分别表示不吸烟和吸烟样本中不患肺癌的频率;两个深色条的高分别表示不吸烟和吸烟样本中患肺癌的频率.比较两个深色条的高可以发现,在吸烟样本中患肺癌的频率要高一些,因此直观上可以认为吸烟更容易引发肺癌.通过数据和图形分析,我们得到的直观判断是1H :吸烟和患肺癌有关,那么这种判断是否可靠呢? 思考:我们能够从多大程度上认为吸烟与患肺癌之间有关系呢?为了解决上述问题,我们先假设1H 不成立,即 0H :吸烟与患肺癌没有关系.设事件A 表示不吸烟,事件B 表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌相互独立”,由事件相互独立性性质,则“不吸烟与不患肺癌也是相互独立”的,即假设0H 成立等价于 ()()()P AB P A P B =由表可知,a 恰好为事件AB 发生的频数;a b +和a c +恰好分别为事件A 和事件B发生的频数,由于频率近似于概率,所以()()()P AB P A P B =成立时应该有 n c a n b a n a +⨯+≈,其中d c b a n +++=为样本容量,即))(()(c a b a a d c b a ++≈+++ 即bc ad ≈也就是说0H : “吸烟与患肺癌没有关系”成立的充要条件是bc ad ≈,那么这个式子到底能从量上告诉我们什么,怎样来进一步刻画?我们知道bc ad ≈,也就是说bc ad ,的值很接近,那么||ad bc -应该非常接近于0,于是有:问题:||ad bc -的大小说明什么问题?||ad bc -越小,说明0H 成立,即吸烟与患肺癌之间关系越弱; ||ad bc -越大,说明0H 不成立,即1H 成立,吸烟与患肺癌之间有关系.为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.重新审视问题:若0H :吸烟与患肺癌没有关系成立,则2K 应该很小.由上公式计算得到2K 的观测值为29965(777549422099)56.63278172148987491k ⨯-⨯=≈⨯⨯⨯ 这个值到底能告诉我们什么呢?显然,2K 的观测值“很大”,我们有理由认为0H 不成立,即1H 成立,吸烟与患肺癌之间有关系.值得注意的是“很大”是一个什么标准,在样本测量中必须有一个标准——临界值!于是统计学家经过研究发现,在0H 成立的情况下,2( 6.635)0.010.P K ≥≈(小概率事件,发生概率不到5%的事件)这里临界值为6.635,即在0H 成立的情况下,2K 的观测值大于6.635的概率非常小,近似于0.010,是一个小概率事件.也就是说,正常情况下(0H 成立的情况下)2K 的观测值有(以大概率)99%的时候小于6.635.到此,我们就明白了,2K =56.632≥6.635,发生了一个小概率事件,违背了正常情况(0H 成立),所以1H 成立,吸烟与患肺癌之间有关系.上面的过程实际上借助于随机变量2K 的观测值k ,建立了一个判断0H 是否成立的规则:如果 6.635k ≥,就判断0H 不成立,即吸烟与患肺癌有关系;否则就判断0H 成立,即吸烟与患肺癌没有关系.在该规则下,把结论“0H 成立”错判成“0H 不成立”的概率不会超过2( 6.635)0.010.P K ≥≈,即有99%的把握认为0H 不成立.知识形成1、分类变量:变量的不同“值”表示个体所属不同类别的变量称为分类变量.分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别. 2、列联表:分类变量的汇总统计表(频数表). 如吸烟与患肺癌的列联表.一般我们只研究每个分类变量只取两个值,这样的列联表称为22⨯.3、独立性检验:这种利用随机变量2K 来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.4、独立性检验基本思想的形成过程:第一步:提出假设检验问题0H:吸烟与患肺癌没有关系↔ 1H :吸烟与患肺癌有关系;第二步:选择检验的指标22()K ()()()()n ad bc a b c d a c b d -=++++(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大;(三)典例分析1、已知分类变量的列联表如下:和Y X 则下列说法正确的是( C )A bc ad -越小,说明Y 和X 关系越弱B bc ad -越大,说明Y 和X 关系越强C 2)(bc ad -越大,说明Y 和X 关系越强D 2)(bc ad -越接近于0,说明Y 和X 关系越强2、根据右边等高条形图,可知男女性别与患色盲 有 关系(填“有”或“没有”) 3、统计假设:0H )()()(B P A P AB P ⋅=成立时,有 以下判断:①)()()(B P A P B A P ⋅=;②)()()(B P A P B A P ⋅=;③)()()(BP A P B A P ⋅=其中真命题的个数是( C ) A 1 B 2 C 3 D 03、某大学要研究性别与职称(教授与副教授)之间是否有关系,你认为应该收集哪些数据女教授的人数,男教授的人数,女副教授的人数,男副教授的人数 .4、为了调查高中生的数学成绩和物理成绩的关系,在某校随机抽取部分学生调查,得到如下两个图表:根据以下图表,完成以下列联表5、在研究新措施对防治猪白痢是否有效时,得观测结果如上表右,试作出二维条形图并判断新措施对防治猪白痢是否有效? 解:作出二维条形图如下图所示,从二维条形图中,可以估计在新措施中的死亡数所占的比例为15018,在对照组中死亡数所占的比例为15036,二者的差值为15018|1503615018|=-,差别很大,因此从二维条形图中我们可以看出新措施对防治猪白痢是有效的.(四)课时小结1、独立性检验的基本思想;2、独立性检验的操作步骤;3、了解2×2列联表的意义与能识别二维条形图和等高条形图. (五)作业 P 97练习。
32独立性检验的基本思想及其初步应用精品文档
由公式计算得 K2 的观测值 k=2 428000××18702×0×8010-00902×0×1 2400002≈205.22. ………10 分 因为 205.22>10.828,因此在犯错误的概率不超过 0.001 的前提下认为实施西部开发战略的公布对应届大学毕业生 的选择产生了影响. …………………………………………………………12 分
≈325.635.
因为 325.635>6.635,因此,在犯错误的概率不超过 0.01
的前提下认为官员在经济上是否清廉与他们寿命的长短之
间是有关系的.
工具
第三章 统计案例
工具
第三章 统计案例
(2019·湖南高考)通过随机询问110名性别不同的大学生是否 爱好某项运动,得到如下的列联表:
男 女 总计
肠道中有寄生 虫
肠道中没有寄生 虫
合计
每晚都磨牙
224
30
254
不磨牙
24
1 355
1 379
合计
248
1 385
1 633
工具
第三章 统计案例
解析: 根据题意计算得 K2=a+bcn+add-ab+cc2b+d
=1
633×224×1 355-30×242 254×1 379×248×1 385
成绩不小于90分 70 75 145
合计 100 100 200
据此资料是否认为男生比女生成绩差.
工具
第三章 统计案例
工具
第三章 统计案例
[解题过程] 根据列联表中数据,由公式计算得 K2=20505××3104×5×751-002×5×107002≈0.627 ∵0.627<2.706,所以据目前的数据不能认为男生比女 生成绩差,即没理由说男生比女生成绩差.
3.2独立性检验的基本思想及其初步应用
k2≥6.635
4.某班主任对全班50名学生进行了作业量多 少的调查,数据如下表: 认为作业多 玩游戏 不玩游戏 总 计 18 8 26 认为作业不多 总计 9 15 24 27 23 50
则认为喜欢玩游戏与认为作业量多少有关系的 把握大约为( B ) A. 99% B. 97.5% C. 90% D.无充分依据
2. 下面是一个
2 2
21 25 46
列联表 总计
不健康 健 康
不优秀 a 优 秀 2 总 计 b
73 27 100
则表中a,b的值分别是( c ) A. 94,96 B. 52,50 C. 52,54 D. 54,52
3. 在独立性检验中,当统计量满足 时, 我们有99%的把握认为这两个分类变量有 关系.
枣庄市第十八中学
主讲人 秦真
一、目标展示
1、了解独立性检验的基本思想、方法及其初 步应用。 2、会从列联表(只要求2×2列联表)、条形 图直观分析两个分类变量是否有关
3.会用公式判断两个分类变量在某种程度上的 相关性
问题: 数学家庞加莱每天都从一家
面包店买一块1000g 的面包,并记 录下买回的面包的实际质量。一年 后,这位数学家发现,所记录数据 的均值为950g。于是庞加莱推断这 家面包店的面包分量不足。
思想方法上: 数形结合的思想, 类比的思想
作业:教材习题3.2 1,2
当堂达标
1.在吸烟与患肺病这两个分类变量的计算中,下 列说法正确的是 ( c ) A. 若k=6.635,则有99%的把握认为吸烟与患肺病 有关,那么100名吸烟者中,有99个患肺病. B. 从独立性检验可知,有99%的把握认为吸烟与 患肺病有关时,可以说某人吸烟,那么他有99%的可 能性患肺病. C. 若从统计量中求出有95%的把握认为吸烟与患 肺病有关,是指有5%的可能性使推断出现错误. D. 以上三种说法都不对.
独立性检验的基本思想及其初步应用导学(谢成志)
3.2独立性检验的基本思想及其初步应用【学习目标】通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题。
【学习过程】问题的引入:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)吸烟与肺癌列联表 患肺癌 不患肺癌 总计 吸烟 49 2099 2148 不吸烟 42 7775 7817 总计9198749965那么吸烟是否对患肺癌有影响? 直观上来判断:在不吸烟的样本中,有_______%患肺癌;在吸烟的样本中,则有______% 由此,吸烟群体和不吸烟群体患肺癌的可能性存在差异.但,这种“差异”有多大呢?能够有一个评判的标准呢?我们可以通过以下的统计分析回答这个问题。
独立性检验:1、把上表中数字用字母代替,得到如下用字母表示的列联表:吸烟与肺癌列联表 不患肺癌 患肺癌 总计 吸烟 a b a+b 不吸烟 c d c+d 总计a+cb+da+b+c+d2、假设0H :吸烟与患肺癌没有关系那么吸烟样本中不患肺癌的比例应该与不吸烟样本中不患肺癌的比例差不多,即: __________________________________________因此:bcad -越小说明吸烟与患肺癌之间的关系______.反之,则_____3、计算2K为了使不同样本变量的数据有统一的评测标准,构造一个随机变量2K = _________________________________________________________ 其中_______________=n 为样本容量.从而,若0H 成立,即“吸烟与患肺癌没有关系”,则2K 应该_______,反之,2K 应该___________。
上题2K =56.632.这个值到底能告诉我们什么?能从中得到什么结论? 4、查表 P (2K >k0) 0.50 0.40 0.25 0.15 0.10 k0 0.4550.7081.3232.0722.706P (K2>k0) 0.05 0.025 0.010 0.005 0.001 k03.8415.0246.6357.87910.828上题中2K =56.632>10.828,所以001.0)828.10(2=>K P 该数据表明了在假设0H 成立的情况下,2K 的值大于10.828的概率非常小,为0.001,是一个小概率事件。
独立性检验的基本思想及其初步应用
【解】 根据题目所给数据得如下 2×2 列联表:
(a c)(b d) n(a b)(c d)
课堂练习
1.下列关于等高条形图的叙述正确的是( ) A.从等高条形图中可以精确地判断两个分类变量是否有关系 B.从等高条形图中可以看出两个变量频数的相对大小 C.从等高条形图可以粗略地看出两个分类变量是否有关系 D.以上说法都不对 解析:选 C.在等高条形图中仅能粗略判断两个分类变量的关 系,故 A 错.在等高条形图中仅能找出频率,无法找出频数, 故 B 错.
有关概念:分类变量
对于性别变量,其取值为男和女两种,这种变量的 不同“值”表示个体所属的不同类别,像这样的变量称 为分类变量.如是否吸烟、是否患肺癌、宗教信仰、国 籍等等
在日常生活中,主要考虑分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系?等等.
“美图”欣赏
列联表 2×2 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
查对临界值表,作出判断。(如果K2值很大,就断言 H0不成立,即认为“两个分类变量有关系”;如果很 小,则说明在样本数据中没有发现足够证据拒绝H0。)
例题解析:
例1. 在某医院,因为患心脏病而住院的665名男性病人中, 有214人秃顶;而另外772名不是因为患心脏病而住院的 男性病人中,有175人秃顶. 利用图形判断秃顶与患心脏 病是否有关系。能否在犯错误的概率不超过0.010的前 提下认为秃顶与患心脏病有关系?
9965(7775 49 42 2099)2
k
56.632.
7817 2148 9874 91
在H0成立的情况下,统计学家估算出如下的概率:
P(K 2 6.635) 0.01
3.2独立性检验的思想及应用(一)
列联表
0.54% 在不吸烟者中患肺癌的比重是_______ 在不吸烟者中患肺癌的比重是_______ 2.28% 在吸烟者中患肺癌的比重是_______ 在吸烟者中患肺癌的比重是_______ 结论:吸烟者和不吸烟者患肺癌的可能性存在差异. 结论:吸烟者和不吸烟者患肺癌的可能性存在差异.
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
患肺癌 42 49 91
总计 7817 2148 9965
等高条形图
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 不吸烟 患肺癌 不患肺癌 吸烟
我们通过分析数据和图形, 我们通过分析数据和图形 , 得到的直观判断 吸烟和患肺癌有关" 是 " 吸烟和患肺癌有关 " , 那么这种判断是否可 靠呢?这需要用统计观点来考察这个问题. 靠呢?这需要用统计观点来考察这个问题.
独立性检验
利用随机变量K 判断" 利用随机变量 2判断"两个分类变量有关 的方法称为独立性检验 独立性检验. 系"的方法称为独立性检验. 反证法原理与独立性检验原理的比较 反证法原理 独立性检验 原理 在假设H0下,如果推出一个矛盾, 如果推出一个矛盾, 就证明假设H0不成立. 不成立. 在假设H0下,如果推出一个小概率 事件, 不成立. 事件,就说明H0不成立.
例如,吸烟是否与患肺癌有关系吗? 例如,吸烟是否与患肺癌有关系吗?
探究
为了研究吸烟是否对肺癌有影响, 为了研究吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965 9965人 得到如下结果(单位: 地调查了9965人,得到如下结果(单位:人) 不吸烟 吸烟 总计 不患肺癌 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
29-3.2独立性检验的基本思想及其初步应用(1)
3.2 独立性检验的基本思想及其初步应用(1)教材分析本节内容是数学选修2-3 第三章统计案例的第二节,是在学习了回归分析的基本思想及其初步应用的知识后,对统计案例的再学习.可以看作是与前面学习过的相关关系的并列知识,是统计案例的另一类体现.在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法.在讨论两个分类变量关系时,要把重点放在独立性检验的统计学原理上,使学生初步掌握独立性检验的基本步骤,体会独立性检验的基本思想.独立性检验的步骤是相对固定的,仿照教科书的例题,学生不难完成书后的习题,但独立性检验的统计思想对学生来说是比较难理解的,所以在教学中结合例题介绍独立性检验的思想是十分重要的,要求特别注重学生思维的严密性品质的培养.课时分配本节内容用3课时完成,这是第1节,主要讲解独立性检验的基本思想及实施步骤.教学目标重点: 理解独立性检验的基本思想及实施步骤.K的含义.难点:了解独立性检验的基本思想;了解随机变量2知识点:独立性检验的解题步骤.能力点:正确理解独立性检验的基本思想.教育点:通过大量的实例,体会探究的乐趣,激发学生的学习热情.自主探究点:如何利用求出的数据正确解读分类变量的关系.考试点:独立性检验的解题步骤.易错易混点:反证法和独立性检验的区别.拓展点:完成思考的解答后,引导学生总结独立性检验的基本思想.教具准备多媒体课件、三角板课堂模式学案导学一、引入新课【师生活动】师:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)表1 吸烟与患肺癌列联表生:讨论回答.师:要想解决这个问题,这就需要了解假设检验的基本原理.我们这节课就来学习一种假设检验——独立性检验的基本思想及其初步应用.【设计意图】通过实例,引出独立性检验的原理,假设检验.既激发了学生的学习热情,又让学生体会到学习数学的实用性.二、探究新知1、分类变量:对于性别变量,其取值为男和女两种. 这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.在现实生活中,分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍,产品等级,是否喜欢数学,等等.2、列联表:像表1这样列出的两个分类变量的频数表,称为列联表. 师:从表格中的数据能反映出两个分类变量间是否相互影响? 生:不是很明显.师:图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.【设计意图】通过问题来引导学生明确:等高条形图可以直观反映出两个分类变量间是否相互影响,过渡自然,顺理成章.3、等高条形图图1【师生活动】师:图1就是一个等高条形图,其中两个浅色条的高分别表示吸烟和不吸烟样本中不患肺癌的频率;两个深色条的高分别表示吸烟和不吸烟样本中患肺癌的频率.我们能有什么结论?生:在吸烟样本中患肺癌的频率要高一些,因此直观上可以认为吸烟更容易引发肺癌.【设计意图】通过提问,要学生明确后续知识学习的必要性,对引出下一个问题起到很好的铺垫. 4、独立性检验我们先假设 0H :吸烟与患肺癌没有关系, 把表1中的数字用字母代替,得到表2表222()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.若0H 成立,即“吸烟与患肺癌没有关系”,则2K 应该很小 .根据表1的数据,计算得2K 的观测值为29965(777549422099)56.63278172148987491k ⨯⨯-⨯=≈⨯⨯⨯.统计学家经过研究发现,在0H 成立的情况下,2( 6.635)0.010P K ≥≈ .即在0H 成立的情况下,2K 的观测值大于6.635的概率非常小,近似为0.010,是一个小概率事件.现在2K 的观测值56.632k ≈,远远大于6.635,所以有理由断定0H 不成立,即认为“吸烟与患肺癌有关系”. 但这种判断会犯错误,犯错误的概率不会超过0.010.上面这种利用随机变量2K 来判断“两个分类变量”的方法称为独立性检验.【设计意图】通过吸烟与患肺癌之间的关系的讨论过程体现了假设检验的思想,其目的是让学生通过实例初步体会一下假设检验的思想.可以从反证法的思想解释上面介绍的假设检验原理. 表35、独立性检验的具体步骤(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误的上界α,然后查表确定临界值0k . (2)利用公式(1),计算随机变量2K 的观测值k .(3)如果0k k ≥,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”,或者在样本数据中,没有足够证据支持结论“两个分类变量有关系”.【设计意图】在介绍完独立性检验的思想以后,对独立性检验的具体实施步骤进行总结、归纳.为学生的下一步应用起到奠基的作用,对解决下面的例题有很大的帮助.三、理解新知判断两个分类变量有关系的思路1、等高条形图可以直观地判断出两个分类变量是否有关系,但是这种判断不可靠, 并且不能提供所得结论犯错误的概率.因此需要用独立性检验的方法来提供有用数据.2、独立性检验的具体步骤(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误的上界α,然后查表确定临界值0k . (2)利用公式(1),计算随机变量2K 的观测值k .(3)如果0k k ≥,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”,或者在样本数据中,没有足够证据支持结论“两个分类变量有关系”.【设计意图】为准确地运用新知,作必要的铺垫.培养学生的归纳概括能力.四、运用新知例1、某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是患心脏病而住院的男性病人中,有175人秃顶.利用图形判断秃顶与患心脏病是否有关系.能否在犯错误的概率不超过0.010的前提下认为秃顶与患心脏病有关系?解 :根据题目所给数据得到如下列联表:表4 秃顶与患心脏病列联表图2相应的等高条形图如图2所示,可以看出秃顶样本中患心脏病的频率明显高于不秃顶样本中患心脏病的频率.因此可以认为秃顶与患心脏病有关系.根据列联表4中的数据,得到1437=16.373 6.635k ⨯⨯⨯≈>⨯⨯⨯2(214597-175451)3891048665772.因此,在犯错误的概率不超过0.010的前提下,认为秃顶与患心脏病有关系.【设计说明】教学中要先直观后计算,要注意引导学生运用已经学过的统计知识解决问题.解答中给出列联表,目的是复习列联表的制作.讲完例题解答后,需要向学生说明:在熟悉独立检验的基本原理后,可以通过直接计算2K 的观测值(不画等高条形图)来解决两个分类变量的独立性检验问题.但是,借助于图形可以更直观地向专业人士解释所得到的统计分析结果. 变式训练:在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个22⨯的列联表; (2)判断性别与休闲方式是否有关系. 答案:(2)因为,所以在犯错误的概率不超过0.025的前提下,认为休闲方式与性别有关系.五、课堂小结独立性检验的具体步骤(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误的上界α,然后查表确定临界值0k . (2)利用公式(1),计算随机变量2K 的观测值k .(3)如果0k k ≥,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”,或者在样本数据中,没有足够证据支持结论“两个分类变量有关系”.【设计意图】增强学生的归纳概括意识,培养学生整体看待问题的能力.通过课堂小结,加深学生对本节课所学内容的印象.六、布置作业1.阅读教材 P91—94;2.书面作业 教材P97 1 、2必做题:1. 研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验,发现对该心理测中的最后一个题目的反应得以下数据:问:性别与态度之间是否存在某种关系?2. 在研究某种新措施对“非典”的防治效果问题时,得以下数据:试问新措施对防治防治“非典”是否有效?答案: 1. 22170(22421888) 2.158 3.8411106040130K ⨯⨯-⨯=≈<⨯⨯⨯,因此没有充分的证据显示“性别与态度有关” .2. 22300(1323611418)7.317 6.63524654150150K ⨯-⨯=≈>⨯⨯⨯,故在犯错误的概率不超过0.010的前提下,认为“新措施对防治非典有效” .选做题:某企业有两个分工厂生产某种零件,按规定内径尺寸(单位:mm )的值落在 [)29.94,30.06的零件为优质品. 从两个分厂生产的零件中各抽出500件,量其内径尺寸,的结果如下表: 甲厂:(2)由以上统计数据填写下面的22⨯列联表,并问是否有99﹪的把握认为“两个分厂生产的零件的质量有差异”.【设计意图】设计作业1,2,是引导学生先复习,再作业,培养学生良好的学习习惯.书面作业的布置,是为了让学生能够根据独立性检验的思想,算出随机变量2K 的观测值来解决简单的数学问题;并注意巩固独立性检验的步骤.选做题是2009辽宁文科高考题,本题涉及到统计的多个知识点,可以说是一个综合题,在统计这一模块中的高考题不是太多,一方面让学生了解一下题型,另一方面引起学生对统计知识的重视.七、教后反思本教案通过实例引入,在教学中,向学生介绍多个知识点;分类变量、列联表、等高条形图、独立性检验、独立性检验的步骤.在例1的教学中,要注重强调独立性检验的的重要性,要求学生会解释这里“犯错误的概率”,提高了学生的解题能力.八、板书设计。
高二数学独立性检验的基本思想及其初步应用
对于性别变量, 其取值为男和女两种 .这 种变量的不同 " 值" 表示个体所属的不同 类 别 , 像这类变量称为 分类变量 .在现实 生活中, 分类变量是大量存在的 , 例如 是 否吸烟,宗教信仰 ,国籍, 等等. 在日常生活中 , 我们常常关心两个分类 变 量之间是否有关系 .例如, 吸烟与肺癌是否 有关系? 性 别对于是否喜欢数学课 程 有 影响? 等等.
8000 7000 6000 5000 4000 3000 2000 1000 0
吸烟
患肺癌
不患肺癌
不吸烟
图3.2 1
图3.2 1是列联表的三维柱形图 , 从中能清晰 地看出各个频数的相对 大小. 作三维柱形图要注意选 择恰当的视角 ,以使每 个柱体都能看到 .
9000 8000 7000 6000 5000 4000 3000 2000 1000 0
探究 为调查吸烟是否对患肺 癌有影响,某 肿瘤研究所随机地调查 了9 965人, 得到如下 结果 (单位 : 人 ) :
表3 7吸烟与患肺癌列联表
不患肺癌 患肺癌 不吸烟 吸烟 总计 7775 2099 9874 42 49 91
总计 7817 2148 9965
那么吸烟是否对患肺癌 有影响?
像表 3 7 这 样列出的两个分类变量 的 频数表 , 称为列联表 . 由吸烟情况和患肺 癌情况的列联 表可以粗略 估计出: 在不 吸烟者中 , 有0.54%患有肺癌 ; 在吸烟者中 , 有2.28% 患有肺癌 .因此, 直观上可以得出 结论 : 吸烟者和不吸烟者患 肺癌可能存 在差异.
与表格相比 , 三维柱形图和二维条形 图 能更直观地反映出相关数据的总体 状 况.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【分层作业】
A层:性别与喜欢数学课程列联表:
喜欢数学
不喜欢数学
总 计
男
37
85
122
女
35
143
178
总 计
72
228
300
求 .
B.层:某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:
不健康
健 康
总计
不优秀
41
626
667
优 秀
37
296
333
总 计
【合作探究】
新知1:
1.分类变量:.
2. 列联表:
.
试试:你能列举出几个分类变量吗?
探究任务:吸烟与患肺癌的关系
1.由列联表可粗略的看出:
(1)不吸烟者有患肺癌;
(2)不吸烟者有患肺癌.
因此,直观上的结论:
2.用三维柱柱图和二维条形图直观反映:
(1)根据列联表的数据,作出三维柱形图:
由上图可以直观地看出,吸烟与患肺癌.
78
922
1000
求 .
【课后反思】
高二数学学科(选修2-3)导学案
课题
§3.2独立性检验的基本思想及其初步应用(一)
课型
新授课
编号
备课时间
授课时间
备课组长
授课人
课时
1
教学
目标
(1)会画列联表、柱形图和条形图
(2)会根据 列联表求统计量 .
德育渗透
通过新知识让学生通过散点图来判断两变量之间的线性关系。
学习过程
师生
活动
【自主学习】
复习:回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.
(2)根据列联表的数据,作出二维条形图:
由上图可以直观地看出,吸烟与患肺癌.
根据列联表的数据,作出等高条形图:
由上图可以直观地看出,吸烟与患肺癌.
反思:(独立性检验的必要性)通过数据和图形,我们得到的直观印象是患肺癌有关.那是否有一定的把握认为“吸烟与患肺癌有关”呢?
新知2:统计量
吸烟与患肺癌列联表
假设
:吸烟与患肺癌没关系,
则在吸烟者和不吸烟者中患肺癌不患肺癌者的相应比例.即
因此,越小,说明吸烟与患肺癌之间关系;反之,.
=
【典型例题】
例1吸烟与患肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸 烟
2099Biblioteka 492148总 计
9874
91
9965
求 .
【小结反馈】
1.分类变量:.
2. 列联表:.