高中数学选修2-3-独立性检验

合集下载

最新人教版高中数学选修2-3《独立性检验》课件

最新人教版高中数学选修2-3《独立性检验》课件

说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
吸烟与肺癌列联表 不患肺癌 不吸烟 吸烟 总计 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
用A表示吸烟,B表示患肺癌,则“吸烟与患肺 癌没有关系”等价于“吸烟与患肺癌独立”,即 P(AB)=P(A)P(B).
那么这个值到底能告诉我们什么呢?
卡方统计量作为检验在多大程度上可以认为“两个变量有关系”的标准 分析:卡方越小,|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; 卡方越大,|ad-bc|越大,说明吸烟与患肺癌之间关系越强.
H0:吸烟与患肺癌没有关系.
在假设成立,即“吸烟与患肺癌没有关系”成立的前提下, 则卡方应该很小.故,当卡方很小时,说明在一定可信程度上 假设成立,即“吸烟与患肺癌没有关系”成立 当卡方很大时,说明没有充分的证据说明假设成立,即没有充 分的证据说明“吸烟与患肺癌没有关系”成立,即“吸烟与患 肺癌没有关系”不成立,即“吸烟与患肺癌有关系”成立。
得到的正确结论是( ) 有99%以上的把握认为“爱好该项运动与性别有关” 有99%以上的把握认为“爱好该项运动与性别无关” 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确
本节研究的是两个分类变量的独立性检验问题。
1.给出下列实际问题:
①一种药物对某种病的治愈率; ②两种药物治疗同一种病是否有区别; ③吸烟者得肺病的概率; ④吸烟人群是否与性别有关系; ⑤上网与青少年的犯罪率是否有关系. 其中,用独立性检验可以解决的问题有___

人教版高数选修2-3第7讲:独立性检验与回归分析(学生版)

人教版高数选修2-3第7讲:独立性检验与回归分析(学生版)

独立性检验与回归分析__________________________________________________________________________________ __________________________________________________________________________________1.了解变量间的相关关系,能根据给出的线性回归方程系数建立线性回归方程.2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.3.了解回归分析的基本思想、方法及其简单应用.1.独立性检验(1)概念:用2χ统计量研究独立性问题的检验的方法称为独立性检验.(2)m×n列联表指有m行n列的列联表(3)必备公式2χ=2()()()()()n ad bca cb d a bc d-++++2.2χ统计量中的四个临界值经过对2χ统计量分布的研究,已经得到了四个经常用到的临界值:2.706、3.841、6.635、10.828.由2×2列联表计算出2χ,然后与相应的临界值进行比较,当2χ>2.706时,有______的把握说事件A与B有关.当2χ>3.841时,有______的把握说事件A与B有关.当2χ>6.635时,有______的把握说事件A与B有关.当2χ>10.828时,有______的把握说事件A与B有关.当2χ≤2.706时,认为事件A与B是无关的.3.回归分析(1)线性回归模型是指方程y a bxε=++,其中________称为确定性函数,____称为随机误差.(2)线性回归方程是指直线方程ˆˆˆya bx =+,其中回归截距ˆa 、回归系数ˆb 公式如下: ˆb=_______________________ˆa =_____________. (3)参数r 检验线性相关的程度,计算公式为r()()niix x yy --∑即ni ix ynx y-∑化简后r =x yxy x yS S -,其中y S 表示数据i y (i =1,2,…,n )的标准差,这个r 称为y 与x 的样本相关系数,简称相关系数,其中-1≤r ≤1.若r >0,则x 与y 是正相关,若r <0,则x 与y 是负相关,若r =0,则x 与y 不相关,r =1或r =-1时,x 与y 为完全线性相关.类型一.独立性检验例1:为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:判断性别与是否喜欢数学课程有关吗?用独立性检验方法判断父母吸烟对子女是否吸烟有影响.类型二.变量间的相关关系及线性回归方程例2:下列关系中,是带有随机性相关关系的是______. ①正方形的边长与面积之间的关系; ②水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④降雪量与交通事故的发生率之间的关系.例3:某工业部门进行一项研究,分析该部门的产量与生产费用的关系,从这个工业部门内随机抽选了10个企业作样本,资料如下表:练习1:下列两个变量之间的关系哪个不是函数关系( ) (A)角度和它的余弦值 (B)正方形边长和面积(C)正n 边形的边数和顶点角度之和 (D)人的年龄和身高 类型三.相关检验与回归分析例3:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系.从这个工业部门内完成下列问题:(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设线性回归方程为ˆˆˆ,ybx a =+求系数ˆˆ,.a b试预测该运动员训练47次以及55次的成绩.1.在调查中学生近视情况中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )A.期望与方差B.排列与组合C.独立性检验D.概率2.通过对2χ统计量的研究,得到了若干临界值,当2χ≤2.706时,我们认为事件A 与B ( ) A.有90%的把握认为A 与B 有关系 B.有95%的把握认为A 与B 有关系C.没有充分理由说明事件A 与B 有关系D.不能确定3.下列关于2χ的说法中正确的是( )A.2χ在任何相互独立问题中都可以用来检验有关还是无关 B.2χ的值越大,两个事件的相关性就越大C.2χ是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合D.2χ的观测值2χ的计算公式为2()()()()()n ad bc a b c d a c b d χ-=++++4.下列两个变量之间的关系是相关关系的是( ) A.角度和它的余弦值 B.正方形边长和面积 C.正n 边形的边数和顶点数 D.人的年龄和身高5.由一组样本数据1122(,),(,),,(,n x y x y x )n y 得到的回归方程为ˆˆˆ,ybx a =+下面说法不正确的是( )A.直线ˆˆˆybx a =+必经过点(,)x y B.直线ˆˆˆybx a =+至少经过点1122(,),(,),,(,)n n x y x y x y 中的一个点C.直线ˆˆˆybx a =+的斜率为1221()ni ii nii x y nxyxn x ==--∑∑D.直线ˆˆˆybx a =+和各点1122(,),(,),,(,)n n x y x y x y 的偏差平方和21ˆˆ[()]ni ii y bx a =-+∑是该坐标平面上所有直线与这些点的偏差平方和中最小的直线6.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.8.某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm._________________________________________________________________________________ _________________________________________________________________________________基础巩固1.(2014重庆卷)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3 B.y^=2x-2.4C.y^=-2x+9.5 D.y^=-0.3x+4.42.(2014湖北卷)根据如下样本数据:得到的回归方程为y=bx+a,则()A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<03.(2014江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()及格2032A.成绩B.视力C.智商D.阅读量4.下列两个变量之间的关系是相关关系的是()A.正方体的棱长和体积B.角的弧度数和它的正弦值C.单产为常数时,土地面积和总产量D.日照时间与水稻的亩产量5.(2015福建)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆˆybx a =+,其中ˆˆˆ0.76,b a y bx ==-,据此估计,该社区一户收入为15万元家庭年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元6.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y 与父亲的身高x 的回归方程ˆˆˆya bx =+中,ˆb ( ) A.在(-1,0)内B.等于0C.在(0,1)内D.在[1,+∞)7.线性回归方程ˆˆˆya bx =+中,回归系数ˆb 的含义是________________. 8.在一项打鼾与患心脏病是否有关的调查中,共调查了1978人,经过计算2χ=28.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”、“无关”)能力提升1.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程y ^=3-5x ,变量x 增加1个单位时,y 平均增加5个单位;③设具有相关关系的两个变量x ,y 的相关系数为r ,则|r |越接近于0,x 和y 之间的线性相关程度越强;④在一个2×2列联表中,由计算得K 2的值,则K 2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是( ) A.0B.1C.2D.32.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′3.对相关系数r ,下列说法正确的是( ) A.||r 越大,相关程度越小B.||r 越小,相关程度越大C.||r 越大,相关程度越小,||r 越小,相关程度越大D.||r≤1且||r越接近1,相关程度越大,||r越接近0,相关程度越小4.若由资料知,y对x呈线性相关关系,试求:(1)线性回归方程;(2)估计设备的使用年限为10年时,维修费用约是多少?5.若由资料可知y对x呈线性相关关系,试求:(1)线性回归直线方程;(2)根据回归直线方程,估计使用年限为12年时,维修费用是多少?6.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为思心脏病而住院的男性病人中有175人秃顶,利用独立性检验方法判断秃顶与患心脏病是否有关系?课程顾问签字: 教学主管签字:。

选修2-3《独立检验的基本思想及其应用》教案

选修2-3《独立检验的基本思想及其应用》教案

教材:普通高中课程标准实验教科书数学选修32 人教A版章节:2.3独立性检验的基本思想及其初步应用一、内容和内容解析本节课是人教A版(选修)2—3第三章第二单元第一课时的内容.理论性比较强,很多教师为了图省事,在教学过程中采用学生看书自学的方式,我认为不妥。

结合课本内容,拟用两节课的时间完成整节的教学内容,本节为第一节。

山东省教育厅在2010年9月15日“关于印发山东省普通高中学科教学内容调整意见二、教学目标分析1.目标:①知识与技能目标通过生活中案例的探究,理解独立性检验的基本思想,明确独立性检验的基本步骤,会对两个分类变量进行独立性检验,并能利用独立性检验的基本思想来解决实际问题。

②过程与方法目标通过探究引出独立性检验的问题,借助样本数据的列联表分析独立性检验的实施步骤。

③情感态度价值观目标通过本节课的学习,加强数学与现实生活的联系。

以科学的态度评价两个分类变量有关系的可能性。

培养学生运用所学知识,解决实际问题的能力。

教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性。

2.目标解析:在学习中通过对统计案例的分析,理解和掌握独立性检验的方法,体会独立性检验的基本思想在解决实际问题的应用,以提高我们处理生活和工作中的某些问题的能力.新课标指出:学生的数学学习内容应当是现实的、有趣的和富有挑战性的。

从心理学的角度看,青少年有一种好奇的心态、探究的心理。

因此,紧紧地抓住学生的这一特征,利用学生身边的问题设计教学情境,使学生在观察、讨论等活动中,逐步提高数学能力。

本节课学生应该了解的几个问题:1、判断两个分类变量是否有关的几种方法及其不同点⑴列联表⑵三维柱形图⑶二维条形图⑷等高条形图⑸独立性检验的思想及应用2、独立性检验的思想与反证法思想的比较3、k2表达式及k2值表的含义三、教学问题诊断分析1.课本上k2的结构比较复杂,来的也比较突然,学生可能会提出疑问.关于这个问题,可借助两件事独立的定义以及样本容量较大时可以用频率近似表示概率来解决。

人教B版《数学2-3》(选修) 第三章《独立性检验》教学设计

人教B版《数学2-3》(选修) 第三章《独立性检验》教学设计

人教B版《数学2-3》(选修) 第三章《独立性检验》教学设计一 .教材课标分析本节课作为人教B版《数学2-3》(选修) 第三章统计案例第一节,课标对它的要求为“通过对典型案例(吸烟和患肺癌有关吗?)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用;”统计是研究如何合理地收集、整理,分析数据的学科,它可以为人们的决策提供依据,在日常生活中,人们常常需要收集数据,根据数据提取有价值的信息,作为合理地决策,为了体现统计的特点,实现课标中提出的目标,通过案例进行统计教学是十分必要的。

在高中阶段,我们只是学习统计的初步,因此许多的知识的来龙去脉都不能做系统的讲解,或者说以高中学生的数学基础,也无法做出更详细的解答。

因此如何形象生动的展示统计的方法,如何梳理统计方法的脉络,如何在繁复的数据和计算方法中把握独立性检验的精髓,是本节课备课过程中重点研究的问题。

二.教学目标分析【知识与技能】1、了解独立性检验的基本思想、方法及初步应用。

列联表)分析两个分类变量是否有关。

2、会从列联表(只要求22K公式判断两个分类变量在某种可信程度上的相关性。

3、会用2【过程与方法】经历数据处理的过程,发现数据的直观感觉,认识统计方法的直观特点,体会统计运用的广泛性,统计思想的严谨性。

【情感、态度与价值观】1、通过本节课的学习,让学生感受数学与现实生活的联系,体会独立性检验的基本思想在解决日常生活问题中的作用。

2、培养学生运用所学知识,依据独立性检验的思想作出合理推断的实事求是的好习惯。

三.教学重点与难点重点:独立性检验的思想方法和初步应用难点:独立性检验的基本思想方法四.学情分析:高二的学生在必修三中已经接触到了统计,具备了一定的统计思维和基本的数学素养。

但本节内容无论在知识上还是在思维方式上与其它章节上存在较大差异,学生在学习中很不适应。

学生在理解,分析数据上,还存在着恐惧心理。

在数学阅读理解上也存在较大障碍。

高中数学选修2-3-独立性检验的基本思想及初步应用

高中数学选修2-3-独立性检验的基本思想及初步应用

独立性检验的基本思想及初步应用知识集结知识元独立性检验知识讲解1.独立性检验【知识点的知识】1、分类变量:如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2、原理:假设性检验(类似反证法原理).一般情况下:假设分类变量X和Y之间没有关系,通过计算K2值,然后查表对照相应的概率P,发现这种假设正确的概率P很小,从而推翻假设,最后得出X和Y之间有关系的可能性为(1﹣P),也就是“X和Y有关系”.(表中的k就是K2的观测值,即k=K2).其中n=a+b+c+d(考试给出)3、2×2列联表:4、范围:K2∈(0,+∞);性质:K2越大,说明变量间越有关系.5、解题步骤:(1)认真读题,取出相关数据,作出2×2列联表;(2)根据2×2列联表中的数据,计算K2的观测值k;(3)通过观测值k与临界值k0比较,得出事件有关的可能性大小.例题精讲独立性检验例1.'新高考方案的实施,学生对物理学科的选择成了焦点话题.某学校为了了解该校学生的物理成绩,从A,B两个班分别随机调查了40名学生,根据学生的某次物理成绩,得到A班学生物理成绩的频率分布直方图和B班学生物理成绩的频数分布条形图.(Ⅰ)估计A班学生物理成绩的众数、中位数(精确到0.1)、平均数(各组区间内的数据以该组区间的中点值为代表);(Ⅱ)填写列联表,并判断是否有99.5%的把握认为物理成绩与班级有关?附:;'例2.'党的第十九次全国代表大会上,习近平总书记指出:“房子是用来住的,不是用来炒的”,为了使房价回归到收入可支撑的水平,让全体人民住有所居,近年来全国各一、二线城市打击投机购房,陆续出台了住房限购令,某市一小区为了进一步了解已购房民众对市政府出台楼市限购令的认同情况,随机抽取了本小区50户住户进行调查,各户人平均月收入(单位:千元)的户数频率分布直方图如图,其中赞成限购的户数如表:(1)若从人平均月收入在[9,11)的住户中再随机抽取两户,求所抽取的两户至少有一户赞成楼市限购令的概率;(2)若将小区人平均月收入不低于7千元的住户称为“高收入户”,人平均月收入低于7千元的住户称为“非高收入户”,根据已知条件完成如图所给的2×2列联表,并说明能否在犯错误的概率不超过0.01的前提下认为“收入的高低”与“赞成楼市限购令”有关.附:临界值表参考公式:K2=,n=a+b+c+d.'例3.'2022年北京冬季奥运会即第24届冬季奥林匹克运动会将在2022年2月4日至2月20日在北京和张家口举行.某研究机构为了了解大学生对冰壶运动的兴趣,随机从某大学学生中抽取了120人进行调查,经统计男生与女生的人数比为11:13,男生中有30人表示对冰壶运动有兴趣,女生中有15人对冰壶运动没有兴趣.(1)完成2×2列联表,并判断能否有99%的把握认为“对冰壶运动是否有兴趣与性别有关”?(2)用分层抽样的方法从样本中对冰壶运动有兴趣的学生中抽取8人,求抽取的男生和女生分别为多少人?若从这8人中选取两人作为冰壶运动的宜传员,求选取的2人中恰好有1位男生和1位女生的概率.附:K2=,其中n=a+b+c+d.'。

高中数学人教A版选修2-3课件:3.2独立性检验的基本思想及其初步应用

高中数学人教A版选修2-3课件:3.2独立性检验的基本思想及其初步应用
x
).
问题导学
当堂检测
一、用列联表和等高条形图分析两变量间的关系
活动与探究 问题 1:怎样从列联表判断两个分类变量有无关系? 提示:|ad-bc|越小,说明两个分类变量 x,y 之间的关系越弱;|ad-bc|越 大,说明 x,y 之间的关系越强.
x
问题 2:等高条形图对分析两个分类变量是否有关系,有何帮助? 提示:通过画等高条形图,我们可以通过观察两个变量的比例关系, 直观判断两个变量是否有关系.
问题导学
当堂检测
(1)利用列联表直接计算 分类变量之间有关系.
������ ������ 和 ,如果两者相差很大,就判断两个 ������+������ ������+������
(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深 色条的高可以发现两者频率不一样而得出结论 ,这种直观判断的不足 之处在于不能给出推断“两个分类变量有关系”犯错误的概率.
问题导学
当堂检测
相应的等高条形图如图所示.
图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样 本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的 频率明显高于甲在生产现场样本中次品数的频率 .因此可以认为质量 监督员甲在不在生产现场与产品质量好坏有关系 .
问题导学
当堂检测
迁移与应用 某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格 内向的学生 426 人中有 332 人在考前心情紧张,性格外向的学生 594 人 中有 213 人在考前心情紧张,作出等高条形图,利用图形判断考前心情 紧张与性格类别是否有关系. 解:作列联表如下:
2
其中 n=a+b+c+d 为样本容量.

人教版高中数学选修2-3课件:3.2 独立性检验的基本思想及其初步应用(共38张PPT)

人教版高中数学选修2-3课件:3.2 独立性检验的基本思想及其初步应用(共38张PPT)

P(K2≥k0) 0.05 0.025 0.010 0.005 0.001
例如:
k0
3.841 5.024 6.635 7.879 10.828
①如果k≥10.828,就有99.9%的把握认为“X与Y有关系”;
②如果k≥7.879,就有99.5%的把握认为“X与Y有关系”;
③如果k≥6.635,就有99%的把握认为“X与Y有关系”;
≈7.8.
备课素材
附表:P(K2≥k0) k0
0.050 3.841
0.010 6.635
0.001 10.828
参照附表,得到的正确结论是 (A ) A.有99%以上的把握认为“爱好该项运动与性别有关” B.有99%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c
b+d a+b+c+d
若要推断的论述为H1:“X与Y有关系”,则可以按如下步骤判断H1成立的可能性:
预习探究
预习探究
P(K2≥k0) 0.50 0.40 0.25 0.15 0.10
k0
0.455 0.708 1.323 2.072 2.706
考点类析
考点一 两分类变量之间关联关系的定性分析
例1 为考察某种药物预防某种疾病的效果,进行了一 项动物试验,得到如下列联表:
服用药 未服用药

高中数学人教A版选修2-3第三章:3.2独立性检验的基本思想及其初步应用 课件

高中数学人教A版选修2-3第三章:3.2独立性检验的基本思想及其初步应用 课件

具体做法:
(1)根据实际问题需要的可信程度确定临界值 k0; (2)利用公式(1),由观测数据计算得到随机变量 K 2观测值k;
(3)如果 k k0 ,就以(1 P(K 2 k0 )) 100%的把握认为“X
与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。
在实际应用中,要在获取样本数据之前通过下表确定临界值:
K2
n(ad bc)2
,
(a b)(c d )(a c)(b d )
(1)
其中n a b c d为样本容量。
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
根据表中的数据,利用公式(1)计算得到K2的观测值为:
9965(7775 49 42 2099)2
k
56.632
吸烟与患肺癌列联表
称为列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
那么吸烟是否对肺癌有影响?
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
42 100% 0.54% 7817
患肺癌 42 49 91
总计 7817 2148 9965
|ad-bc|越大
高中数学人教A版选修2-3第三章:3.2 独立性 检验的 基本思 想及其 初步应 用 课件【精品】
吸烟与患肺癌之间的关系越强
独立性检验 高中数学人教A版选修2-3第三章:3.2独立性检验的基本思想及其初步应用 课件【精品】
为了使不同样本容量的数据有统一的评判标准,基于上述分
析,我们构造一个随机变量-----卡方统计量

高二数学(选修2-3人教B版)-独立性检验1

高二数学(选修2-3人教B版)-独立性检验1

例4.在对人们的休闲方式的一次调查中,共调查了124人,其 中女性70人,男性54人.女性中有43人主要的休闲方式是看电 视,另外27人主要的休闲方式是运动;男性中有21人主要的休 闲方式是看电视,另外33人主要的休闲方式是运动. (1)根据以上数据建立一个2×2列联表; (2)判断性别与休闲方式是否有关系.
因为7.469 6.635,所以我们有99%的把握说,50岁以上的人
患慢性气管炎与吸烟习惯有关.
2 2列联表独立性检验的步骤: (1)根据样本数据制成 22 列联表;
2 2列联表独立性检验的步骤: (1)根据样本数据制成 22 列联表; (2)根据公式计算 的值;
2 2列联表独立性检验的步骤: (1)根据样本数据制成 22 列联表; (2)根据公式计算 的值; (3)比较 的值与临界值的大小关系作统计推断.
当事件A与B相互独立时,事件A 与B,A与 B , A 与 B 也独立.
例2 为了探究慢性气管炎是否与吸烟有关,调查了339 名50岁以上的人,调查结果如下表所示:
吸烟 不吸烟 合计
患慢性气管炎 未患慢性气管炎
43
162
13
121
56
283
合计 205 134 339
试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?
若 c = c d a c 成立,则可以认为 A与 B 独立. nn n
同理若 b = a b b d 成立,则可以认为A与 B 独立. nn n
若 c = c d a c 成立,则可以认为 A与 B 独立. nn n
若 d = c d b d 成立,则可以认为 A与 B 独立. nn n
计算统计量
2=
n(ad bc)2

高中数学选修2-3独立性检验(1)

高中数学选修2-3独立性检验(1)

独立性检验(1)第一课时教学目标:1、通过对典型案例的探究,了解独立性检验〔2×2列联表〕的基本思想、方法及初步应用。

2.经历由实际问题建立数学模型的过程,体会其基本方法一、问题情境:某医疗机构为了了解患肺癌与吸烟是否有关,进行了一次抽样调查,共调查了9965个成年人,其中吸烟者2148人,不吸烟者7817 人,调查结果是:吸烟的2148 人中49人患肺癌, 2099人不患肺癌;不吸烟的7817人中42人患肺癌, 7775人不患肺癌。

根据这些数据能否断定:患肺癌与吸烟有关?二、学生活动:为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果〔单位:在吸烟者中患肺癌的比重是问题1:判断的标准是什么?吸烟与不吸烟,患病的可能性的大小是否有差异?说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大问题2:差异大到什么程度才能作出“吸烟与患病有关〞的判断?问题3:能否用数量刻画出“有关〞的程度?三、建构数学独立性检验:通过数据和图表分析,得到结论是:吸烟与患肺癌有关思考:结论的可靠程度如何?吸烟的人中患肺癌的比例: 不吸烟的人中患肺癌的比例: 假设b a a +c ad bc≈独立性检验引入一个随机变量:卡方统计量()()()()()d b c a d c b a bc ad n ++++-=22χ d c b a n +++=其中作为检验在多大程度上可以认为“两个变量有关系〞的标准四、数学应用例1、引例()632.5691987421487817209942497775996522≈⨯⨯⨯⨯-⨯=χ 独立性检验在0H 成立的情况下,001.0)828.10(2≈≥χP即在0H 成立的情况下,2χ大于10.828概率非常小,近似为0.001现在的2χ=56.632的观测值远大于10.828,出现这样的观测值的概率不超过0.001。

故有99.9%的把握认为H0不成立,即有99.9%的把握认为“患肺癌与吸烟有关系〞。

数学选修2-3独立性检验ppt课件

数学选修2-3独立性检验ppt课件

ac+d≈ ca+b,
ad bc
2021精选ppt
6
独立性检验
adbc0.
a d - b c 越 小 , 说 明 吸 烟 与 患 病 之 间 的 关 系 越 弱 ,
a d - b c 越 大 , 说 明 吸 烟 与 患 病 之 间 的 关 系 越 强
引入一个随机变量:卡方统计量
2abc n a dd a b c c 2bd
2021精选ppt
18
例3:气管炎是一种常见的呼吸道疾病,医药研 究人员对两种中草药治疗慢性气管炎的疗效进 行对比,所得数据如图所示,问:它们的疗效 有无差异
复方江剪刀草 胆黄片 合计有效 184 91 275
无效 61 9 70
合计 245 100 345
2021精选ppt
19
造成的,假设H0不能被否定;否则,假设H0
不能被接受
2021精选ppt
10
用 2统计量研究这类问题的方法称为独立性检验。
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类 取值,即类A和B(如吸烟与不吸烟);Ⅱ也有两类 取值,即类1和2(如患病与不患病)。于是得到 下列联表所示的抽样数据:
类1 类2
总计
类A
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
2021精选ppt
14
例1.在500人身上试验某种血清预防感冒作
用,把他们一年中的感冒记录与另外500名 未用血清的人的感冒记录作比较,结果如 表所示。问:该种血清能否起到预防感冒 的作用?
未感冒
2021精选ppt
3
问题1:判断的标准是什么?
吸烟与不吸烟,患病的可能性的大小是否有差异? 说明:吸烟者和不吸烟者患病的可能性存在差异,吸 烟者患病的可能性大 问题2:差异大到什么程度才能作出“吸烟与患 病有关”的判断?

高二数学(选修2-3人教B版)-独立性检验

高二数学(选修2-3人教B版)-独立性检验

合计 254 1379 1633
分析: 每一晚都打鼾的人中患心脏病的比例: 不打鼾的人中患心脏病的比例:
. .
典型例题
分析:
1 0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
每一晚都打鼾
不打鼾
患心脏病 未患心脏病
解:由公式,
典型例题
.
因为68.033>6.635,所以有99%的把握说每一晚都打 鼾与患心脏病有关.
晕机
不晕机
合计

24
31
55

8
26
34
合计
32
57
89
分析:
男性中晕机的比例:
.
女性中晕机的比例:
.
分析:
1 0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
典型例题
男性
女性
晕机 不晕机
解:由公式,
典型例题
.
≥ 0.10 0.05 0.025 0.010 0.005 2.706 3.841 5.024 6.635 7.879
X2 b d b+d
合计 a+b c+d n
典型例题
分析:
工作积极 工作一般
合计
积极支持企业改革 不太赞成企业改革
54
40
32
63
86
103
合计 94 95 189
典型例题
分析:
工作积极 工作一般
合计
积极支持企业改革 不太赞成企业改革

「高中数学」人教A版(选修2-3)独立性检验的基本思想及初步应用

「高中数学」人教A版(选修2-3)独立性检验的基本思想及初步应用

「高中数学」人教A版(选修2-3)独立性检验的基本思想及
初步应用
我是“教评宋老师”,致力于教育教学的
交流和经验分享,也在这里给大家推荐教育类
APP,推荐书籍和分享相关资源,如果感兴趣
的朋友们,可以关注下。

前言
从今天开始不仅分享相关资源,在文章最后也会和大家分享一些“趣味数学”和“数学名家”,希望能给大家帮助,也希望能让大家喜欢,如果感兴趣,请点击上面红色“关注”,你的关注和转发是对我最大的支持。

期待你留下脚印。

具体内容(3.2独立性检验的基本思想及其初步应用)
以上是本次资源分享的全部内容,如果需要电子版,请私信回复“资源”,我会在第一时间回复并分享。

趣味数学——书生分卷
毛诗春秋周易书,九十四册共无余,毛诗一册三人读,春秋一本四人呼,周易五人读一本,要分每样几多书,就见学生多少数,请君布算莫踌躇。

《毛诗》相传是西汉毛亨、毛苌所著,此题选自明朝程大位所著的《算法统宗》一书。

答曰:《毛诗》四十册,《春秋》三十册,《周易》二十四册,学生一百二十名。

这道题可以用方程组解,也可以用算术方法解。

你会解吗?请在评论区说出你的详细过程。

书籍推荐
你喜欢看哪方面的图书 (多选)
0人
0%
高中相关教辅
0人0% 文学类0人0% 科幻类0人0% 玄幻类0人0% 励志类。

人教B版高中数学选修(2-3)-3.1《独立性检验》参考学案

人教B版高中数学选修(2-3)-3.1《独立性检验》参考学案

独立性检验学习目标:通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题. 学习重点;理解独立性检验的基本思想及实施步骤; 学习难点:了解独立性检验的基本思想、了解随机变量2K 的含义 教学过程: (一) 复习引入1、回归分析的方法、步骤,刻画模型拟合 效果的方法(相关指数、残差分析)、步骤.2、观察下列图片,吸烟与患肺癌有关系吗? 你有多大程度把握吸烟与患肺癌有关? (二) 推进新课问题1、我们在研究“吸烟与患肺癌的关系”时,需要关注哪一些量呢?①分类变量:_____________________________________分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别. 你能再举些例子吗?②列联表:______________________________.如吸烟与患肺癌的列联表: 一般我们只研究每个分类变量只取两个值,这样的列联表称为22 .思考:由以上列联表,我们估计吸烟是否对患肺癌有影响?方法一:①在不吸烟者中患肺癌的比例为_____;②在吸烟者中患肺癌的比例为______.因此,直观上可以得到结论____________________________________________. 方法二:我们还能够从图形中得到吸烟与患肺癌之间的关系吗?如右下图,是等高条形图展示列联表数据的频率特征,其中浅色条的高分别表示不吸烟和吸烟样本中不患肺癌的频率;两个深色条的高分别表示不吸烟和吸烟样本中患肺癌的频率.比较两个深色条的高可以发现,在吸烟样本中患肺癌的频率要___(高/低)一些,因此直观上可以认为___________________________.通过数据和图形分析,我们得到的直观判断是1H :吸烟和患肺癌有关,那么这种判断是否可靠呢?思考:我们能够从多大程度上认为吸烟与患肺癌之间有关系呢?为了解决上述问题,我们先假设1H 不成立,即0H :吸烟与患肺癌没有关系.设事件A 表示不吸烟,事件B 表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌相互独立”,由事件相互独立性性质,则“不吸烟与________也是相互独立”的,即假设0H 成立等价于.__________________)(=AB P 将以上列联表中数字且字母代替,得到如右用字母表示的列联表:由表可知,_____恰好为事件AB 发生的频数;_______和________恰好分别为事件A 和事件B 发生的频数,由于频率近似于概率,所以()()()P AB P A P B =成立时,应该有____________⨯+≈nba ,其中d cb a n +++=为样本容量,即))(()(c a b a ad c b a ++≈+++,即bc ad ≈也就是说0H :“吸烟与患肺癌没有关系”成立的充要条件是_______,那么这个式子到底能从量上告诉我们什么,怎样来进一步刻画?我们知道bc ad ≈,也就是说bc ad ,的值很接近,那么||ad bc -应该非常接近于0,。

人教课标版高中数学选修2-3:《独立性检验的基本思想及其初步应用(第2课时)》教案-新版

人教课标版高中数学选修2-3:《独立性检验的基本思想及其初步应用(第2课时)》教案-新版

3.2 独立性检验的基本思想及其初步应用(第2课时)一、教学目标1.核心素养:通过学习独立性检验的基本思想及其初步应用,初步形成基本的数据分析能力,培养数学运算能力.2.学习目标(1)1.1.1.1 温习利用等高条形图、列联表、独立性检验的基本思想判断分类变量的关系(3)1.1.1.2 理解独立性检验基本思想,区分反证法与独立性检验(3)1.1.1.2 熟练运用独立性检验的基本思想判断分类变量的关系3.学习重点理解独立性检验基本思想,熟练运用独立性检验的基本思想判断分类变量的关系4.学习难点理解独立性检验的基本思想二、教学设计(一)课前设计1.预习任务任务1阅读教材P12-P14,思考独立性检验与反证法有何区别?任务2独立性检验的基本思想是什么?2.预习自测1.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>3.841时,我们()A.在犯错误的概率不超过0.05的前提下可认为A与B有关B.在犯错误的概率不超过0.05的前提下可认为A与B无关C.在犯错误的概率不超过0.01的前提下可认为A与B有关D .没有充分理由说明事件A 与B 有关系 解: A2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的22⨯列联表:计算得到2K 的观测值约为7.822.下列说法正确的是( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解:C 由随机变量2K 的值,查表知7.8226.6357.879<<,有99.5%以上的把握认为“爱好该项运动与性别有关”.故本题答案选C. (二)课堂设计 1.知识回顾(1)变量的不同“值”表示个体所属的不同类别,像这样的变量成为分类变量. (2)列出两个分类变量的频数表,称为列联表.(3)等高条形图是用来分析两个分类变量之间是否具有相关关系,可以形象、直观地反映两个分类变量之间的总体状态和差异大小,进而判断它们之间是否具有相关关系的图形. 2.问题探究问题探究一 我们主要从几个方面来研究两个分类变量之间有无关系?●活动一 回归旧知,忆分类变量间关系的判断例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?【知识点:分类变量,独立性检验,变量间的关系】详解:根据题中所给数据列出列联表相应的等高条形图如图所示:比较来说,秃顶的病人中患心脏病的比例大一些,可以在某种程度上认为“秃顶与患心脏病有关”.●活动二对比学习,提炼优缺点根据数据有多大把握判断秃顶与患心脏病是否有关系?在假设的前提下,,所以有99%的把握认为“秃顶与患心脏病有关”.这里的数据来自于医院的住院病人,因此题目中的结论能够很好地适用于住院的病人群体,而把这个结论推广到其他群体则可能会出现错误,除非有其它的证据表明可以进行这种推广.点拨:(1)列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.(2)独立性检验能精确判断可靠程度,而等高条形图的优点是直观,但只可以粗略判断两个分类变量是否有关系,一般在通过图表判断后还需要用独立性检验来确认.问题探究二 什么是独立性检验?利用独立性检验判断两个分类变量的是否有关系的一般过程是什么? ●活动一 理论学习,提升高度1.定义:利用随机变量2K 来判断“两个分类变量有关系”的方法称为独立性检验. ●活动二 对比学习,提炼方法通过反思例1的解答过程中,你能总结出利用独立性检验判断两个分类变量的是否有关系的一般过程吗?一般地,假设有两个分类变量X 和Y ,它们的取值分别为{}21,x x 和{}21,y y ,其2×2列联表为下表:我们构造一个变量:))()()(()(22d b c a d c b a bd ac n K ++++-=,其中d c b a n +++=.利用随机变量2K 来确定在多大程度上可以认为两个分类变量有关系:利用上述公式求出2K 的观测值为))()()(()(2d b c a d c b a bd ac n k ++++-=,其中d c b a n +++=.再得出X 与Y 有关系的程度:①如果k >10.828,就有99.9%的把握认为X 与Y 有关系; ②如果k >7.879,就有99.5%的把握认为X 与Y 有关系; ③如果k >6.635,就有99%的把握认为X 与Y 有关系;④如果k >5.024,就有97.5%的把握认为X 与Y 有关系; ⑤如果k >3.841,就有95%的把握认为X 与Y 有关系; ⑥如果k >2.706,就有90%的把握认为X 与Y 有关系; ⑦如果k ≤2.706,就认为没有充分的证据证明X 与Y 有关系.问题探究三 独立性检验的基本思想是什么? ●活动一 深层思考,得出基本思想通过上述问题,我们可以利用独立性检验来说明两个分类变量是否有关系,相关性有多强.那么为什么可以用独立性检验来判断两个分类变量的相关性呢?其基本思想是什么?独立性检验的基本思想类似于数学中的反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即:0H :两个分类变量没有关系成立,在该假设下我们构造的随机变量2K 应该很小,如果由观测数据计算得到2K 的观测值k 很大,则在一定程度上说明假设不合理,即断言0H 不成立,即认为“两个分类变量有关系”;如果观测值k 很小,则说明在样本数据中没有发现足够证据拒绝0H .如何判断2K 的观测值k 的大小?确定一个正数0k ,当0k k ≥时认为2K 的观测值k 大.此时相应于0k 的判断规则为:如果0k k ≥,则认为“两个分类变量有关系”;否则认为“两个分类变量没有关系”.我们称这样的0k 为一个判断规则的临界值.按照上述规则,把“两个分类变量没有关系”错误判断为“两个分类变量有关系”的概率为)(02k K P ≥根据随机变量2K 的含义,可以通过)01.0635.6(2≈≥K P 来评价假设的不合理程度,又实际计算出635.6>k ,说明假设不合理的程度约为%99,级两个变量是由关系这一结论成立的可信度为%99. ●活动二 对比提升,区分不同独立性检验的原理与反证法的原理是否一样呢?我们对比可以发现: (1)反证法原理是在假设0H 下,如果推出一个矛盾,就证明了0H 不成立. (2)独立性检验原理是在假设0H 下,如果出现一个与0H 相矛盾的小概率事件,就推断0H 不成立,且该推断犯错误的概率不超过这个小概率.例 2 某高校为研究学生的身体素质与课外体育锻炼时间的关系,对该校一年级200名学生的课外体育锻炼平均每天运动的时间进行调查,如下表:(平均每天锻炼的时间单位:分钟)将学生日均课外体育运动时间在[40,60)上的学生评价为“课外体育达标”.请根据上述表格中的统计数据填写下面22⨯列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“课外体育达标”与性别有关?,其中n a b c d =+++.参考数据:【知识点:分类变量,独立性检验,变量间的关系】详解:其列联表如下故所以在犯错误的概率不超过0.01的前提下不能判断“课外体育达标”与性别有关; 点拨:独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论.在分析问题时一定要注意这一点,不可对某个问题下确定性结论否则就可能对统计计算得结果作出错误的解释. 3.课堂总结【知识梳理】(1)利用随机变量2K 来判断“两个分类变量有关系”的方法称为独立性检验. (2)独立性检验的基本思想类似于数学中的反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下我们构造的随机变量2K 应该很小,如果由观测数据计算得到2K 的观测值k 很大,则在一定程度上说明假设不合理.(3)独立性检验的原理与反证法的原理比较:反证法原理是在假设0H 下,如果推出一个矛盾,就证明了0H 不成立;独立性检验原理是在假设0H 下,如果出现一个与0H 相矛盾的小概率事件,就推断0H 不成立,且该推断犯错误的概率不超过这个小概率.【重难点突破】(1)独立性检验是对两个分类变量间是否有关系的一种案例分析方法,其分析方法有:等高条形图法和利用假设检验的思想方法,计算出来一个随机变量2K 的观测值来进行判断(2)独立性检验的基本思想是:①假设结论不成立,即“两个分类变量没有关系”.②在此假设下随机变量2K应该很能小,如果由观测数据计算得到2K的观测值k很大,则在一定程度上说明假设不合理.③根据随机变量2K的含义,可以通过评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为99.9%,即“两个分类变量有关系”这一结论成立的可信度为约为99.9%.4.随堂检测1.下列变量中不属于分类变量的是()A.性别B.吸烟C.宗教信仰D.国籍【知识点:分类变量】解:B“吸烟”不是分类变量,“是否吸烟”才是分类变量.2.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%【知识点:等高条形图】解:C由等高条形图知:女生喜欢理科的比例为20%,男生不喜欢理科的比例为40%,因此,B、D不正确.从图形中,男生比女生喜欢理科的可能性大些.3.为大力提倡“厉行节约,反对浪费”,某区通过随机询问100名性别不同的居民是否做到“光盘”的正确结论是()A.在犯错误的概率不超过1%的前提下,认为“该市民能否做到‘光盘’行动与性别有关”B.在犯错误的概率不超过1%的前提下,认为“该市民能否做到‘光盘’行动与性别无关”C.有90%以上的把握认为“该市民能否做到‘光盘’行动与性别有关”D.有90%以上的把握认为“该市民能否做到‘光盘’行动与性别无关”【知识点:独立性检验】解:C因为2.706<3.030<3.841所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.4.若两个分类变量X和Y的22⨯列联表为:则认为“X与Y之间有关系”的把握可以达到()A.95%B.5%C.97.5%D.2.5%【知识点:独立性检验】解:A 根据列联表可以得到有100个样本,且10,40,20,30a b c d ====,代入表达式,得到2 4.7K ≈,2 3.84()051.9P K ≥=.5.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”.利用2×2列联表计算,得K 2=3.918.经查对临界值表,知P (K 2≥3.814)=0.05.给出下列结论:①有95%把握认为“这种血清能起到预防感冒的作用”;②若某人未使用血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.其中正确结论的序号是( )A .①③B .②④C .①D .③ 【知识点:独立性检验】 解:C6.独立性检验所采用的思路是:要研究X ,Y 两个分类变量彼此相关,首先假设这两个分类变量彼此________,在此假设下构造随机变量K 2.如果K 2的观测值较大,那么在一定程度上说明假设________. 【知识点:独立性检验】解:无关系 不成立 (三)课后作业基础型 自主突破1.下列关于等高条形图的叙述正确的是( ).A .从等高条形图中可以精确地判断两个分类变量是否有关系B .从等高条形图中可以看出两个变量频数的相对大小C .从等高条形图可以粗略地看出两个分类变量是否有关系D .以上说法都不对 【知识点:独立性检验】解:C 在等高条形图中仅能粗略判断两个分类变量的关系,故A 错.在等高条形图中仅能够找出频率,无法找出频数,故B 错.2.如果有95%的把握说事件A 和B 有关系,那么具体计算出的数据是( )A . 841.3>kB . 841.3<kC . 635.6>kD . 635.6<k 【知识点:独立性检验】 解: A3.下面关于2K 的说法正确的是( )A . 2K 在任何相互独立的问题中都可以用于检验有关还是无关B . 2K 的值越大,两个事件的相关性就越大C . 2K 是用来判断两个分类变量是否相关的随机变量,当2K 的值很小时可以推定两个变量不相关D . 2K 的观测值的计算公式是))()()(()(2d b c a d c b a bd ac n K ++++-=【知识点:独立性检验】 解: B4. 为了研究学生性别与是否喜欢数学课之间的关系,得到列联表如下,请判断有( )把握认为性别与喜欢数学课有关.ABCD 【知识点:独立性检验】解:D99.9%的把握认为性别与喜欢数学课有关.5.以下关于独立性检验的说法中,错误的是____.(填序号) ①独立性检验依据小概率原理; ②独立性检验得到的结论一定正确;③样本不同,独立性检验的结论可能有差异;④独立性检验不是判定两个分类变量是否相关的唯一方法. 【知识点:独立性检验】 解: ②能力型 师生共研6.有两个分类变量X 与Y 的一组数据,由其列联表计算得k ≈4.523,则认为“X 与Y 有关系”犯错误的概率为( )A .95%B .90%C .5%D .10% 【知识点:独立性检验】 解: C7.某医疗所为了检查新开发的流感疫苗对甲型HINI 流感的预防作用,把1000名注射疫苗的人与另外1000名未注射疫苗的人半年的感冒记录作比较,提出假设0:H “这种疫苗不能起到预防甲型HINI 流感的作用”,并计算()2 6.6350.01P X ≥≈,则下列说法正确的是( )A .这种疫苗能起到预防甲型HINI 流感的有效率为B .的可能性得甲型HINIC .“这种疫苗能起到预防甲型HINI 流感的作用” D .“这种疫苗能起到预防甲型HINI 流感的作用” 【知识点:独立性检验】解: C 因为()2 6.6350.01P X ≥≈,这说明假设不合理的程度为99%,即这种疫苗不能起到预防甲型HINI 流感的作用不合理的程度约为99%,所以有认为“这种疫苗能起到预防甲型HINI 流感的作用”,故选C.8.某企业为研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了72名员工进行调查,所得的数据如下表所示:对于人力资源部的研究项目,根据上述数据能得出的结论是( )当2 3.841χ>时,有95%的把握说事件A 与B 有关;当26.635χ>时,有99%的把握说事件A 与B 有关; 当2 3.841χ<时认为事件A 与B 无关.)A .有99%的把握说事件A 与B 有关 B .有95%的把握说事件A 与B 有关C .有90%的把握说事件A 与B 有关 D .事件A 与B 无关 【知识点:独立性检验】解:A 故有的把握说事件A 与B 有关,所以应选A.探究型 多维突破9.微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,其中每天玩微信超过6小时的用户列为“微信控”,否则称其为“非微信控”,调查结果如下:(1)根据以上数据,能否有60%的把握认为“微信控”与”性别“有关?(2)现从调查的女性用户中按分层抽样的方法选出5人,从这5人中再随机抽取3人赠送200元的护肤品套装,求这3人中“微信控”的人数为2的概率.n =a +b +c +d .参考数据:【知识点:独立性检验,古典概型】 解:(1)由列联表可得所以没有60%的把握认为“微信控”与”性别“有关.(2)记从(2)中抽取的5人中“微信控”的3人为321,,a a a ,“非微信控”的2人为21,b b ,从中随机抽取3人,所有可能结果:),,(),,,(),,,(),,,(),,,(),,,(),,,(132211231131221121321b a a b b a b a a b a a b a a b a a a a a , ),,(),,,(),,,(213212232b b a b b a b a a ,共10种;其中“微信控”的人数为2的结果有:),,(),,,(),,,(),,,(),,,(),,,(),,,(232132211231131221121b a a b a a b b a b a a b a a b a a b a a ,共6种,10.NBA 决赛期间,某高校对学生是否收看直播进行调查,将得到的数据绘成如下的2×2列联表,但部分字迹不清:将表格填写完整,试说明是否收看直播与性别是否有关?【知识点:独立性检验,概率统计】解析:所以有99%的把握认为是否收看直播与性别有关,(四)自助餐1.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定推断“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过()A.0.25B.0.75C.0.025D.0.975【知识点:独立性检验】答案 C2. 关于独立性检验的说法中,错误的是()A.独立性检验的基本思想是带有概率性质的反证法B.独立性检验得到的结论一定正确C.样本不同,独立性检验的结论可能有差异D.独立性检验不是判断两事物是否相关的唯一方法【知识点:独立性检验】答案 B3.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是()A.男、女人患色盲的频率分别为0.038,0.006B.男、女人患色盲的概率分别为19240,3260C.男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有关的D.调查人数太少,不能说明色盲与性别有关【知识点:独立性检验】解:C4.在调查学生数学成绩与物理成绩之间的关系时,得到如下数据(人数:)数学成绩与物理成绩之间有把握有关?()A.90%B.95%C.97.5%D.99%【知识点:独立性检验】解:D5.某疾病研究所想知道吸烟与患肺病是否有关,于是随机抽取1000名成年人调查是否吸烟及是否患有肺病,得到22⨯列联表,经计算得2 5.231K=,已知在假设吸烟与患肺病无关的前提条件下,22( 3.841)0.05,( 6.635)0.01P K P K≥=≥=,则该研究所可以()A.有95%以上的把握认为“吸烟与患肺病有关”B.有95%以上的把握认为“吸烟与患肺病无关”C.有99%以上的把握认为“吸烟与患肺病有关”D.有99%以上的把握认为“吸烟与患肺病无关”【知识点:独立性检验】解:A根据查对临界值表知22( 3.841)0.05,( 6.635)0.01P K P K≥=≥=,故有95%的把握认为“吸烟与患肺病有关”,即A正确;6.为了判断高中学生的文理科选修是否与性别有关,随机调查了50名学生,得到如下22⨯列联表:那么,认为“高中学生的文理科选修与性别有关系”犯错误的概率不超过( ) A .001.0 B .005.0 C .1.0 D .025.0 【知识点:独立性检验】解: B 因为8.3>7.879,所以我们认为“高中学生的文理科选修与性别有关系”犯错误的概率不超过005.0. 7.在对某小学的学生进行吃零食的调查中,得到如下表数据:根据上述数据分析,我们得出的K 2的观测值k 约为 . 【知识点:独立性检验】解:3.689 由公式可计算得k =错误!未找到引用源。

高中数学(A版)选修2-3 3.2独立性检验的基本思想

高中数学(A版)选修2-3 3.2独立性检验的基本思想
观测数据a、b、c、d都不小于5的独立性检验
中。
对于上节吸烟与患肺癌的问题,计算可得:
6578 (56 4567 1932 23) 2 2 62.698 1988 4590 79 6499
2 因为: 6.635
所以:有99%以上的把握认为吸烟与患肺癌是有关
当等式两边相差很大时, 变量间就不独立。
b ab bd 如当 很大时,A 1 与 B2 就不独立。 n n n
新课讲解
? ?
那么,这些量究竟要达到什么样的程度,
才能够说明变量之间不独立呢??能否选择
一个量,用它来检验变量之间的独 的大小来检验 变量间是否独 立,称它为卡 方统计量。
的,即吸烟与患肺癌不是相互独立的。
例题分析
某地震观测站对地下水位的变化和发生地震的情 况进行了1700次观测,数据如下:
试问观测结果是否说明地下水位的变化与地震的
发生有关系??
分析: 根据列联表的数据,可得:
2 1.59 2.706
所以,没有充分的证据显示地下水位的变化与 地震的发生相关。
(3)当 2 3.841 时,有95%的把握判定变量A、B
有关联; (4)当 2 6.635 时,有99%的把握判定变量A、B 有关联。
由于抽样的随机性,由样本得到的推断有
可能正确,也有可能错误。利用 2进行独立性
检验,可以对推断的正确性的概率作出估计,
样本量n越大,估计越准确。此法一般适用于
2
A、B有关联; (2)当 2 2.706 时,有90%的把握判定变量A、B
有关联; (3)当 2 3.841 时,有95%的把握判定变量A、B
有关联;

数学:3.2《独立性检验》课件(新人教A版选修2-3)

数学:3.2《独立性检验》课件(新人教A版选修2-3)
吸烟 不吸烟 总计 患病 a c a+c 不患病 b d b+d 总计 a+b c+d a+b+c+d
第三步:引入一个随机变量:卡方统计量

2
a b c d a c b d
其中n a b c d
n ad bc
2
第四步:查对临界值表,作出判断。
复方江剪刀草 胆黄片 合计
有效 184 91 275
无效 61 9 70
2
合计 245 100 345
解:设H0:两种中草药的治疗效果没有差异。
345184 9 61 91 2 11.098 275 70 245 100
因当H0成立时,χ2≥10.828的概率为0.001,故有99.9%的把握 认为,两种药物的疗效有差异。
怎样描述实际观测值与估计值的差异呢? 统计学中采用
(观测值 预期值)2 用卡方统计量: 2 预期值 来刻画实际观测值与估计值的差异.
ab ac 2 ab bd 2 (a n ) (b n ) n n n n 2 ab ac ab bd n n n n n n cd ac 2 cd bd 2 (c n ) (d n ) n n n n cd ac cd bd n n n n n n
反证法原理与假设检验原理 反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
例1.在500人身上试验某种血清预防感冒作用,把他们 P(χ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 一年中的感冒记录与另外500名未用血清的人的感冒记 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 录作比较,结果如表所示。问:该种血清能否起到预防 感冒的作用? 未感冒 感冒 合计

数学高二-选修2-3知识导航 第三章2独立性检验

数学高二-选修2-3知识导航 第三章2独立性检验

§2 独立性检验自主整理1.设A ,B 为两个变量,每一个变量都可以取两个值, 变量A :A 1,A 2=A 1; 变量B :B 1,B 2=B 1.其中,a 表示变量A 取A 1,且变量B 取B 1时的数据;b 表示变量A 取A 1,且变量B 取B 2时的数据;c 表示变量A 取A 2,且变量B 取B 1时的数据;d 表示变量A 取A 2,且变量B 取B 2时的数据.设n=a+b+c+d,用_______________估计P(A 1B 1), ______________估计P(A 1), __________估计P(B 1). 若有式子nca nb a n a +•+=, 则可以认为______________独立.同理,若n d b n b a n b +•+=,则可以认为______________独立;若nca n d c n c +•+=,则可以认为______________独立;若ndb n dc nd +•+=,则可以认为______________独立. 但是,在n c a n b a n a +•+=中,由于nca nb a n a ++,,表示的是______________,不同于概率,即使变量之间独立,式子两边也不一定恰好相等.但是当两边相差______________时,变量之间就不独立.2.选取χ2作统计量,用它的大小来检验变量之间是否独立.χ2=______________________________________________________________________ 当数据量较大时,在统计中,用以下结果对变量的独立性进行判断.(1)当χ2≤______________时,没有充分的证据判定变量A,B 有关联,可以认为变量A,B 是没有关联的;(2)当χ2>______________时,有90%的把握判定变量A,B 有关联; (3)当χ2>______________时,有95%的把握判定变量A,B 有关联; (4)当χ2>______________时,有99%的把握判定变量A,B 有关联. 高手笔记1.独立性检验的基本思想先假设两个分类变量X 与Y 无关系,即X 与Y 相互独立,计算χ2的观测值k,把k 与临界值进行比较,可以判断X 与Y 有关系的程度及无关系.在该假设下,构造的随机变量χ2应该很小,如果实际计算出的χ2的观测值很大,则在一定程度上说明假设不合理,根据χ2的含义可以利用统计估算出概率P(χ2≥6.635)≈0.01,即有1%的把握认为X 与Y 无关,也就是说有99%的把握认为X 与Y 有关联.2.独立性检验的一般步骤(1)假设两个分类变量X 与Y 无关联;(2)计算出χ2=;))()()(()(2d b c a d c b a bc ad n ++++- (3)把χ2的值与临界值比较确定X 与Y 有关联的程度或无关联. 名师解惑从教科书中,我们得到“有99%以上的把握认为吸烟与患肺癌是有关的”这一结论,有的同学认为这一结论应该这样理解:即100个抽烟的人中,有99个患有肺癌.请问这样理解是否正确? 剖析:不正确.首先要区别“事件发生的概率”与“独立性检验中X 与Y 有关联的概率”.(1)事件发生的概率.例如袋中有100个球,其中99个白球,1个黑球,随机取一个球,则取到白球的概率为99%.(2)两个变量X 与Y 有关系的概率.例如教科书中吸烟与患肺癌之间有关系的概率为99%,并非指吸烟者中有99%的人患肺癌,而是指我们有99%的把握认为“吸烟与患肺癌有关系”,(而在吸烟者中,只有 2.82%的人患肺癌)我们得到的结论是:吸烟者与不吸烟者患肺癌的可能性存在差异,这里所说的“吸烟与患肺癌有关系”是指统计上的关系,而非因果关系,至于吸烟者患不患肺癌,应该由医学检查来确定,而非统计学上的事了. 讲练互动【例1】在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶,利用独立性检验的方法判断秃顶与患心脏病是否有关系.分析:计算χ2的值,然后与临界值进行比较.故χ2=7726651048389)451175597214(14372⨯⨯⨯⨯-⨯⨯≈16.373>6.635,所以有99%的把握认为“秃顶与患心脏病有关”.黑色陷阱:因为这组数据来自住院的病人,因此所得到的结论只适合住院的病人群体,不要脱离这个前提而将结论推广到一般人群.. 变式训练1.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取由表中的数据,你认为在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?为什么?解:χ2=17812222872)853514337(3002⨯⨯⨯⨯-⨯⨯≈4.513>3.841,在假设“性别与是否喜欢数学课程之间没有关系”的前提下,χ2应该很小,并且P (χ2>3.841)≈0.05,而我们所得到的χ2的观察值4.513超过3.841,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论是错误的可能性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程之间有关系”. 【例2】某地震观测站对地下水位的变化和发生地震的情况进行了n=1 700次观测,列联表如问观测结果是否说明地下水位的变化与地震的发生有关系?分析:判断两个分类变量是否相关,只须计算χ2的值然后与临界值比较即可.χ2=70010001520180)9028261898(17002⨯⨯⨯⨯-⨯⨯≈1.59<2.706,∴没有充分的证据显示地下水位的变化与地震的发生相关.绿色通道:当χ2≤2.706时,一般认为没有充分证据显示“X 与Y 有关系”.. 变式训练2.为了研究性格与血型的关系抽取80人测试,血型与性格汇总如下,试判断性格与血型是解:由列联表中的数据得到 χ2=46344535)17162918(802⨯⨯⨯⨯-⨯⨯≈2.030≤2.706.所以认为没有充分的证据显示血型与性格有关系.【例3】在一项有关医疗保健的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,判断喜不喜欢甜食与性别是否有关系.分析:先由题目中的条件画出列联表,然后计算χ2.χ2=670530591609)413492178117(12002⨯⨯⨯⨯-⨯≈312.272>6.635,∴有99%的把握认为喜不喜欢甜食与性别有关系.绿色通道:统计方法是可能犯错误的,好的统计方法就是要降低犯错误的概率.. 变式训练试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗? 解:根据列联表中的数据,得到χ2=28356134205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469.因为7.469>6.635,所以我们有99%的把握说50岁以上的人患慢性气管炎与吸烟习惯有关.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.2独立性检验的基本思想及其初步应用(共计3课时)授课类型:新授课一、教学内容与教学对象分析通过典型案例,学习下列一些常用的统计方法,并能初步应用这些方法解决一些实际问题。

①通过对典型案例(如“患肺癌与吸烟有关吗”等)的探究。

了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。

②通过对典型案例(如“人的体重与身高的关系”等)的探究,了解回归的基本思想、方法及其初步应用。

二. 学习目标1、知识与技能通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断。

明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。

2、过程与方法在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学好本节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存在的不足,从而为学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值R的求法,以及它们的实际意义。

从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小。

最后介绍了独立性检验思想的综合运用。

3、情感、态度与价值观通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。

加强与现实生活相联系,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述两个变量的关系。

明确数学在现实生活中的重要作用和实际价值。

教学中,应多给学生提供自主学习、独立探究、合作交流的机会。

养成严谨的学习态度及实事求是的分析问题、解决问题的科学世界观,并会用所学到的知识来解决实际问题。

三.教学重点、难点教学重点:理解独立性检验的基本思想;独立性检验的步骤。

教学难点;1、理解独立性检验的基本思想;2、了解随机变量K2的含义;3、独立性检验的步骤。

四、教学策略教学方法:诱思探究教学法学习方法:自主探究、观察发现、合作交流、归纳总结。

教学手段:多媒体辅助教学五、教学过程:对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.在现实生活中,分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍,等等.在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别对于是否喜欢数学课程有影响?等等.为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)表3-7 吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775 42 7817吸烟2099 49 2148总计9874 91 9965那么吸烟是否对患肺癌有影响吗?像表3一7 这样列出的两个分类变量的频数表,称为列联表.由吸烟情况和患肺癌情况的列联表可以粗略估计出:在不吸烟者中,有0.54 %患有肺癌;在吸烟者中,有2.28%患有肺癌.因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图3. 2 一1 是列联表的三维柱形图,从中能清晰地看出各个频数的相对大小.图3.2一2 是叠在一起的二维条形图,其中浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数.从图中可以看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例.为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图3.2一3 所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?为了回答上述问题,我们先假设H 0:吸烟与患肺癌没有关系.用A 表示不吸烟, B 表示不患肺癌,则“吸烟与患肺癌没有关系”独立”,即假设 H 0等价于PAB )=P(A )+P(B) .把表3一7中的数字用字母代替,得到如下用字母表示的列联表:表3-8 吸烟与肺癌列联表不患肺癌 患肺癌 总计不吸烟 a b a+b 吸烟 c d c+d 总计a+cb+da+b+c+d在表3一8中,a 恰好为事件AB 发生的频数;a+b 和a+c 恰好分别为事件A 和B 发生的频数.由于频率近似于概率,所以在H 0成立的条件下应该有a ab a cn n n++≈⨯, 其中n a b c d =+++为样本容量, (a+b+c+d)≈(a+b)(a+c) ,即ad ≈bc.因此,|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad -bc|越大,说明吸烟与患肺癌之间关系越强.为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++ (1)其中n a b c d =+++为样本容量.若 H 0 成立,即“吸烟与患肺癌没有关系”,则 K “应该很小.根据表3一7中的数据,利用公式(1)计算得到 K “的观测值为()22996577754942209956.63278172148987491K ⨯-⨯=≈⨯⨯⨯,这个值到底能告诉我们什么呢?统计学家经过研究后发现,在 H 0成立的情况下,2( 6.635)0.01P K ≥≈. (2)(2)式说明,在H 0成立的情况下,2K 的观测值超过 6. 635 的概率非常小,近似为0 . 01,是一个小概率事件.现在2K 的观测值k ≈56.632 ,远远大于6. 635,所以有理由断定H 0不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为“吸烟与患肺癌有关系” .在上述过程中,实际上是借助于随机变量2K 的观测值k 建立了一个判断H 0是否成立的规则:如果k ≥6. 635,就判断H 0不成立,即认为吸烟与患肺癌有关系;否则,就判断H 0成立,即认为吸烟与患肺癌没有关系.在该规则下,把结论“H 0 成立”错判成“H 0 不成立”的概率不会超过2( 6.635)0.01P K ≥≈,即有99%的把握认为从不成立.上面解决问题的想法类似于反证法.要确认是否能以给定的可信程度认为“两个分类变量有关系”,首先假设该结论不成立,即H 0:“两个分类变量没有关系” 成立.在该假设下我们所构造的随机变量2K 应该很小.如果由观测数据计算得到的2K 的观测值k 很大,则在一定可信程度上说明H 0不成立,即在一定可信程度上认为“两个分类变量有关系”;如果k 的值很小,则说明由样本观测数据没有发现反对H 0 的充分证据.怎样判断2K 的观测值 k 是大还是小呢?这仅需确定一个正数0k ,当0k k ≥时就认为2K 的观测值k 大.此时相应于0k 的判断规则为:如果0k k ≥,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的0k 为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率为20()P K k ≥.在实际应用中,我们把0k k ≥解释为有20(1())100%P K k -≥⨯的把握认为“两个分类变量之间有关系”;把0k k <解释为不能以20(1())100%P K k -≥⨯的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据.上面这种利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.利用上面结论,你能从列表的三维柱形图中看出两个变量是否相关吗?一般地,假设有两个分类变量X 和Y ,它们的可能取值分别为{12,x x }和{12,y y }, 其样本频数列联表(称为2×2列联表)为:表3一 9 2×2列联表若要推断的论述为H l :X 与Y 有关系,可以按如下步骤判断结论H l 成立的可能性:1.通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.① 在三维柱形图中,主对角线上两个柱形高度的乘积ad 与副对角线上的两个柱形高度的乘积bc 相差越大,H 1成立的可能性就越大.② 在二维条形图中,可以估计满足条件X=1x 的个体中具有Y=1y 的个体所占的比例aa b+,也可以估计满足条件X=2x 的个体中具有Y=2y ,的个体所占的比例c c d +.“两个比例的值相差越大,H l 成立的可能性就越大.2.可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:① 根据实际问题需要的可信程度确定临界值0k ;② 利用公式( 1 ) ,由观测数据计算得到随机变量2K 的观测值k ;③ 如果0k k >,就以20(1())100%P K k -≥⨯的把握认为“X 与Y 有关系”;否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据.在实际应用中,要在获取样本数据之前通过下表确定临界值: 表3一10(四)、举例:例1.在某医院,因为患心脏病而住院的 665 名男性病人中,有 214 人秃顶,而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶.(1)利用图形判断秃顶与患心脏病是否有关系.(2)能够以 99 %的把握认为秃顶与患心脏病有关系吗?为什么? 解:根据题目所给数据得到如下列联表:(1)相应的三维柱形图如图3.2一4所示.比较来说,底面副对角线上两个柱体高度的乘积要大一些,可以在某种程度上认为“秃顶与患心脏病有关”.(2)根据列联表3一11中的数据,得到21437(214597175451)3891048665772k ⨯⨯-⨯=⨯⨯⨯≈16.373>6 .因此有 99 %的把握认为“秃顶与患心脏病有关” . 例2.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:表 喜欢数学课程 不喜欢数学课程 总计 男 37 85 122 女 35143 178 总计 72228300由表中数据计算得2K 的观测值 4.514k ≈.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.解:可以有约95%以上的把握认为“性别与喜欢数学课之间有关系”.作出这种判断的依据是独立性检验的基本思想,具体过程如下:分别用a , b , c , d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例aa b+与女生中喜欢数学课的人数比例c c d +应该相差很多,即||||()()a c ad bca b c d a b c d --=++++ 应很大. 将上式等号右边的式子乘以常数因子()()()()()a b c d a b c d a c b d +++++++,然后平方得 22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.因此2K 越大,“性别与喜欢数学课之间有关系”成立的可能性越大.另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A ={2K ≥3. 841}K≥3. 841)≈0.05,的概率为P (2K的观测值k=4.514,即小概率事件因此事件A 是一个小概率事件.而由样本数据计算得2A发生.因此应该断定“性别与喜欢数学课之间有关系”成立,并且这种判断结果出错的可能性约为5 %.所以,约有95 %的把握认为“性别与喜欢数学课之间有关系”.补充例题1:打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?患心脏病未患心脏病合计每一晚都打鼾30 224 254 不打鼾24 1355 1379合计54 1579 1633 解:略。

相关文档
最新文档