8.4 列联表独立性分析案例(2)
高中数学新湘教版精品教案《湖南教育出版社高中数学选修2-3 8.4 列联表独立性分析案例》
《列联表独立性分析案例》教学设计授课教师:阮金锋指导教师:缪向光阮龙杰送选单位:福建省福安市第一中学【教材分析】这节课是湘教版2021课标版高中数学《选修2—3》第八章第4节的内容,是概率与统计的重要内容.在此之前,学生已经学习了随机事件发生的概率、概率的运算、事件的独立性、正态分布等内容.本节课在对前面学过有关知识的基础上,通过分析“吸烟与患肺癌是否有关”这一统计案例,明确独立性检验的基本步骤,理解独立性检验的基本思想.独立性检验的基本思想是建立在假设检验思想(小概率事件在一次试验中几乎不可能发生)基础之上,是一种重要的假设检验方法.独立性检验的基本思想的理解,有利于提升统计素养,有利于提升抽象概括、数学建模、数据分析等数学核心素养.【教学目标】1.知识与技能通过典型案例的探究,理解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,理解独立性检验与反证法的联系与区别,并能解决实际问题.2.过程与方法通过数据统计、分析和计算过程,从具体实例中学会用样本来估计总体的统计思想.通过主动探究、自主学习,从具体实例中抽象、概括、总结出独立性检验的基本原理和基本步骤,同时充分体会知识的发现过程.3.情感、态度与价值观通过本节课的学习,初步提高从生活中发现数学问题、解决数学问题的能力,提升抽象概括、数学建模、数据分析等数学素养.通过学生分析问题、解决问题的学习过程,激发学习兴趣,培养学生勇于探索的科学精神.【学情分析】学生之前已学了概率统计的相关内容,有了一定的统计分析能力,对本节课的学习奠定了一定的基础.但学生缺乏假设检验的有关知识背景,导致对独立性检验的基本思想的学习与理解存在困难,学生很难理解独立性X是从怎么检验的说理方式.为什么要假设?为什么判断会出错?既然出错了怎么又可以下结论?统计量卡方2X分布概率临界值表怎么理解?独立性检验思想与反证法的联系与区别如何?这些问题成构造出来的?卡方2为学生学习本节课的障碍,如果没有根本性解决,学生只能依葫画瓢,只能死记硬背,机械套用卡方公式.【教学重点】通过生活实例体会独立性检验的基本思想,掌握独立性检验的一般步骤.【教学难点】X的由来与结构特征1.统计量卡方2X分布概率临界值表的本质理解2.卡方23.独立性检验的基本思想的理解4.独立性检验思想与反证法的联系与区别5.小概率事件原理的理解【教学方式】多媒体辅助,几何画板辅助,探究式教学(以问题串指引)【教学策略】以“吸烟与患肺癌是否相关”案例的解决为主线,问题串指引探究教学,类比反证法思想,体会独立性检验的实际运用。
版和学生版)8.3 列联表与独立性检验 -(人教A版2019选择性必修第二、三册) (学生版)
列联表与独立性检验1 2×2列联表设A ,B为两个变量,每一个变量都可以取两个值,变量A∶A1 ,A2=A1变量B∶B1 ,B2=B1通过观察得到右表所示数据:并将形如此表的表格称为2×2列联表.2 独立性检验根据2×2列联表中的数据判断两个变量A ,B是否独立的问题叫2×2列联表的独立性检验.3 χ2的计算公式χ2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)若要推断的论述为“A与B有关系”,则χ2的值越大,说明“A与B有关系”成立的可能性越大.如下表,若 χ2=8时,因为8>7.879 ,所以有1−0.005=99.5%的把握认为A与B之间有关;而8<10.828,所以没有1−0.001=99.9%的把握认为A与B之间有关.4应用独立性检验解决实际问题大致应包括以下几个主要环节(Ⅰ) 提出另假设H0:X和Y相互独立,并给出在问题中的解释;(Ⅱ)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;(Ⅲ)根据检验规则得出推断结论;(Ⅳ)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.【典题1】为了考察某种病毒疫苗的效果,现随机抽取100只小白鼠进行试验,得到如下2×2列联表:根据以上数据,得到的结论正确的是()A.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”B.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗无关”C.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”D.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗无关”【典题2】近年来我国电子商务行业迎来篷布发张的新机遇,2015年双11期间,某购物平台的销售业绩高达918亿人民币,与此同时,相关管理部门推出了针对电商的商品和服务的评价体系,现从评价系统中选出200次成功交易,并对其评价进行统计,对商品的好评率为0.6,对服务的好评率为0.75,其中对商品和服务都做出好评的交易为80次.(Ⅰ)完成商品和服务评价的2×2列联表,并说明是否可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关?(Ⅰ)若将频率视为概率,某人在该购物平台上进行的5次购物中,设对商品和服务全好评的次数为随机变量X.①求对商品和服务全好评的次数X的分布列(概率用组合数算式表示);②求X的数学期望和方差.参考数据及公式如下:【典题3】近期,湖北省武汉市等多个地区发生新型冠状病毒感染的肺炎疫情.为了尽快遏制住疫情,我国科研工作者坚守在科研一线,加班加点、争分夺秒与病毒抗争,夜以继日地进行研究.新型冠状病毒的潜伏期检测是疫情控制的关键环节之一.在传染病学中,通常把从致病刺激物侵入机体或对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.钟南山院士带领的研究团队统计了武汉市某地区10000名医学观察者的相关信息,并通过咽拭子核酸检测得到1000名确诊患者的信息如表格:潜伏期(单位:天)[0 ,7](7 ,14](14 ,21](21 ,28]人数80019082(1)求这1000名确诊患者的潜伏期样本数据的平均数x(同一组数据用该组数据区间的中点值代表).(2)新型冠状病毒的潜伏期受诸多因素影响,为了研究潜伏期与患者性别的关系,以潜伏期是否超过7天为标准进行分层抽样,从上述1000名患者中抽取100名,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有90%的把握认为潜伏期与患者性别有关.潜伏期≤7天潜伏期>7天总计男性患者12女性患者50总计100(3)由于采样不当、标本保存不当、采用不同类型的标本以及使用不同厂家试剂都可能造成核酸检测结果“假阴性”而出现漏诊.当核酸检测呈阴性时,需要进一步进行血清学IgM/IgG抗体检测,以弥补核酸检测漏诊的缺点.现对10名核酸检测结果呈阴性的人员逐一地进行血清检测,记每个人检测出IgM(IgM是近期感染的标志)呈阳性的概率为p(0<p<1)且相互独立,设至少检测了9个人才检测出IgM呈阳性的概率为f(p),求f(p)取得最大值时相应的概率p.附:K2=n(ad−bc)2,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)P(K2≥k0)0.1000.0500.0250.0100.0050.001 k0 2.706 3.841 5.024 6.6357.87910.828巩固练习1(★) 在研究肥胖与高血压的关系时,通过收集数据、整理分析数据得到“高血压与肥胖有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是()A.在100个肥胖的人中至少有99人患有高血压B.肥胖的人至少有99%的概率患有高血压C.在100个高血压患者中一定有肥胖的人D.在100个高血压患者中可能没有肥胖的人2(★) 某校为了解学生“玩手机游戏”和“学习成绩”是否有关,随机抽取了100名学生,运用2×2列联表进行独立性检验,经计算得到K2=3.936,所以判定玩手机游戏与学习成绩有关系,那么这种判断出错的可能性为()P(K2≥k0)0.500.400.250.150.100.050.0250.010.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.83 A.1%B.5%C.95%D.99%3 (★)为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算K2=8.01,附表如表:P(K2≥k0)0.1000.0500.0250.0100.001 k0 2.706 3.841 5.024 6.63510.828参照附表,得到的正确的结论是()A.有99%以上的把握认为“喜欢乡村音乐与性别有关”B.有99%以上的把握认为“喜欢乡村音乐与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“喜欢乡村音乐与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“喜欢乡村音乐与性别无关”4(★)【多选题】“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如表所示的列联表,通过计算得到K2的观测值为9.已知P(K2≥6.635)=0.010 ,P(K2≥10.828)=0.001,则下列判断正确的是()认可不认可40岁以下202040岁以上(含40岁)4010A.在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”B.在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”C.有99%的把握认为“光盘行动”的认可情况与年龄有关D.在犯错误的概率不超过0.001的前提下,认为“光盘行动”的认可情况与年龄有关5(★) 某网络平台从购买该平台某课程的客户中,随机抽取了100位客户的数据,并将这100个数据按学时数,客户性别等进行统计,整理得到如表;学时数[5,10)[10,15)[15,20)[20,25)[25,30)[30,35)[35,40)男性181299642女性24827134(1)根据上表估计男性客户购买该课程学时数的平均值(同一组中的数据用该组区间的中点值作代表,结果保留小数点后两位);(2)从这100位客户中,对购买该课程学时数在20以下的女性客户按照分层抽样的方式随机抽取7人,再从这7人中随机抽取2人,求这2人购买的学时数都不低于15的概率.(3)将购买该课程达到25学时及以上者视为“十分爱好该课程者”,25学时以下者视,为“非十分爱好该课程者”.请根据已知条件完成以下2×2列联表,并判断是否有99.9%的把握认为“十分爱好该课程者”与性别有关?非十分爱好该课程者十分爱好该课程者合计男性女性合计100,n=a+b+c+d附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)P(K2≥k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.8286(★★)“低碳出行”,一种降低“碳”的出行,以低能耗、低污染为基础,是环保的深层次体现,在众多发达国家被广大民众接受并执行,S 市即将投放一批公共自行车以方便市民出行,减少污染,缓解交通拥堵,现先对100人做了是否会考虑选择自行车出行的调查,结果如表.(1)如果把45周岁以下人群定义为“青年”,完成下列2×2列联表,并问你有多少把握认为该地区市民是否考虑单车与他(她)是不是“青年人”有关?参考:K 2=n(ad−bc)2(a+b)(a+c)(c+d)(b+d),n =a +b +c +d .(2)S 市为了鼓励大家骑自行车上班,为此还专门在几条平时比较拥堵的城市主道建有无障碍自行车道,该市市民小明家离上班地点10km ,现有两种.上班方案给他选择;方案一:选择自行车,走无障碍自行车道以19km/ℎ的速度直达上班地点.方案二:开车以30km/ℎ的速度上班,但要经过A 、B 、C 三个易堵路段,三个路段堵车的概率分别是12,12,13,且是相互独立的,并且每次堵车的时间都是10分钟(假设除了堵车时间其他时间都是匀速行驶) 若仅从时间的角度考虑,请你给小明作一个选择,并说明理由.7(★★) 2020年初,新型冠状病毒(2019−nCoV)肆虐,全民开启防疫防控.新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是40岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对200个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为7.1,方差为2.252.如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:年龄/人数长期潜伏非长期潜伏40岁以上3011040岁及40岁以下2040(1)是否有95%的把握认为“长期潜伏”与年龄有关;(2)假设潜伏期X服从正态分布N(μ ,σ2),其中μ近似为样本平均数x,σ2近似为样本方差s2.(i)现在很多省份对入境旅客一律要求隔离14天,请用概率的知识解释其合理性;(ii)以题目中的样本频率估计概率,设1000个病例中恰有k(k∈N∗)个属于“长期潜伏”的概率是g(k),当k 为何值时,g(k)取得最大值..附:X2=n(ad−bc)2(a+b)(c+d)(a+c)(a+d)P(X2≥x0)0.10.050.010x0 2.706 3.841 6.635若ξ~N(μ ,σ2),则P(μ−σ<ξ<μ+σ)=0.6862.P(μ−2σ<ξ<μ+2σ)=0.9544,P(μ−3σ<ξ<μ+3σ)=0.9974.。
8.4列联表独立性分析案例
因当H0成立时,χ2≥1.3896的概率大于15%,故不能否定假设H0,即不 LOGO 能作出药的效果与给药方式有关的结论。
例 (2011 省质检)某中学将 100 名高一新生分成水平相同的甲、乙 两个“平行班”,每班 50 人.陈老师采用 A 、 B 两种不同的教学方式 分别在甲、 乙两个班级进行教改实验.为了解教学效果,期末考试后, 陈老师对甲、 乙两个班级的学生成绩进行统计分析,画出频率分布直 方图(如下图).记成绩不低于 90 分者为“成绩优秀”
例 为研究不同的给药方式(口服与注射)和药的效果(有 效与无效)是否有关,进行了相应的抽样调查,调查的结 果列在表中,根据所选择的193个病人的数据,能否作出药 的效果和给药方式有关的结论?
有效 无效 合计
口服
注射 合计
58
64 122
40
31 71
98
95 193
解:设H0:药的效果与给药方式没有关系。
x
0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
LOGO
案例研究
患肺癌与吸烟是否有关
2
2
100 39 25 15 21 54 46 60 40
0.40 0.25
7.307 6.635
P ( 2 x0 ) 0.50
2
2
0.1 0.08 0.06 0.04 0.02 0 -0.02
2 的分布密度曲线
2 分布含义:两个因素相互独立(不相关)的概率分布
。 2 作用:来判断 “两个因素有关系”的可能性(把握度)
列联表独立性分析案例演示文稿
等高 条形图
患肺癌 不患肺癌
不吸烟
第15页,共29页。
吸烟与肺癌的调查数据
60
40
患肺 癌
不患 肺癌
总计
35 30
50 40
25
吸烟 39 15 54
20 15
吸烟
30
不吸烟 20
不吸 烟
21
25
46
10 5 0
患肺癌
不吸烟 吸烟
10 0
总计 60 40 100
不患肺癌
吸烟
不吸烟
100%
90%
练习:为考察高中生性别与是否喜欢数学课程之间的关系,在 某城市的某校高中生中随机抽取300名学生,得到如下列联表:试分析: 高中生的性别差异是否会对喜欢数学课程程度产生影响?为什么?
男
X
女
总计
喜欢数学课程
Y
37
35
72
不喜欢数学课程 85
143 228
总计 122 178 300
设计意图:发展学生的应用意识,是高中数学课程标准所 倡导的重要理念之一。在教学中以具体问题为载体,加深学 生对独立性检验的理解,体验数学在实际生活中的应用。
女生 男生
喜欢数学课程 不喜欢数学课程
第26页,共29页。
练习:请思考独立性检验基本思想的形成过程,以小组交流讨论方式, 完成如下表。
反证法 要证明结论A
在A不成立的前提下进行推 理
独立检验 备选假设H1
在H1不成立的条件下,即 H0成立的条件下进行推理
推出矛盾,意味着结论A成 立
推出有利于H1成立的小概率 事件(概率不超过a的事件) 发生,意味着H1成立的可能 性很大(可能性为1-a)
2018年数学同步优化指导湘教版选修2-3练习:8-4 列联表独立性分析案例 活页作业19 含解析 精品
活页作业(十九) 列联表独立性分析案例一、选择题1.对于因素X 与Y 的随机变量χ2的值,下列说法正确的是( ) A .χ2越大,“X 与Y 有关系”的可信程度越小 B .χ2越小,“X 与Y 有关系”的可信程度越小 C .χ2越接近于0,“X 与Y 没有关系”的可信程度越小 D .χ2越大,“X 与Y 没有关系”的可信程度越大解析:χ2越大,“X 与Y 没有关系”的可信程度越小,则“X 与Y 有关系”的可信程度越大,即χ2越小,“X 与Y 有关系”的可信程度越小.答案:B2.两个分类变量X 和Y ,值域分别为{X 1,X 2}和{Y 1,Y 2},其样本频数分别是a =10,b =21,c +d =35.若X 与Y 有关系的可信程度为90%,则c 等于( )A .4B .5C .6D .7解析:当c =5时,χ2=66×(10×30-5×21)215×51×31×35≈3.023 6>2.706.∴c =5时,X 与Y 有关系的可信程度为90%,而其余的值c =4,c =6,c =7皆不满足. 答案:B3.关于两个分类变量A ,B 的下列说法中,正确的个数为( ) ①A 与B 相关性越大,则χ2的值就越大; ②A 与B 无关,即A 与B 互不影响;③χ2的大小是判定A 与B 是否相关的唯一依据. A .1 B .2 C .3D .0解析:①正确,χ2的值的大小是用来检验A 与B 的相关性的,χ2的值越大,A 与B 的相关性越大.②正确,A 与B 无关即A 与B 相互独立.③不正确.答案:B4.为了探究学生的学习成绩是否与学习时间长短有关,在调查的500名学习时间较长的学生中有39名学习成绩比较好,500名学习时间较短的学生中有6名学习成绩比较好,那么你认为学生的学习成绩与学习时间长短有关的把握为( )A .0B .95%C .99%D .都不正确解析:计算出χ2与两个临界值比较,χ2=1 000×(39×494-6×461)245×955×500×500≈25.340 3>6.635.所以有99%的把握说学生的学习成绩与学习时间长短有关.故选C .答案:C 二、填空题5.独立性检验中,两个分类变量“X 和Y 有关系”的可信程度是97.5%,则随机变量χ2的取值范围是________________.解析:当χ2>5.024时,有97.5%的把握判断X 与Y 有关系;当χ2>6.635时,有99%的把握判断X 与Y 有关系.∴5.024<χ2≤6.635. 答案:(5.024,6.635]6.有两个分类变量X 与Y ,有一组观测的2×2列联表如下,其中,a,15-a 均为大于5的整数,则a =____时,有90%以上的把握认为“X 与Y 之间有关系”.解析:要使有, 即χ2=65[a (30+a )-(20-a )(15-a )]220×45×15×50=13(13a -60)260×90>2.706,解得a >7.19或a <2.04.又因为a >5,且15-a >5,a ∈Z ,所以当a 取8或9时,有90%以上的把握认为“X 与Y 之间有关系”. 答案:8或9 三、解答题7.考察小麦种子经过灭菌与否跟发生黑穗病的关系.经试验观察,得到数据如下表所示:解:χ2=460×(26×200-184×50)2210×250×76×384≈4.804.由于4.804>3.841,所以有95%的把握认为种子灭菌与发生黑穗病是有关系的. 8.有甲、乙两个班级进行数学考试,按照大于或等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.已知在全部105人中随机抽取1人为优秀的概率为27.(1)请完成上面的列联表.(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩优秀与否和班级有关系”?参考公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).附表:(3)名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6或10号的概率.解:(1)(2)χ2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩优秀与否和班级有关系”.(3)设“抽到6或10号”为事件A ,先后两次抛掷一枚均匀的骰子,出现的点数为(x ,y ).所有的基本事件有(1,1),(1,2),(1,3),…,(6,6),共36个.事件A 包含的基本事件有:(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个,∴P (A )=836=29.一、选择题1.硕士学位与博士学位的一个随机样本给出了关于所获取学位类别与学生性别的分类数据如表所示:A .性别与获取学位类别有关B .性别与获取学位类别无关C .性别决定获取学位的类别D .以上都是错误的解析:由列联表可得χ2=340×(162×8-143×27)2305×35×189×151≈7.34>6.635,所以有99%的把握认为性别与获取学位的类别有关.答案:A2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表2表3表4A .成绩 C .智商 D .阅读量解析:因为χ21=52×(6×22-14×10)216×36×32×20=52×8216×36×32×20,χ22=52×(4×20-16×12)216×36×32×20=52×112216×36×32×20,χ23=52×(8×24-12×8)216×36×32×20=52×96216×36×32×20,χ24=52×(14×30-6×2)216×36×32×20=52×408216×36×32×20,则有χ24>χ22>χ23>χ21,所以阅读量与性别关联的可能性最大.答案:D 二、填空题3.在吸烟与患肺病是否相关的判断中,有下列的说法:①若统计量χ2>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是____________(填序号).解析:统计量χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①错误;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.答案:③4.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即b a +b =1858,d c +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题5.现对某市工薪阶层关于“楼市限购政策”的态度进行调查,随机抽查了50人,他们月收入(单位:百元)的频数分布及对“楼市限购政策”的赞成人数如下表:5 500元为分界点时,该市的工薪阶层对“楼市限购政策”的态度有差异;(2)“楼市限购政策”的概率.解:(1)由题意得2×2列联表:异,根据列联表中的数据,得到χ2=50×(3×11-7×29)210×40×32×18≈6.272<6.635,所以没有99%的把握认为当月收入以5 500元为分界点时,该市的工薪阶层对“楼市限购政策”的态度有差异.(2)已知在收入[55,65)中共有5人,2人赞成,3人不赞成.设至少有一个不赞成“楼市限购政策”为事件A ,则P (A )=1-C 22C 25=910.故所求概率为910.6.为了研究“教学方式”对教学质量的影响,某高中数学老师分别用两种不同的教学方式对入学数学平均分数和优秀率都相同的甲、乙两个高一新班进行教学(勤奋程度和自觉性都一样).以下茎叶图为甲、乙两班(每班均为20人)学生的数学期末考试成绩.(1)87分的同学至少有一名被抽中的概率.(2)学校规定:成绩不低于75分的为优秀.请填写下面的2×2列联表,并判断有多大把握认为“成绩优秀与教学方式有关”.⎝ ⎛⎭⎪⎫参考公式:χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )解:(1)记成绩为87分的同学为A ,B ,其他不低于80分的同学为C ,D ,E .“从甲班数学成绩不低于80分的同学中随机抽取两名同学”的一切可能结果组成的基本事件有(A ,B ),(A , C ),(A ,D ),(A ,E ),(B ,C ),(B ,D ),(B ,E ),(C ,D ),(C ,E ),(D ,E ),共10个.“至少有一名87分的同学被抽中”所组成的基本事件有(A ,B ),(A ,C ),(A ,D ),(A ,E ),(B ,C ),(B ,D ),(B ,E ),共7个,所以P =710.(2)χ2=40×(6×6-14×14)20×20×20×20=6.4>5.024,因此,我们有97.5%的把握认为成绩优秀与教学方式有关.。
888相应分析(案例)
相应分析第五节实例分析一、利用SPSS进行相应分析为研究我国东部地区11个城市的空气质量,这里选取二氧化硫、二氧化氮、一氧化碳及臭氧等4类污染物作为评价指标来进行相应分析,数据来源于2014年《中国统计局年鉴》。
表8.4 我国东部地区11个重要城市的空气质量情况(2013年)(一)操作步骤(1)数据录入。
进行相应分析之前,需要对原始数据进行处理,整理成交叉表的单元格计数形式。
具体操作如下:①打开SPSS文件,按顺序:File-New-Data打开一个空白数据文件,进行变量的编辑,点击Variable View选项,录入三个变量,见图8.3。
②对变量进行赋值,选择Values项需要作如下设置:在弹出的对话框里,对东部地区11个城市以及4个空气质量指标进行数字赋值,如图8.4和图8.5。
图8.4 对“地区”进行赋值图8.5 对“空气质量指标”赋值完成变量的编辑后,返回到“Data View”窗口,录入数据,即为交叉表的单元格计数形式,见表8.5。
表8.5 交叉表的单元格计数形式③使用加权个案。
点击Data-weight cases功能,定义“浓度”为权重变量(图8.6)。
图8.6 Weight Cases对话框设置完成后,点击OK按钮进入相应分析。
(2)点击Analyze--Data Reduction--Correspondence analysis,进入Correspondence analysis 主对话框(图8.7)。
图8.7 相应分析主对话框①Row框用于设置行变量。
这里,将“地区”变量放置于此。
此时,“Define Ranges”按钮被激活,用于定义行变量参与分析的分类范围(图8.8)。
本例的地区有11个,故minimum value 输入1,maximum value 输入11,然后点击Update。
②Column框用于设置列变量。
这里,将“消费支出结构”变量放置于此,点击“Define Ranges”按钮,定义列变量参与分析的分类范围(图8.9)。
高中数学第8章统计与概率8.4列联表独立性分析案例讲义含解析湘教版选修2_304163154.doc
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=5-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.精美句子1、善思则能“从无字句处读书”。
2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。
8.4列联表独立性分析案例
课本例题 P 86
总结独立性检验的一般步骤:
(1)假设两个分类变量没有关系; (2)根据列联表和公式计算出K2的观测值; (3)把K2的值与临界值比较,确定X与Y有关的程度或无关 系.
【例 2 】 在吸烟与患肺癌这两个变量的独立性检验的
计算中,下列说法正确的是 ________ .
①若K2>6.635,则我们有99%的把握认为吸烟与患肺癌 有关系,即在100个吸烟的人中必有99人患有肺癌; ②由独立性检验可知,当有 99% 的把握认为吸烟与患肺 癌有关系时,我们说某人吸烟,那么他有99%的可能患 有肺癌; ③从统计量中求出有 95% 的把握认为吸烟与患肺癌有关 系,是指有5%的可能性使得判断出现错误.
变式训练 对电视节目单上的某一节目,部分观众
的态度如下表:
完全同意 反对 合计
男人
女人 合计
14
29 43
26
34 60
4063 103源自问能否在判错率为0.05的条件下认为观看这个电视节目 的观众与性别有关?
假设观看这个电视节目的观众与性别无关
解
2 103 × 14 × 34 - 29 × 26 由公式得 χ2= ≈1.224.因为 43×60×63×40
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 总计
秃顶 不秃顶
总计
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 秃顶 不秃顶 总计 214 451 665 175 597 772 总计 389 1 048 1 437
(2)根据列联表中的数据,得到
因此,在犯错误的概率不超过0.01的前提下, 认为秃顶与患心脏病有关系.
课堂练习
4.有两个分类变量X与Y的一组数据,由其列联表 计算得K2≈4.523,则认为X与Y有关系是错误的 可信度为( ) A.95% B.90% C.5% D.10%
列联表独立性分析案例教学设计
8.4 列联表独立性分析案例(3)一、教学目标(一)知识目标通过对典型案例(如“色弱与性别是否有关”“中学生物理考试成绩和吃早点是否相关”)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
(二)能力目标让学生经历数据处理的过程,会用所学知识对具体案例进行检验,提高探索解决问题的能力。
(三)情感目标从实例中发现问题,提高学习兴趣,激发学习积极性和主动性,不断自我完善,养成不断探求知识完善自我的良好态度。
二、教学重点进一步理解独立性检验的实施步骤三、教学难点对临界值的理解作出判断四、教学过程(一)引入课题独立性检验的步骤。
1.若要推断的论述为H1:“X与Y有关系”。
可按如下步骤判断H1成立的可能性。
A 通过三维柱形图和二维条形图,粗略判断两个分类变量是否有关系。
B 可以利用独立性检验来考察两个分类变量是否有关系。
并能精确判断可靠程度。
2.由观测数据算2χ,其值越大,说明“X与Y有关系”成立的可能性越大。
3.由临界值表确定可靠程度。
(二)案例讲解分析:设从表格中提供的统计数据,可以计算得到如下数值:男性所占百分比:132120.48300+=;女性所占百分比:15150.52300+=在这300人的样本中,男性色弱患者的百分比:120.04300≈;女性色弱的百分比:50.017300≈直观上看,300人中男性色弱的比例高于女性(0.040.017>)。
色弱应该与性别有关。
下面进一步运用独立性的概念进行检验。
从300人中随机选取一人,设1A 表示男性,2A 表示女性,1B 表示色觉正常,2B 表示色弱。
则:1()0.48P A =,2()0.52P A =,2125()0.06300P B +=≈ P (此人为男性且色弱)=12()0.04P A B = 而12()()0.480.060.028P A P B =⨯= 显然1212()()()P A B P A P B ≠P (此人为女性且色弱)=22()0.017P A B =,22()()0.520.060.031P A P B =⨯=显然2222()()()P A B P A P B ≠因此,1A 与2B 、2A 与2B 都不是独立的。
2019年数学新同步湘教版选修2-3讲义+精练:第8章 8.4 列联表独立性分析案例 Word版含解析
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2的求法公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X 与Y 有关系”; (3)如果χ2>2.706时,就有90%的把握认为“X 与Y 有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X 与Y 有关系”,但也不能作出结论“H 0成立”,即X 与Y 没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n 越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P (χ2≥6.64)≈0.01和P (χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P (χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P (χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1] 数据:[解] 由列联表中的数据,得χ2的值为χ2=1 633×(30×1 355-224×24)2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a ,b ,c ,d ,a +b +c +d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x 0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得χ2=189×(54×63-40×32)294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=830×(52×218-466×94)2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:此时,χ2=86×(5×22-50×9)214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关. 两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X 与Y 是否有关”可按下面的步骤进行: ①提出统计假设H 0:X 与Y 无关;②根据2×2列联表与χ2计算公式计算出χ2的值; ③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=361×(138×52-73×98)2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .下表1和表2分别是注射药物A 和药物B 后的试验结果.(疱疹面积单位:mm 2)表1:注射药物A 后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=200×(70×65-35×30)2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )解:(1)依题意得⎩⎪⎨⎪⎧10(0.035+0.025+c +2b +a )=1,2b =a +c ,解得b =0.01. 因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=60×(22×4-8×26)30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知, a =38,b =442,c =6,d =514,a +b =480,c +d =520,a +c =44,b +d =956,n =1 000, 代入公式得χ2=1 000×(38×514-6×442)2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系. 这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a ,b 的值分别为A .94,96 B .52,50 C .52,54D .54,52 解析:选C ∵a +21=73,∴a =52. 又∵a +2=b ,∴b =54.2.下列关于χ2的说法中正确的是( )A .χ2在任何相互独立问题中都可以用于检验是否相关B .χ2的值越大,两个事件的相关性越大C .χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d)答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是()A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选Bχ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=103×(5×18-70×10)275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=50×(20×15-10×5)230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关” 解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统中的数据,得到χ2=50(13×20-10×7)223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A .0.025B .0.05C .0.975D .0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P (x 2≥2.706)=0.10,两个因素X 和Y ,取值分别为{x 1,x 2}和{y 1,y 2},其样本频数分别是a =10,b =21,c +d =35.若在犯错误的概率不超过0.1的前提下,认为X 与Y 有关系,则c 等于( )A .5B .6C .7D .8解析:选A 经分析,c =5. 二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即b a +b =1858,d c +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量χ21,χ22,χ23,χ24.由表中数据可以得到:语文:χ21=244×(174×13-27×30)2201×43×204×40=7.294>6.64,数学:χ22=244×(178×20-23×23)2201×43×201×43=30.008>6.64,英语:χ23=244×(176×19-25×24)2201×43×200×44=24.155>6.64,综合科目:χ24=244×(175×17-26×26)2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=124×(43×33-27×21)270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。
8.4列联表独立性分析案例课件-湘教版数学选修2-3
X
Y 有效
口服
58
无效 40
合计 98
注射
64
31
95
合计
122
71
193
解:设H0:药的效果与给药方式没有关系
<3.841
练习巩固:
1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确 的是( )
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
得到原结论成立的可信程度 故有 的把握认为X与Y相关
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
X Y 喜欢数学课程 不喜欢数学课程
男
15
35
总计 50
女
4
46
50
总计
19
81
100
例2、某项实验,在100次实验中,成功率只有10%,进行技术 改造后,又进行了100次实验.试问:若要有97.5%以上的把握 认为“技术改造有明显效果”,实验的成功率至少为多少? (设 P( 2 5) 0.025 )
40
3700% 2650%
30 2500%
20 341005%%
患肺癌患肺癌 不患肺不癌吸患肺烟癌
不吸烟
2100% 10 105%
不吸烟
从各个三频维数柱的形相图0对能0大清0% 小楚肺条不不吸癌形吸烟的图烟 比、例等高高于条不形患图肺能癌看的出比,例吸烟
独立假性设检验
8.4列联表独立性分析案例课件-湘教版数学选修2-3
列联表
为了调查吸烟是否患呼吸道疾病有影响,某医疗研究 所随机地调查了515人,得到如下结果(单位:人)
吸烟与呼吸道疾病列联表
患病 不患病 总计
吸烟
37
183
220
不吸烟
21274Fra bibliotek295
总计
58
457
515
在不吸烟者中患呼吸道疾病的比重是 7.12% 在吸烟者中患呼吸道疾病的比重是 16.82%
用 统计量研究这类问题的方法称为独立性检验。
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类 取值,即类A和B(如吸烟与不吸烟);Ⅱ也有两类 取值,即类1和2(如患病与不患病)。于是得到 下列联表所示的抽样数据:
类1 类2
总计
类A
a
b
a+b
类B
c
d
c+d
总计
a+c
b+d
a+b+c+d
要推断“Ⅰ和Ⅱ有关系”,可按下面的步骤进行:
患病 不患病 总计
吸烟
37
183
220
不吸烟 21
274
295
总计
58
457
515
通过公式计算
独立性检验
已知在 H0成立的情况下,
即在H0 成立的情况下, 2大于6.635概率非常小, 近似为0.01 现在的 2=11.8634的观测值远大于6.635, 出现这样的观测值的概率不超过0.01。 故有99%的把握认为H0不成立,即有99%的把 握认为“患呼吸道疾病与吸烟有关系”。
列联表独立性分析案例
某医疗机构为了了解呼吸道疾病与吸烟是否 有关,进行了一次抽样调查,共调查了515个 成年人,其中吸烟者220人,不吸烟者295人, 调查结果是:吸烟的220 人中37人患呼吸道 疾病, 183人不患呼吸道疾病;不吸烟的295 人中21人患呼吸道疾病, 274人不患呼吸道 疾病。
高中数学选择性必修三 精讲精炼 8 列联表及独立性检验(精讲)(含答案)
8.3 列联表及独立性检验(精讲)考点一独立性检验的辨析【例1】(2021·全国·高二课时练习)北京市人民政府新闻办公室召开疫情防控第200场例行新闻发布会时表示不在18~59岁接种年龄段范围的人员,需要等待进一步临床试验数据.近日专家对该年龄段内和该年龄段外的110人进行了临床试验,得到如下2×2列联表:附:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为“能接种与年龄段无关”B.在犯错误的概率不超过0.1%的前提下,认为“能接种与年龄段有关”C.有99%以上的把握认为“能接种与年龄段无关”D.有99%以上的把握认为“能接种与年龄段有关”【答案】D【解析】由2×2列联表可得()22110403020207.82260506050χ⨯⨯-⨯=≈⨯⨯⨯.因为6.6357.82210.828<<,所以在犯错误的概率不超过1%的前提下,认为“能接种与年龄段有关”,即有99%以上的把握认为“能接种与年龄段有关”.故选:D【一隅三反】1(2021·全国·高二专题练习)为了解某次考试中语文成绩是否优秀与性别的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:( )根据这一数据分析,下列说法正确的是( )下面的临界值表供参考:A.有99.5%的把握认为语文成绩是否优秀与性别有关系B.有99.9%的把握认为语文成绩是否优秀与性别有关系C.有99%的把握认为语文成绩是否优秀与性别有关系D.没有理由认为语文成绩是否优秀与性别有关系【答案】C【解析】由题意可得()2260101020206.667 6.63530303030χ⨯⨯-⨯==>⨯⨯⨯,所以有99%的把握认为语文成绩是否优秀与性别有关系.故选:C2.(2021·全国·高二学业考试)为大力提倡“厉行节约,反对浪费”,某大学通过随机询问100名学生能否做到“光盘”行动,得到如下列联表:经计算:2 3.03χ≈. 附:参考附表,得到的正确结论是( )A .有95%的把握认为“该校学生能否做到‘光盘’行动与性别有关”B .有95%的把握认为“该校学生能否做到‘光盘’行动与性别无关”C .有90%的把握认为“该校学生能否做到‘光盘’行动与性别有关”D .有90%的把握认为“该校学生能否做到‘光盘’行动与性别无关” 【答案】C 【解析】由题意得22⨯列联表如图:()2210045151030100 3.03 2.7065545752533χ⨯-⨯==≈>⨯⨯⨯,所以有90%的把握认为“该校学生能否做到‘光盘’行动与性别有关”. 故选:C.3.(2021·全国·高二单元测试)某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,则2χ的值可能为( )附表:A.3.206B.6.561C.7.879D.11.028【答案】C【解析】因为有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,6.635,10.828,因此2χ的值可能为7.879.所以k的取值范围为[)故选:C.考点二独立性检验的应用【例2】(2021·重庆九龙坡)为张扬学生的个性,彰显青春的智慧与力量,2021年5月某重点高中举办了一年一度的大型学生社团活动,学生社团有近40个,吸引了众多学生.此次活动由学校高一、高二的学生参加,参加社团的学生共有400多人.已知学校高一和高二的所有学生中男生与女生人数比为6:4,为了解学生参加社团活动的情况,从高一、高二所有学生中按性别采用分层抽样的方法抽取部分学生,统计得到如下等高条形图表示参加社团活动的学生频率.(1)求该重点高中参加社团的学生中,任选1人是女生的概率;p=的独立性检验,能否认为该学校(2)若抽取了100名学生,完成下列22⨯列联表,并依据小概率值0.05高一和高二学生的性别与参加学生社团有关联?请说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++,n a b c d =+++.【答案】 (1)47(2)列联表见解析,性别与参加学生社团无关.【解析】(1)由题设,参加社团的男生人数占总人数比例为31351050⨯=,参加社团的女生人数占总人数比例为22451050⨯=, ∴社团中男女生的比例为3:4,故该重点高中参加社团的学生中任选1人是女生的概率47.(2)22100(192432) 1.9934 3.84114866080K ⨯-=≈<⨯⨯⨯,∴依据小概率值0.05p =的独立性检验,不能说明“性别与参加学生社团无关”不成立,故可认为性别与参加学生社团无关. 【一隅三反】1.(2021·全国·高二单元测试)微信是腾讯公司推出的一种手机通信软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人.为了调查微信用户每天使用微信的时间,某经销化妆品的店家在一广场随机采访男性、女性用户各50名,将他们平均每天使用微信的时间(单位:h)分成5组:(]0,2,(]2,4,(]4,6,(]6,8,(]8,10,分别加以统计,得到如图所示的频率分布直方图.(1)根据频率分布直方图估计女性用户平均每天使用微信的时间;(2)若把每天使用微信超过4h 的用户称为“微信控”,否则称为“非微信控”,请你根据已知条件完成下列22⨯列联表,并判断是否有90%的把握认为“微信控”与性别有关.【答案】(1)4.76(h);(2)列联表见解析,有把握. 【解析】(1)由女性的频率分布直方图,可估计女性用户平均每天使用微信的时间为0.1610.243⨯+⨯+ 0.2850.270.129 4.76⨯+⨯+⨯=(h);(2)由男性的频率分布直方图,可得()20.040.1420.121a +++⨯=,解得0.08a =. 由两个频率分布直方图,可得22⨯列联表如下:()2210038203012 2.941 2.70650506832K ⨯⨯-⨯=≈>⨯⨯⨯,所以有90%的把握认为“微信控”与性别有关.2.(2021·全国·高二课时练习 )某校高一年级进行安全知识竞赛(满分为100分),所有学生的成绩都不低于75分,从中抽取100名学生的成绩进行分组调研,第一组[)75,80,第二组[)80,85,,第五组[]95,100(单位:分),得到如下的频率分布直方图.若竞赛成绩不低于85分为优秀,低于85分为非优秀,且成绩优秀的男学生人数为35,成绩非优秀的女学生人数为25,请判断是否有95%的把握认为竞赛成绩的优秀情况与性别有关.【答案】有.【解析】由已知,竞赛成绩在[)85,90的学生人数为0.06510030⨯⨯=, 竞赛成绩在[)90,95的学生人数为0.04510020⨯⨯=, 竞赛成绩在[]95,100的学生人数为0.02510010⨯⨯=,所以竞赛成绩不低于85(优秀)的学生人数为60,低于85(非优秀)的学生人数为40. 因为成绩优秀的男学生人数为35,成绩非优秀的女学生人数为25, 所以22⨯列联表如下:所以2K的观测值()2210015253525254.167505040606K⨯⨯-⨯==≈⨯⨯⨯.因为4.167 3.841>,所以有95%的把握认为竞赛成绩的优秀情况与性别有关.3(2021·全国·高二单元测试)下表是某地区的一种传染病与饮用水卫生程度的调查表:(1)得这种传染病(简称得病)是否与饮用不干净水有关?请说明理由;(2)若饮用干净水得病的有5人,未得病的有50人;饮用不干净水得病的有9人,未得病的有22人.按此样本数据分析:得这种传染病是否与饮用不干净水有关?并比较两种样本在反映总体时的差异.附表及公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++,临界值表:【答案】(1)有关,理由见解析;(2)答案见解析.【解析】(1)提出假设0:H得这种传染病与饮用不干净水无关.由表中数据可得()22830522189446654.212146684518312χ⨯⨯-⨯=≈⨯⨯⨯,因为当0H 成立时,210.828χ≥的概率约为0.001,所以我们有99.9%的把握认为“得这种传染病与饮用不干净水有关”; (2)依题意得22⨯列联表:此时,()2286522950 5.78514725531χ⨯⨯-⨯=≈⨯⨯⨯, 因为当0H 成立时,2 5.024χ≥的概率约为0.025,所以我们有97.5%的把握认为“得这种传染病与饮用不干净水有关”. 两个样本都能得到“得这种传染病与饮用不干净水有关”这一结论,但(1)中我们有99.9%的把握肯定结论,(2)中我们只有97.5%的把握肯定结论.4.(2021·全国·高二课时练习) “中国科学十大进展”遴选活动由科学技术部高技术研究发展中心牵头举办,旨在激励广大科技工作者的科学热情和奉献精神,开展基础研究科学普及,促进公众理解、关心和支持基础研究,在全社会营造良好的科学氛围.2021年2月,科技部高技术研究发展中心(基础研究管理中心)发布了2020年度中国科学十大进展.某校为调查本校中学生对2020年度中国科学十大进展的了解与关注情况,从该校高中年级在校生中,按高一、高二年级,高三年级分成两个年级段,随机抽取了200名学生进行调查,其中高一、高二年级共调查了120人,高三年级调查了80人,以说出10项科学进展的名称个数为标准,统计情况如下.假设以能至少说出四项科学进展的名称为成绩优秀.(1)根据频数分布表完成22⨯列联表,并回答是否有95%的把握认为成绩优秀与否与年级分段有关?(2)按分层抽样的方法,在被调查且成绩优秀的学生中抽取6名同学,再在这6名同学中随机抽取4名同学组成“2020科技展”宣讲队,求至少有2名高三年级的同学入选宣讲队的概率. 附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)列联表答案见解析,没有95%的把握认为成绩优秀与否与年级分段有关;(2)45.【解析】(1)由题意,22⨯列联表如下:22200(90303050)25 3.571 3.84112080140607K ⨯-⨯==≈<⨯⨯⨯,所以没有95%的把握认为成绩优秀与否与年级分段有关; (2)被调查且成绩优秀的学生有60名,分层抽样抽取6名同学, 则从高一、高二年级抽取了3名同学,记为:a ,b ,c ,从高三年级抽取了3名同学,记为A ,B ,C ,在6名同学中随机选4名,不同的情况有15种,以下均只列出两名没入选的情况:(,)a b ,(,)a c ,(,)a A ,(,)a B ,(,)a C ,(,)b c ,(,)b A ,(,)b B ,(,)b C ,(,)c A ,(,)c B ,(,)c C ,(,)A B ,(A,C),(,)B C ,其中至少有2名高三年级的同学入选的情况的对立事件是只有1名高三年级的同学入选, 不同的情况有3种:(,)A B ,(A,C),(,)B C ,所以至少有2名高三年级的同学入选宣讲队的概率为341155-=.考点三独立性检验与其他的综合运用【例3】(2021·山东无棣·高二期中)某市为了解乡村振兴,农业农村现代化进程,对全市村庄进行全方位的调研.根据调研成绩评定“要加油”“良好”“优秀”三个等级.现随机抽取200个村庄的成绩统计结果如表:(1)若调研成绩在80分及以上认定为“优良”.抽取的200个村庄中东西部村庄的分布情况如下表.完成2×2列联表,并判断是否有99%的把握认为优良村庄与东西部位置有关?(2)用分层抽样的方法,从评定为“优秀”、“良好”、“要加油”的三个等级的村庄中随机选取5个进行细致调查,同时对相应等级进行量化:“优秀”记10分,“良好”记5分,“要加油”记0分.现再从抽取的5个村庄中任选2个村,所选村的量化分之和记为X,求X的分布列及数学期望.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【答案】(1)列联表见解析,有99%的把握认为优良村庄与东西部位置有关;(2)分布列见解析,数学期望为8.【解析】(1)由题意得,2×2列联表如下:∵22200(30505070)8.333 6.63510010012080K⨯⨯-⨯=≈>⨯⨯⨯,∴有99%的把握认为优良村庄与东西部位置有关.(2)按照分层抽样的方法,从“要加油”,“良好”,“优秀”三个等级的村庄中分别抽取2个、2个、1个,X的所有可能取值为0,5,10,15,P(X=0)=2225110CC=,P(X=5)=11222525C CC=,P(X=10)=21122125310C C CC+=,P(X=15)=11212515C Cc=,故X的分布列为:故E(X)=12310510158105105⨯+⨯+⨯+⨯=.【一隅三反】1.(2021·福建省宁德市教师进修学院高二期末)“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展.下表是近几年我省某地区新能源乘用车的年销售量与年份的统计表:某机构调查了该地区60位购车车主的性别与购车种类情况,得到的部分数据如下表所示:(1)求新能源乘用车的销量y 关于x 年份的线性相关系数r ,并判断y与x 是否线性相关;(2)请将上述22⨯列联表补充完整,并判断是否有99%的把握认为购车车主是否购置新能源乘用车与性别有关; 参考公式:相关系数()()nntii ix x y y x y nx yr ---=∑∑;()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++;参考数据:()5210.66i i y y=-=∑,()()512.5i ii x xy y =--=∑ 2.6≈.备注:若0.75r >,则可判断y 与x 线性相关. 卡方临界值表:【答案】(1)0.96,y 与x 的线性相关;(2)表格见解析,有. 【解析】1)由表格知:2018x =,10.6y =, ∴()5214101410i i x x=-=++++=∑由上,有()()52.50.960.752.6tix x y y r --==≈>∑,(备注:未算出0.96r ≈,直接判断 2.50.752.6r =>的不扣分!) 则y 与x 的线性相关. (2)依题意,完善表格如下:()22603684127.5 6.63540204812K ⨯⨯-⨯==>⨯⨯⨯故有99%的把握认为购车车主是否购置新能源乘用车与性别有关.2.(2021·福建省永泰县第一中学高二期中)2021年某地区初中升学体育考试规定:考生必须参加长跑、200米游泳、1分钟跳绳三项测试.某学校在初三上学期开始,为了了解掌握全年级学生1分钟跳绳情况,抽取了100名学生进行测试,得到下面的频率分布直方图.(1)规定学生1分钟跳绳个数大于等于175为优秀.若在抽取的100名学生中,女生共有45人,男生1分钟跳绳个数大于等于175的有30人.根据已知条件完成下面的22⨯列联表,并根据这100名学生的测试成绩,判断能否有99%的把握认为学生1分钟跳绳成绩是否优秀与性别有关.(2)根据往年经验,该校初三年级学生经过训练,正式测试时每人1分钟跳绳个数都有明显进步.假设正式测试时每人1分钟跳绳个数都比初三上学期开始时增加10个,全年级恰有1000名学生,若所有学生的1分钟跳绳个数X 服从正态分布()2,N μσ,用样本数据的平均值和标准差估计μ和σ,各组数据用中点值代替,估计正式测试时1分钟跳绳个数大于173的人数(结果四舍五入到整数).附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.若随机变量X 服从正态分布()2,N μσ,则()0.6827,(22)0.9545,(33)0.9973,12.P X P X P X μσμσμσμσμσμσ-<≤+≈-<≤+≈-<≤+≈≈【答案】(1)联列表答案见解析,没有99%的把握认为学生1分钟跳绳成绩是否优秀与性别有关;(2)185μ=,12σ≈,估计正式测试时1分钟跳绳个数大于173的人数约为841.【解析】(1)由题意得样本中1分钟跳绳个数大于等于175的人数为1000.0300.0100.0081048⨯++⨯=(),即优秀的共有48人,补充完整的22⨯列联表如下表所示: 所以2210030272518 2.098 6.63555454852K ⨯⨯-⨯=≈<⨯⨯⨯(),所以没有99%的把握认为学生1分钟跳绳成绩是否优秀与性别有关;(2)因为1500.061600.121700.341800.31900.12000.08175⨯+⨯+⨯+⨯+⨯+⨯=, 所以17510185μ=+=,方差为()()()22221501750.061601750.121701750.34σ=-⨯+-⨯+-⨯()()()2221801750.31901750.12001750.08+-⨯+-⨯+-⨯222250.14150.2250.64⨯+⨯+⨯=,12≈,所以12σ≈, 所以()218512XN ,,06827(173)()0.50.841352P X P X μσ>=>-≈+=, 10000.84315841.35841⨯=≈故估计正式测试时1分钟跳绳个数大于173的人数约为841.3.(2021·四川眉山 )新疆地区的棉花是世界上最好的棉花之一,新疆长绒棉,世界顶级,做衣被,暖和、透气、舒适,长年供不应求.评价棉花质量的重要指标之一就是棉花的纤维长度,新疆农科所在土壤环境不同的A 、B 两块实验地分别种植某品种的棉花,为了评价该品种的棉花质量,在棉花成熟后,分别从A 、B 两地的棉花中各随机抽取40根棉花纤维进行统计,结果如下表:(记纤维长度不低于300mm 的为“长纤维”,其余为“短纤维”).(1)由以上统计数据,填写下面22⨯列联表,并判断能否在犯错误概率不超过0.01的前提下认为“纤维长度与土壤环境有关系”(2K 的观测值精确到0.01). 附:()()()()()22n ad bc K a b c d a c b d -=++++临界值表:(2)现从抽取的80根棉花纤维中“短纤维”里任意抽取2根做进一步研究,记B 地“短纤维”的根数为Y ,求Y 的分布列和数学期望;(3)根据上述B 地关于“长纤维”与“短纤维”的调查,将B 地“长纤维”的频率视为概率,现从B 地棉花(大量的棉花)中任意抽取3根棉花,记抽取的“长纤维”的根数为X ,求X 的数学期望和方差. 【答案】(1)列联表见解析,有,理由见解析;(2)分布列见解析,()12E Y =;(3)()218E X =,()2164D X =.【解析】(1)根据题中信息可得如下22⨯列联表:()22802551535 6.667 6.63560204040K ⨯⨯-⨯=≈>⨯⨯⨯,因此,在犯错误概率不超过0.01的前提下认为“纤维长度与土壤环境有关系”; (2)80根棉花纤维中“短纤维”共20根,其中,B 地的“短纤维”共5根, 所以,随机变量Y 的可能取值有0、1、2,()21522021038C P Y C ===,()1151522015138C C P Y C ===,()252201219C P Y C ===,所以,随机变量Y 的分布列如下表所示:所以,()2115110123838192E Y =⨯+⨯+⨯=; (3)从B 地棉花(大量的棉花)中任意抽取1根是“长纤维”的频率是78,所以,73,8XB ⎛⎫⎪⎝⎭, 故()721388E X =⨯=,()712138864D X =⨯⨯=.。
〖2021年整理〗《知识精讲列联表独立性分析》优秀教案
列联表独立性分析——知识精讲一、列联表独立性分析1.列联表教材引例中给出的表称为列联表,意思是要考虑调查的人的两种状态:是否吸烟,是否患肺癌;每种状态又分为两种情况:吸烟、不吸烟以及患肺癌、未患肺癌。
表中排成两列的数据是调查得来的结果,根据这4个数据来检验上述两种状态是否有关。
2.独立性分析利用随机变量22()()()()()n ad bcKa b c d a c b d-=++++(其中n a b c d=+++为样本容量)来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
在列联表独立性检验中,随机变量的观测值2()()()()()n ad bca b c d a c b d-++++可以确定“与有关系”的可信程度。
(1)如果,就有的把握认为“与有关系”;(2)如果,就有的把握认为“与有关系”;(3)如果,就有99的把握认为“与有关系”;(4)如果,就有的把握认为“与有关系”;(5)如果,就有95的把握认为“与有关系”;(6)如果,就有90的把握认为“与有关系”;(7)如果 2.706k≤,就认为没有充分的证据显示“与有关系”。
二、范例剖析例1 磨牙不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:磨牙与肠道中有寄生虫有关吗?分析:根据题中的数据计算的值,对比表中的各个临界值说明把握程度。
解析:根据题意计算,得221633(22413553024)1244.51025413792481385K ⨯⨯-⨯=≈⨯⨯⨯, 因为1244.51010.828>,所以有%把握说磨牙与肠道中有寄生虫有关。
评注:独立性检验是考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度的重要方法。
独立性检验能帮助我们对日常生活中的实际问题做出合理的推断和预测,因此要在学习中,应通过案例分析,理解和掌握独立性检验的方法,体会其基本思想在解决实际问题中的应用,以提高我们分析和处理问题的能力。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8.4 列联表独立性分析案例(2)
一、教学目标
(一)知识目标
通过对典型案例(如“新药的副作用 ”“秃顶与患心脏病是否有关系”)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
(二)能力目标
让学生经历数据处理的过程,提高探索解决问题的能力。
(三)情感目标
通过独立性检验的基本思想的学习,让学生有真正对统计思维和确定思维差异的理解,体会到统计在现实生活的广泛应用。
二、教学重点
理解独立性检验的实施步骤
三、教学难点
理解独立性检验的实施步骤
四、教学过程
(一)引入课题
1.复习 A :独立性检验 B : ()
()()()()
2
2
n ad bc k a b c d a c b d -=
++++
2.独立性检验的思想(类似反证法)
(二)案例讲解
了研究某种新药的副作用(如恶心等),给50位患者服用此新药,另外50位患者服用安慰剂,得到下列实验数据:
请问服用新药是否可产生副作用?
分析:
假定服用新药与产生副作用没有关联.那么,首先要给“没有关联”下一个“能够操作”的定义。
根据直观的经验,在服用新药与产生副作用的情形下,这个定义可以是这样的:如果服用新药与产生副作用没有关联,就意味着,无论服用新药与否,产生副作用的概率都是一样的。
就此例题而言:
.19.0100
19)(==
全体实验者产生副作用
P ,
3.050
15)(==
服用新药产生副作用
P 二者相差较大。
由此可以推断,开始的假设是不成立的。
也就是说,服用新药与产生副作用是有关联的。
由统计的常识知道,要求等号成立是非常苛刻的条件,实际上一般也是办不到的,我们所能追求的是在概率意义下的可靠性。
对于上面的独立性问题,我们应当寻找一个适当的统计量,用它的大小来说明独立性是否成立。
在统计中,我们引入下面的量
在前面的例
子中
a =15,
b =35,
c =4,
d =46。
注意到独立性要求:
P (全体生实验者产生副作用)=P (服用新药产生副作用) 即
b a a n
c a +=
+
这等价于 n
a n
c a n
b
a =
+⋅
+
因此,可以用n
c
a n
b a n
a +⋅
+-
的大小来衡量独立性的好坏。
问题: (1)用
n
c
a n
b a n
a +⋅+-
+
n
d
b n b a n
b +⋅+-
+
n
c a n
d c n
c +⋅
+-
+
n
d b n
d c n
d +⋅
+-
是不是更好些?
(2)用n
c a n b a n
c
a n
b a n a
+⋅++⋅+-
|
|
比用n
c a n b a n a +⋅
+-合理,你认为有道理吗? (3)为了得到统计量的近似的分布,统计学家最终选用了:
Q
2
=⎪⎪
⎪⎪⎭
⎫ ⎝⎛+⋅++⋅+-++⋅++⋅+-++⋅++⋅+-++⋅++⋅+-n d b n d c n d b n d c n d n d c n c a n d c n c a n c n d b n b a n d b n b a n b n c a n b a n c a n b a n a n 2222)()()()(
用它的大小来衡量独立性的大小,你能把它化简得到下式吗?
,)
)()()(()
(2
2
d b c a d c b a bc ad n Q
++++-=
c +
从上面的表达式可以直观地看出:2
Q 的值越小,
事件A 与B 之间的独立性将会越大(当2
Q 的值为0时,
事件A 与B 完全独立)。
通过有关统计量分布的计算可知:当84.32>Q 时,事件A 与B 在概率为95%的意义下是相关的;当63.62>Q 时,事件A 与B 在概率为99%的意义下是相关的。
我们来算一算本题中2Q 的值:
,63.686.781
195050)
4354615(1002
2
>=⨯⨯⨯⨯-⨯⨯=Q
于是得出结论:在概率为99%的意义下,服用新药与产生副作用是相关联的。
从数据可以进一步看出,服用新药更容易产生副作用。
上述过程在统计推断叫做独立性检验,它的基本思想是:
如何选用一个标准,用它来衡量事件之间的独立性是否成立。
在独立性检验中,我们要特别关注方法的直观及合理性。
至于最后选取的量及其大小的界定,我们可以只告诉学生结果,使其能够操作,这样并不会影响学生对问题实质的理解。
(三)巩固练习
在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。
利用独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?
分析:根据题目所给数据得到如下列联表:
根据列表中的数据,得到: 2
2
1437(214597175451)
16.373 6.6353891048665772
K
⨯⨯-⨯=
≈>⨯⨯⨯
因为2( 6.635)0.01P K ≥≈
所以有99%的把握认为“秃顶与患心脏病有关”。
所推断结论对住院的病人群体有效。
(四)课堂小结 利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
独立性检验的基本思想类似于数学上的反证法,要确认“两个分类变量有关系”这一结
论成立的可信度,首先假设两个分类变量没有关系,再求随机变量K 2
的观测值k ,,k 值应该很小,如果很大,则在一定程度上说明假设不可信。
由实际计算出的k >6.635,说明假设不合理的程度为99℅,即“两个分类变量有关系”这一结论成立可信度约为99℅.
五、布置作业
课本P87习题10
补充题:
1.在对人们休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动,男性中有21人主要的休闲方式是看电视,另外33人的主要休闲方式是运动,试判断性别与休闲是否有关系。
2.考察小麦种子经过灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表所示:
试按照原试验目的做统计分析推断。