8.4列联表独立性分析案例
【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)
![【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)](https://img.taocdn.com/s3/m/498b473003020740be1e650e52ea551810a6c98b.png)
这种利用 2的取值推断分类变量X和Y是否独立的方法称为 2独立性检验,
简称独立性检验 .
探究新知
下表为独立性检验中几个常用的小概率值和相应的临界值
α
xα
0.1
2.706
0.05
3.841
0.01
6.635
0.005
7.879
0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与
患肺癌有关联,此推断犯错误的概率不大于0.001.
典型例题
根据表中数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7775/7817≈0.9946 和 42/7817≈0.0054
吸烟者中不患肺癌和患肺癌的频率分别为
2099/2148≈0.9772 和 49/2148≈0.0228
中有 43 人的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中有
21 人饮食以蔬菜为主,另外 33 人则以肉类为主.请根据以上数据作出饮食习
惯与年龄的列联表,并利用 P(Y=1|X=0)与 P(Y=1|X=1)判断二者是否有关系.
[解]
用 Ω 表示共调查了 124 人所构成的集合,定义一对分类变量 X 和 Y
性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
探究新知
[解]
病人组中尿液为阳性和阴性的频率分别为:
29
7
≈0.805 6 和 ≈0.194 4.
36
36
对照组中尿液为阳性和阴性的频率分别为:
9
28
≈0.243 2 和 ≈0.756 8.
37
37
版和学生版)8.3 列联表与独立性检验 -(人教A版2019选择性必修第二、三册) (学生版)
![版和学生版)8.3 列联表与独立性检验 -(人教A版2019选择性必修第二、三册) (学生版)](https://img.taocdn.com/s3/m/d932822849d7c1c708a1284ac850ad02de8007f5.png)
列联表与独立性检验1 2×2列联表设A ,B为两个变量,每一个变量都可以取两个值,变量A∶A1 ,A2=A1变量B∶B1 ,B2=B1通过观察得到右表所示数据:并将形如此表的表格称为2×2列联表.2 独立性检验根据2×2列联表中的数据判断两个变量A ,B是否独立的问题叫2×2列联表的独立性检验.3 χ2的计算公式χ2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)若要推断的论述为“A与B有关系”,则χ2的值越大,说明“A与B有关系”成立的可能性越大.如下表,若 χ2=8时,因为8>7.879 ,所以有1−0.005=99.5%的把握认为A与B之间有关;而8<10.828,所以没有1−0.001=99.9%的把握认为A与B之间有关.4应用独立性检验解决实际问题大致应包括以下几个主要环节(Ⅰ) 提出另假设H0:X和Y相互独立,并给出在问题中的解释;(Ⅱ)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;(Ⅲ)根据检验规则得出推断结论;(Ⅳ)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.【典题1】为了考察某种病毒疫苗的效果,现随机抽取100只小白鼠进行试验,得到如下2×2列联表:根据以上数据,得到的结论正确的是()A.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”B.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗无关”C.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”D.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗无关”【典题2】近年来我国电子商务行业迎来篷布发张的新机遇,2015年双11期间,某购物平台的销售业绩高达918亿人民币,与此同时,相关管理部门推出了针对电商的商品和服务的评价体系,现从评价系统中选出200次成功交易,并对其评价进行统计,对商品的好评率为0.6,对服务的好评率为0.75,其中对商品和服务都做出好评的交易为80次.(Ⅰ)完成商品和服务评价的2×2列联表,并说明是否可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关?(Ⅰ)若将频率视为概率,某人在该购物平台上进行的5次购物中,设对商品和服务全好评的次数为随机变量X.①求对商品和服务全好评的次数X的分布列(概率用组合数算式表示);②求X的数学期望和方差.参考数据及公式如下:【典题3】近期,湖北省武汉市等多个地区发生新型冠状病毒感染的肺炎疫情.为了尽快遏制住疫情,我国科研工作者坚守在科研一线,加班加点、争分夺秒与病毒抗争,夜以继日地进行研究.新型冠状病毒的潜伏期检测是疫情控制的关键环节之一.在传染病学中,通常把从致病刺激物侵入机体或对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.钟南山院士带领的研究团队统计了武汉市某地区10000名医学观察者的相关信息,并通过咽拭子核酸检测得到1000名确诊患者的信息如表格:潜伏期(单位:天)[0 ,7](7 ,14](14 ,21](21 ,28]人数80019082(1)求这1000名确诊患者的潜伏期样本数据的平均数x(同一组数据用该组数据区间的中点值代表).(2)新型冠状病毒的潜伏期受诸多因素影响,为了研究潜伏期与患者性别的关系,以潜伏期是否超过7天为标准进行分层抽样,从上述1000名患者中抽取100名,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有90%的把握认为潜伏期与患者性别有关.潜伏期≤7天潜伏期>7天总计男性患者12女性患者50总计100(3)由于采样不当、标本保存不当、采用不同类型的标本以及使用不同厂家试剂都可能造成核酸检测结果“假阴性”而出现漏诊.当核酸检测呈阴性时,需要进一步进行血清学IgM/IgG抗体检测,以弥补核酸检测漏诊的缺点.现对10名核酸检测结果呈阴性的人员逐一地进行血清检测,记每个人检测出IgM(IgM是近期感染的标志)呈阳性的概率为p(0<p<1)且相互独立,设至少检测了9个人才检测出IgM呈阳性的概率为f(p),求f(p)取得最大值时相应的概率p.附:K2=n(ad−bc)2,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)P(K2≥k0)0.1000.0500.0250.0100.0050.001 k0 2.706 3.841 5.024 6.6357.87910.828巩固练习1(★) 在研究肥胖与高血压的关系时,通过收集数据、整理分析数据得到“高血压与肥胖有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是()A.在100个肥胖的人中至少有99人患有高血压B.肥胖的人至少有99%的概率患有高血压C.在100个高血压患者中一定有肥胖的人D.在100个高血压患者中可能没有肥胖的人2(★) 某校为了解学生“玩手机游戏”和“学习成绩”是否有关,随机抽取了100名学生,运用2×2列联表进行独立性检验,经计算得到K2=3.936,所以判定玩手机游戏与学习成绩有关系,那么这种判断出错的可能性为()P(K2≥k0)0.500.400.250.150.100.050.0250.010.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.83 A.1%B.5%C.95%D.99%3 (★)为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算K2=8.01,附表如表:P(K2≥k0)0.1000.0500.0250.0100.001 k0 2.706 3.841 5.024 6.63510.828参照附表,得到的正确的结论是()A.有99%以上的把握认为“喜欢乡村音乐与性别有关”B.有99%以上的把握认为“喜欢乡村音乐与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“喜欢乡村音乐与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“喜欢乡村音乐与性别无关”4(★)【多选题】“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如表所示的列联表,通过计算得到K2的观测值为9.已知P(K2≥6.635)=0.010 ,P(K2≥10.828)=0.001,则下列判断正确的是()认可不认可40岁以下202040岁以上(含40岁)4010A.在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”B.在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”C.有99%的把握认为“光盘行动”的认可情况与年龄有关D.在犯错误的概率不超过0.001的前提下,认为“光盘行动”的认可情况与年龄有关5(★) 某网络平台从购买该平台某课程的客户中,随机抽取了100位客户的数据,并将这100个数据按学时数,客户性别等进行统计,整理得到如表;学时数[5,10)[10,15)[15,20)[20,25)[25,30)[30,35)[35,40)男性181299642女性24827134(1)根据上表估计男性客户购买该课程学时数的平均值(同一组中的数据用该组区间的中点值作代表,结果保留小数点后两位);(2)从这100位客户中,对购买该课程学时数在20以下的女性客户按照分层抽样的方式随机抽取7人,再从这7人中随机抽取2人,求这2人购买的学时数都不低于15的概率.(3)将购买该课程达到25学时及以上者视为“十分爱好该课程者”,25学时以下者视,为“非十分爱好该课程者”.请根据已知条件完成以下2×2列联表,并判断是否有99.9%的把握认为“十分爱好该课程者”与性别有关?非十分爱好该课程者十分爱好该课程者合计男性女性合计100,n=a+b+c+d附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)P(K2≥k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.8286(★★)“低碳出行”,一种降低“碳”的出行,以低能耗、低污染为基础,是环保的深层次体现,在众多发达国家被广大民众接受并执行,S 市即将投放一批公共自行车以方便市民出行,减少污染,缓解交通拥堵,现先对100人做了是否会考虑选择自行车出行的调查,结果如表.(1)如果把45周岁以下人群定义为“青年”,完成下列2×2列联表,并问你有多少把握认为该地区市民是否考虑单车与他(她)是不是“青年人”有关?参考:K 2=n(ad−bc)2(a+b)(a+c)(c+d)(b+d),n =a +b +c +d .(2)S 市为了鼓励大家骑自行车上班,为此还专门在几条平时比较拥堵的城市主道建有无障碍自行车道,该市市民小明家离上班地点10km ,现有两种.上班方案给他选择;方案一:选择自行车,走无障碍自行车道以19km/ℎ的速度直达上班地点.方案二:开车以30km/ℎ的速度上班,但要经过A 、B 、C 三个易堵路段,三个路段堵车的概率分别是12,12,13,且是相互独立的,并且每次堵车的时间都是10分钟(假设除了堵车时间其他时间都是匀速行驶) 若仅从时间的角度考虑,请你给小明作一个选择,并说明理由.7(★★) 2020年初,新型冠状病毒(2019−nCoV)肆虐,全民开启防疫防控.新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是40岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对200个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为7.1,方差为2.252.如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:年龄/人数长期潜伏非长期潜伏40岁以上3011040岁及40岁以下2040(1)是否有95%的把握认为“长期潜伏”与年龄有关;(2)假设潜伏期X服从正态分布N(μ ,σ2),其中μ近似为样本平均数x,σ2近似为样本方差s2.(i)现在很多省份对入境旅客一律要求隔离14天,请用概率的知识解释其合理性;(ii)以题目中的样本频率估计概率,设1000个病例中恰有k(k∈N∗)个属于“长期潜伏”的概率是g(k),当k 为何值时,g(k)取得最大值..附:X2=n(ad−bc)2(a+b)(c+d)(a+c)(a+d)P(X2≥x0)0.10.050.010x0 2.706 3.841 6.635若ξ~N(μ ,σ2),则P(μ−σ<ξ<μ+σ)=0.6862.P(μ−2σ<ξ<μ+2σ)=0.9544,P(μ−3σ<ξ<μ+3σ)=0.9974.。
数学同步优化指导(湘教选修23)练习:8.4列联表独立性分析案例活页作业19Word含解析
![数学同步优化指导(湘教选修23)练习:8.4列联表独立性分析案例活页作业19Word含解析](https://img.taocdn.com/s3/m/5d255c558762caaedc33d484.png)
活页作业(十九)列联表独立性分析案例農础巩固、选择题1 . 对于因素X 与Y 的随机变量X 的值,下列说法正确的是 ( ) A. X 越大,“X 与Y 有关系的可信程度越小B. X 越小,“X 与Y 有关系的可信程度越小C. X 越接近于0,“ X 与Y 没有关系”的可信程度越小D. X 越大,“X 与Y 没有关系”的可信程度越大解析:X 越大, “ X 与Y 没有关系”的可信程度越小,则 “X 与Y 有关系”的可信程度越大,即X 越小,“X 与Y 有关系”的可信程度越小.答案:B 2.两个分类变量 X 和Y ,值域分别为{X i , X 2}和{Y i , 丫2},其样本频数分别是 a = 10, b = 21, c + d = 35•若X 与Y 有关系的可信程度为 90%,则c 等于()A . 4B . 5C . 6••• c = 5时,X 与Y 有关系的可信程度为 90%,而其余的值c = 4, c = 6, c = 7皆不满足. 答案:B3.关于两个分类变量 A , B的下列说法中,正确的个数为 ()① A 与B 相关性越大,则 X 的值就越大; ② A 与B 无关,即A 与B 互不影响;③ X 的大小是判定A 与B 是否相关的唯一依据.C . 3D . 0解析:①正确,X 的值的大小是用来检验 A 与B 的相关性的,解析:当c = 5时,15X 51 X 31 X 353.023 6 > 2.706.X 的值越大,A 与B 的相关性越大•②正确,答案:BA 与B 无关即A 与B 相互独立.③不正确.4•为了探究学生的学习成绩是否与学习时间长短有关,在调查的 500名学习时间较长 的学生中有39名学习成绩比较好,500名学习时间较短的学生中有 6名学习成绩比较好,那么你认为学生的学习成绩与学习时间长短有关的把握为( )B . 95%C . 99%解析:计算出X 与两个临界值比较,D .都不正确1 000 X 39 X 494 — 6 X46145 X 955 X 500 X 500 25.340 3 > 6.635.66X 10X 30— 5X 21所以有99%的把握说学生的学习成绩与学习时间长短有关.故选答案:C 二、填空题25. _____________________ 独立性检验中,两个分类变量“ X 和Y 有关系”的可信程度是 97.5% ,则随机变量x 的取值范围是 .解析:当X >5.024时,有97.5%的把握判断 X 与Y 有关系;当 ;>6.635时,有99%的 把握判断X 与Y 有关系.••• 5.024<6.635.答案:(5.024,6.635]6. ____________ 有两个分类变量 X 与Y ,有一组观测的2 X 2列联表如下,其中,a,15-a 均为大于 5的整数,贝U a = 时,有90%以上的把握认为“ X 与Y 之间有关系”.解析:要使有90%以上的X 与Y 之间有关系,贝U —X 2.706,2 2即 X=西回30土切二(20-a I15 -a L =貨(伽-6°)〉2 706 20X 45X 15X 50 60X 90 ''解得 a > 7.19 或 a v 2.04.又因为 a >5,且 15- a >5, a € Z ,所以当a 取8或9时,有90%以上的把握认为 “X 与Y 之间有关系”. 答案:8或9 三、解答题7. 考察小麦种子经过灭菌与否跟发生黑穗病的关系.经试验观察,得到数据如下表所 示:试根据上述数据判断种子灭菌与发生黑穗病是否有关.22460 X 26 X 200 - 184 X 50.一.解:x=疋 4.804.210X 250X 76 X 384由于4.804 > 3.841,所以有95%的把握认为种子灭菌与发生黑穗病是有关系的. &有甲、乙两个班级进行数学考试,按照大于或等于 85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.已知在全部105人中随机抽取1人为优秀的概率为-. ⑴请完成上面的列联表. (2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩优秀与否和班级有关n (ad — be fa +bc +d a +e b + d系”? 参考公式: 附表: 或10号的概率.解:⑴ (3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的 10名学生从2进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号•试求抽到 到116(2)根据列联表中的数据,得到2105X (10X 30— 20X 45 )_ 55X 50X 30X 75 〜 6.109> 3.841 因此有95%的把握认为“成绩优秀与否和班级有关系 ⑶设“抽到6或10号”为事件A ,先后两次抛掷一枚均匀的骰子,出现的点数为 (x .y). 所有的基本事件有(1,1), (1,2), (1,3),…,(6,6),共36个. 事件 A 包含的基本事件有:(1,5), (2,4), (3,3), (4,2), (5,1), (4,6), (5,5), (6,4), 个」P(A )=36=2 払触提升、选择题 1 .硕士学位与博士学位的一个随机样本给出了关于所获取学位类别与学生性别的分类 数据如表所示:根据以上数据,则()A •性别与获取学位类别有关B •性别与获取学位类别无关C.性别决定获取学位的类别D•以上都是错误的解析:由列联表可得x= 340彳16“ 8- 143X 272疋7.34 > 6.635,所以有305 X 35X 189X 151 认为性别与获取学位的类别有关.答案:A2•某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系, 52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是表199%的把握随机抽查( )A •成绩C.智商 D .阅读量2 2的疋中斗 2 52X(6X 22 - 14X 10 252 X 8解析:因为X==16X 36 X 32X 20 16X 36X 32X 202 22_ 52X(4 X 20—16X 12)_ 52X 11216X 36 X 32X 20 -"16X 36X 32X20,2 52X(8 X 24 —12X 8$52 X 962X16X 36X 32X 2016X 36 X 32X20,252X 14X 30 —6X 2 252X 408216X 36X 32X 20 16X 36 X 32X 20则有X> X> X> X,所以阅读量与性别关联的可能性最大.答案:D二、填空题3. 在吸烟与患肺病是否相关的判断中,有下列的说法:①若统计量X>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是______________ (填序号).解析:统计量X是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①错误;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.答案:③4. 某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于 40岁的42名观众中有27名观众收看新闻节目,即 —=一匚=刍,两者相差较大,所以,经直a +b 58c +d 42 观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题5.现对某市工薪阶层关于“楼市限购政策”的态度进行调查,随机抽查了 50人,他们月收入(单位:百元)的频数分布及对“楼市限购政策”的赞成人数如下表:(1)根据以上统计数据填写下面 22列联表,并回答是否有99%的把握认为当月收入以5 500元为分界点时,该市的工薪阶层对“楼市限购政策”的态度有差异;(2 “楼市限购政策”的概率.解:(1)由题意得2 X 2列联表:异,根据列联表中的数据,得到2_ 50X (3X 11— 7X 29:10X 40X 32X 18所以没有99%的把握认为当月收入以 5 500元为分界点时,该市的工薪阶层对 “楼市限 购政策”的态度有差异.(2)已知在收入[55,65)中共有5人,2人赞成,3人不赞成•设至少有一个不赞成 “楼市限购政策”为事件A ,则P (A )= 1 —密=羌.故所求概率为T 9..C 5 10 106.272 V 6.635,6•为了研究“教学方式”对教学质量的影响,某高中数学老师分别用两种不同的教学方式对入学数学平均分数和优秀率都相同的甲、乙两个高一新班进行教学(勤奋程度和自觉性都一样)•以下茎叶图为甲、乙两班(每班均为20人)学生的数学期末考试成绩.(1) 87分的同学至少有一名被抽中的概率.(2)学校规定:成绩不低于75分的为优秀•请填写下面的2 X 2列联表,并判断有多大把握认为"成绩优秀与教学方式有关”2 参考公式:x=nad二也—I(a + b ]c + d j[a + c[b + d )丿解:⑴记成绩为87分的同学为A , B ,其他不低于80分的同学为C , D , E. “从甲班 数学成绩不低于 80分的同学中随机抽取两名同学”的一切可能结果组成的基本事件有(A ,B), (A , C), (A , D), (A , E), (B , C), (B , D), (B , E) , (C , D) , (C , E) , (D , E),共 10个.“至少有一名87分的同学被抽中”所组成的基本事件有(A , B) , (A , C) , (A , D) , (A , E) , (B , C) , (B , D) , (B , E),共 7 个,所以 P =洽.& 归6 X 6 — 14X 14 = 6.4 > 5.024,20 X 20 X 20 X 20因此,我们有97.5%的把握认为成绩优秀与教学方式有关.F 面临界表仅供参。
8.4列联表独立性分析案例
![8.4列联表独立性分析案例](https://img.taocdn.com/s3/m/a69249d93186bceb19e8bb62.png)
因当H0成立时,χ2≥1.3896的概率大于15%,故不能否定假设H0,即不 LOGO 能作出药的效果与给药方式有关的结论。
例 (2011 省质检)某中学将 100 名高一新生分成水平相同的甲、乙 两个“平行班”,每班 50 人.陈老师采用 A 、 B 两种不同的教学方式 分别在甲、 乙两个班级进行教改实验.为了解教学效果,期末考试后, 陈老师对甲、 乙两个班级的学生成绩进行统计分析,画出频率分布直 方图(如下图).记成绩不低于 90 分者为“成绩优秀”
例 为研究不同的给药方式(口服与注射)和药的效果(有 效与无效)是否有关,进行了相应的抽样调查,调查的结 果列在表中,根据所选择的193个病人的数据,能否作出药 的效果和给药方式有关的结论?
有效 无效 合计
口服
注射 合计
58
64 122
40
31 71
98
95 193
解:设H0:药的效果与给药方式没有关系。
x
0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
LOGO
案例研究
患肺癌与吸烟是否有关
2
2
100 39 25 15 21 54 46 60 40
0.40 0.25
7.307 6.635
P ( 2 x0 ) 0.50
2
2
0.1 0.08 0.06 0.04 0.02 0 -0.02
2 的分布密度曲线
2 分布含义:两个因素相互独立(不相关)的概率分布
。 2 作用:来判断 “两个因素有关系”的可能性(把握度)
2022年《列联表独立性分析案例》教学优秀教案1
![2022年《列联表独立性分析案例》教学优秀教案1](https://img.taocdn.com/s3/m/ecd1a2eb0875f46527d3240c844769eae009a31d.png)
列联表独立性分析案例一、学习目标1、通过对典型案例〔如“肺癌与吸烟有关吗〞〕的探究,了解独立性检验〔只要求2×2列联表〕的根本思想、方法及初步应用。
2、让学生经历数据处理的过程,提高探索解决问题的能力。
二、学习重点让学生体会独立性检验的根本思想三、学习难点了解独立性检验的根本思想;了解随机变量的含义。
四、学习过程〔一〕引入课题在许多实际问题中,我们需要考察两种因素的关系。
例如:数学解题能力是否与性别有关;高考升学率是否与补课有关。
为了分析这些问题,我们需要获取一些数据,并对数据进行分析处理,对所得的结论作出判断。
〔二〕案例讲解案例患肺癌与吸烟是否有关?肺癌与吸烟的调查数据分析:吸烟的人在调查总人数中所占的百分比:54%患肺癌的人在调查总人数中所占的百分比:60%既吸烟又患肺癌的人在调查总人数中所占的百分比:39%显然,54%60%39%。
我们有理由相信吸烟是与肺癌有关的。
在解决具体实例的根底上,教师要引导学生总结出一般情况下的解决问题的方法。
假设,那么吸烟是与肺癌无关联,可以认为它们相互独立。
这个式子还可以改写为:.在吸烟与患肺癌问题中,,这说明既吸烟又患肺癌的人数比独立时要多,在这种情况下,吸烟会使患肺癌的人数增加。
需要注意的是,在式子中的各个分式在实际中都是频率,不能等同于概率。
实际上,为了应用概率论得到统计量的近似的分布,统计学家最终选用了:来衡量独立性的大小,它可以化简为当时,有95%的把握判定两个属性不独立;当时,有99%的把握判定两个属性不独立。
〔三〕稳固练习打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得数据,试问:每一晚都打鼾与患心脏病有关系吗?有多大把握认为你的结论成立?解:由题意:,所以我们有99.9%的把握认为每一晚都打鼾与患心脏病有关系。
〔四〕课堂小结1.在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法。
独立性检验的思想来自于统计上的假设检验思想,它与反证法类似。
学案3:§8.3 列联表与独立性检验
![学案3:§8.3 列联表与独立性检验](https://img.taocdn.com/s3/m/c1260344a7c30c22590102020740be1e650ecc2e.png)
§8.3列联表与独立性检验学习目标1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解2×2列联表独立性检验及其应用.知识梳理知识点一分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用表示.知识点二2×2列联表1.2×2列联表给出了成对分类变量数据的.2.定义一对分类变量X和Y,我们整理数据如下表所示:知识点三独立性检验1.定义:利用χ2的取值推断分类变量X和Y的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.2.χ2=,其中n=a+b+c+d.3.独立性检验解决实际问题的主要环节(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.思考独立性检验与反证法的思想类似,那么独立性检验是反证法吗?题型探究探究一等高堆积条形图的应用例1.研究人员选取170名青年男女大学生,对他们进行一种心理测验.发现60名女生对该心理测验中的最后一个题目的反应是:作肯定的有18名,否定的有42名.110名男生在相同的题目上作肯定的有22名,否定的有88名.试判断性别与态度之间是否有关系.反思感悟等高堆积条形图的优劣点(1)优点:较直观地展示了aa+b与cc+d的差异性.(2)劣点:不能给出推断“两个分类变量有关系”犯错误的概率.跟踪训练1.为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?探究二由χ2进行独立性检验命题角度1有关“相关的检验”例2.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中,有175人秃顶.根据以上数据判断男性病人的秃顶与患心脏病是否有关系?反思感悟用χ2进行“相关的检验”步骤(1)零假设:即先假设两变量间没关系.(2)计算χ2:套用χ2的公式求得χ2值.(3)查临界值:结合所给小概率值α查得相应的临界值xα.(4)下结论:比较χ2与xα的大小,并作出结论.跟踪训练2.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:命题角度2有关“无关的检验”例3.为了研究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高一在校生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?反思感悟独立性检验解决实际问题的主要环节(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.跟踪训练3.考察棉花种子处理情况跟生病之间的关系得到下表数据:根据以上数据,可得出(A.种子是否经过处理跟生病有关B.种子是否经过处理跟生病无关C.种子是否经过处理决定是否生病D.以上都是错误的课堂小结1.知识清单:(1)分类变量.(2)2×2列联表.(3)等高堆积条形图.(4)独立性检验,χ2公式.2.方法归纳:数形结合.3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题.随堂自测1.已知变量X和Y的列联表如下,则()A.ad-bc越小,说明B.ad-bc越大,说明X与Y的关系越强C.(ad-bc)2越大,说明X与Y的关系越强D.(ad-bc)2越接近于0,说明X与Y的关系越强2.想要检验是否参加体育运动是不是与性别有关,应该检验()A.男性喜欢参加体育运动B.女性不喜欢参加体育运动C.喜欢参加体育运动与性别有关D.喜欢参加体育运动与性别无关3.在2×2列联表中,若每个数据变为原来的2倍,则χ2的值变为原来的________倍.4.下列说法正确的是________.(填序号)①对事件A 与B 的检验无关,即两个事件互不影响;②事件A 与B 关系越密切,χ2就越大;③χ2的大小是判断事件A 与B 是否相关的唯一数据;④若判定两事件A 与B 有关,则A 发生B 一定发生.5.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:已知P (χ2≥3.841)≈0.05,P (χ2≥5.024)≈0.025,根据表中数据得到χ2=50×(13×20-10×7)223×27×20×30≈4.844.则有__________的把握认为选修文科与性别有关.6.在2×2列联表中,两个比值a a +b 与________相差越大,两个分类变量有关系的可能性越大.7.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:方面有差异”.参考答案知识梳理知识点一 分类变量 实数知识点二2×2列联表1.交叉分类频数知识点三独立性检验1.是否独立2.n(ad-bc)2(a+b)(c+d)(a+c)(b+d)思考答案不是.因为反证法不会出错,而独立性检验依据的是小概率事件几乎不发生.题型探究例1.解:根据题目所给数据建立如下列联表:相应的等高条形图如图所示.比较来看,女生中肯定的人数比要高于男生中肯定的人数比,因此可以在某种程度上认为性别与态度之间有关.跟踪训练1.解:等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.例2.解:提出假设H 0:男性病人的秃顶与患心脏病没有关系.根据题中所给数据得到如下2×2列联表:根据列联表中的数据可以求得χ2=1 437×(214×597-175×451)389×1 048×665×772≈16.373.因为当H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈16.373>10.828,所以有99.9%的把握认为,男性病人的秃顶与患心脏病有关系.跟踪训练2.解:提出假设H 0:新防护服对预防皮肤炎没有明显效果.根据列联表中的数据可求得χ2=103×(5×18-70×10)275×28×15×88≈13.826.因为H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>10.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效.例3.解:问题是判断学生选报文、理科是否与对外语的兴趣有关.列出2×2列联表如下:由公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.因为1.871×10-4<2.706,故可以认为学生选报文、理科与对外语的兴趣无关. 跟踪训练3.【答案】B 【解析】由χ2=407×(32×213-61×101)293×314×133×274≈0.164<2.706=x 0.1,即没有把握认为种子是否经过处理跟生病有关. 当堂检测 1.【答案】C 【解析】χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d ),若(ad -bc )2越大,则χ2越大,说明X 与Y 的关系越强. 2.【答案】D【解析】独立性检验假设有反证法的意味,应假设两类变量(而非变量属性)无关,这时的χ2应该很小,如果χ2很大,则可以否定假设,如果χ2很小,则不能够肯定或者否定假设.3.【解析】由公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)中所有值变为原来的2倍,得(χ2)′=2n(2a·2d-2b·2c)2(2a+2b)(2c+2d)(2a+2c)(2b+2d)=2χ2,故χ2也变为原来的2倍.【答案】24.【解析】对于①,事件A与B的检验无关,只是说两事件的相关性较小,并不一定两事件互不影响,故①错.②是正确的.对于③,判断A与B是否相关的方式很多,可以用列联表,也可以借助于概率运算,故③错.对于④,两事件A与B有关,说明两者同时发生的可能性相对来说较大,但并不是A发生B一定发生,故④错.【答案】②5.【答案】95%6.【解析】根据2×2列联表可知,比值aa+b与cc+d相差越大,则|ad-bc|就越大,那么两个分类变量有关系的可能性就越大.【答案】cc+d7.解:将2×2列联表中的数据代入公式计算,得χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(60×10-20×10)280×20×70×30=10021≈4.762.因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.。
列联表独立性分析案例演示文稿
![列联表独立性分析案例演示文稿](https://img.taocdn.com/s3/m/17cda4e0541810a6f524ccbff121dd36a32dc49f.png)
等高 条形图
患肺癌 不患肺癌
不吸烟
第15页,共29页。
吸烟与肺癌的调查数据
60
40
患肺 癌
不患 肺癌
总计
35 30
50 40
25
吸烟 39 15 54
20 15
吸烟
30
不吸烟 20
不吸 烟
21
25
46
10 5 0
患肺癌
不吸烟 吸烟
10 0
总计 60 40 100
不患肺癌
吸烟
不吸烟
100%
90%
练习:为考察高中生性别与是否喜欢数学课程之间的关系,在 某城市的某校高中生中随机抽取300名学生,得到如下列联表:试分析: 高中生的性别差异是否会对喜欢数学课程程度产生影响?为什么?
男
X
女
总计
喜欢数学课程
Y
37
35
72
不喜欢数学课程 85
143 228
总计 122 178 300
设计意图:发展学生的应用意识,是高中数学课程标准所 倡导的重要理念之一。在教学中以具体问题为载体,加深学 生对独立性检验的理解,体验数学在实际生活中的应用。
女生 男生
喜欢数学课程 不喜欢数学课程
第26页,共29页。
练习:请思考独立性检验基本思想的形成过程,以小组交流讨论方式, 完成如下表。
反证法 要证明结论A
在A不成立的前提下进行推 理
独立检验 备选假设H1
在H1不成立的条件下,即 H0成立的条件下进行推理
推出矛盾,意味着结论A成 立
推出有利于H1成立的小概率 事件(概率不超过a的事件) 发生,意味着H1成立的可能 性很大(可能性为1-a)
888相应分析(案例)
![888相应分析(案例)](https://img.taocdn.com/s3/m/e43cc19769dc5022aaea00e8.png)
相应分析第五节实例分析一、利用SPSS进行相应分析为研究我国东部地区11个城市的空气质量,这里选取二氧化硫、二氧化氮、一氧化碳及臭氧等4类污染物作为评价指标来进行相应分析,数据来源于2014年《中国统计局年鉴》。
表8.4 我国东部地区11个重要城市的空气质量情况(2013年)(一)操作步骤(1)数据录入。
进行相应分析之前,需要对原始数据进行处理,整理成交叉表的单元格计数形式。
具体操作如下:①打开SPSS文件,按顺序:File-New-Data打开一个空白数据文件,进行变量的编辑,点击Variable View选项,录入三个变量,见图8.3。
②对变量进行赋值,选择Values项需要作如下设置:在弹出的对话框里,对东部地区11个城市以及4个空气质量指标进行数字赋值,如图8.4和图8.5。
图8.4 对“地区”进行赋值图8.5 对“空气质量指标”赋值完成变量的编辑后,返回到“Data View”窗口,录入数据,即为交叉表的单元格计数形式,见表8.5。
表8.5 交叉表的单元格计数形式③使用加权个案。
点击Data-weight cases功能,定义“浓度”为权重变量(图8.6)。
图8.6 Weight Cases对话框设置完成后,点击OK按钮进入相应分析。
(2)点击Analyze--Data Reduction--Correspondence analysis,进入Correspondence analysis 主对话框(图8.7)。
图8.7 相应分析主对话框①Row框用于设置行变量。
这里,将“地区”变量放置于此。
此时,“Define Ranges”按钮被激活,用于定义行变量参与分析的分类范围(图8.8)。
本例的地区有11个,故minimum value 输入1,maximum value 输入11,然后点击Update。
②Column框用于设置列变量。
这里,将“消费支出结构”变量放置于此,点击“Define Ranges”按钮,定义列变量参与分析的分类范围(图8.9)。
高中数学第8章统计与概率8.4列联表独立性分析案例讲义含解析湘教版选修2_304163154.doc
![高中数学第8章统计与概率8.4列联表独立性分析案例讲义含解析湘教版选修2_304163154.doc](https://img.taocdn.com/s3/m/8db16012453610661ed9f4d5.png)
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=5-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.精美句子1、善思则能“从无字句处读书”。
2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版
![2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版](https://img.taocdn.com/s3/m/6947a0d94afe04a1b071de44.png)
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。
8.4列联表独立性分析案例
![8.4列联表独立性分析案例](https://img.taocdn.com/s3/m/d642133ef18583d0496459a0.png)
课本例题 P 86
总结独立性检验的一般步骤:
(1)假设两个分类变量没有关系; (2)根据列联表和公式计算出K2的观测值; (3)把K2的值与临界值比较,确定X与Y有关的程度或无关 系.
【例 2 】 在吸烟与患肺癌这两个变量的独立性检验的
计算中,下列说法正确的是 ________ .
①若K2>6.635,则我们有99%的把握认为吸烟与患肺癌 有关系,即在100个吸烟的人中必有99人患有肺癌; ②由独立性检验可知,当有 99% 的把握认为吸烟与患肺 癌有关系时,我们说某人吸烟,那么他有99%的可能患 有肺癌; ③从统计量中求出有 95% 的把握认为吸烟与患肺癌有关 系,是指有5%的可能性使得判断出现错误.
变式训练 对电视节目单上的某一节目,部分观众
的态度如下表:
完全同意 反对 合计
男人
女人 合计
14
29 43
26
34 60
4063 103源自问能否在判错率为0.05的条件下认为观看这个电视节目 的观众与性别有关?
假设观看这个电视节目的观众与性别无关
解
2 103 × 14 × 34 - 29 × 26 由公式得 χ2= ≈1.224.因为 43×60×63×40
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 总计
秃顶 不秃顶
总计
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 秃顶 不秃顶 总计 214 451 665 175 597 772 总计 389 1 048 1 437
(2)根据列联表中的数据,得到
因此,在犯错误的概率不超过0.01的前提下, 认为秃顶与患心脏病有关系.
课堂练习
4.有两个分类变量X与Y的一组数据,由其列联表 计算得K2≈4.523,则认为X与Y有关系是错误的 可信度为( ) A.95% B.90% C.5% D.10%
列联表独立性分析案例教学设计
![列联表独立性分析案例教学设计](https://img.taocdn.com/s3/m/338d9a22c281e53a5902ff19.png)
8.4 列联表独立性分析案例(3)一、教学目标(一)知识目标通过对典型案例(如“色弱与性别是否有关”“中学生物理考试成绩和吃早点是否相关”)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
(二)能力目标让学生经历数据处理的过程,会用所学知识对具体案例进行检验,提高探索解决问题的能力。
(三)情感目标从实例中发现问题,提高学习兴趣,激发学习积极性和主动性,不断自我完善,养成不断探求知识完善自我的良好态度。
二、教学重点进一步理解独立性检验的实施步骤三、教学难点对临界值的理解作出判断四、教学过程(一)引入课题独立性检验的步骤。
1.若要推断的论述为H1:“X与Y有关系”。
可按如下步骤判断H1成立的可能性。
A 通过三维柱形图和二维条形图,粗略判断两个分类变量是否有关系。
B 可以利用独立性检验来考察两个分类变量是否有关系。
并能精确判断可靠程度。
2.由观测数据算2χ,其值越大,说明“X与Y有关系”成立的可能性越大。
3.由临界值表确定可靠程度。
(二)案例讲解分析:设从表格中提供的统计数据,可以计算得到如下数值:男性所占百分比:132120.48300+=;女性所占百分比:15150.52300+=在这300人的样本中,男性色弱患者的百分比:120.04300≈;女性色弱的百分比:50.017300≈直观上看,300人中男性色弱的比例高于女性(0.040.017>)。
色弱应该与性别有关。
下面进一步运用独立性的概念进行检验。
从300人中随机选取一人,设1A 表示男性,2A 表示女性,1B 表示色觉正常,2B 表示色弱。
则:1()0.48P A =,2()0.52P A =,2125()0.06300P B +=≈ P (此人为男性且色弱)=12()0.04P A B = 而12()()0.480.060.028P A P B =⨯= 显然1212()()()P A B P A P B ≠P (此人为女性且色弱)=22()0.017P A B =,22()()0.520.060.031P A P B =⨯=显然2222()()()P A B P A P B ≠因此,1A 与2B 、2A 与2B 都不是独立的。
2019年数学新同步湘教版选修2-3讲义+精练:第8章 8.4 列联表独立性分析案例 Word版含解析
![2019年数学新同步湘教版选修2-3讲义+精练:第8章 8.4 列联表独立性分析案例 Word版含解析](https://img.taocdn.com/s3/m/ef578dcff705cc17552709b3.png)
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2的求法公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X 与Y 有关系”; (3)如果χ2>2.706时,就有90%的把握认为“X 与Y 有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X 与Y 有关系”,但也不能作出结论“H 0成立”,即X 与Y 没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n 越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P (χ2≥6.64)≈0.01和P (χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P (χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P (χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1] 数据:[解] 由列联表中的数据,得χ2的值为χ2=1 633×(30×1 355-224×24)2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a ,b ,c ,d ,a +b +c +d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x 0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得χ2=189×(54×63-40×32)294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=830×(52×218-466×94)2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:此时,χ2=86×(5×22-50×9)214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关. 两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X 与Y 是否有关”可按下面的步骤进行: ①提出统计假设H 0:X 与Y 无关;②根据2×2列联表与χ2计算公式计算出χ2的值; ③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=361×(138×52-73×98)2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .下表1和表2分别是注射药物A 和药物B 后的试验结果.(疱疹面积单位:mm 2)表1:注射药物A 后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=200×(70×65-35×30)2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )解:(1)依题意得⎩⎪⎨⎪⎧10(0.035+0.025+c +2b +a )=1,2b =a +c ,解得b =0.01. 因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=60×(22×4-8×26)30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知, a =38,b =442,c =6,d =514,a +b =480,c +d =520,a +c =44,b +d =956,n =1 000, 代入公式得χ2=1 000×(38×514-6×442)2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系. 这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a ,b 的值分别为A .94,96 B .52,50 C .52,54D .54,52 解析:选C ∵a +21=73,∴a =52. 又∵a +2=b ,∴b =54.2.下列关于χ2的说法中正确的是( )A .χ2在任何相互独立问题中都可以用于检验是否相关B .χ2的值越大,两个事件的相关性越大C .χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d)答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是()A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选Bχ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=103×(5×18-70×10)275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=50×(20×15-10×5)230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关” 解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统中的数据,得到χ2=50(13×20-10×7)223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A .0.025B .0.05C .0.975D .0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P (x 2≥2.706)=0.10,两个因素X 和Y ,取值分别为{x 1,x 2}和{y 1,y 2},其样本频数分别是a =10,b =21,c +d =35.若在犯错误的概率不超过0.1的前提下,认为X 与Y 有关系,则c 等于( )A .5B .6C .7D .8解析:选A 经分析,c =5. 二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即b a +b =1858,d c +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量χ21,χ22,χ23,χ24.由表中数据可以得到:语文:χ21=244×(174×13-27×30)2201×43×204×40=7.294>6.64,数学:χ22=244×(178×20-23×23)2201×43×201×43=30.008>6.64,英语:χ23=244×(176×19-25×24)2201×43×200×44=24.155>6.64,综合科目:χ24=244×(175×17-26×26)2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=124×(43×33-27×21)270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
独立性检验的原理了解一下
利用K2来判断“两个分类变量有关系”的方法称为独立性检验. 独立性检验的基本思想类似反证法,实际上是确认“两个变 量X与Y有关系”这一结论成立的可信度. (1)假设结论不成立,即“两个分类变量没有关系”. (2)在此假设下随机变量K2应该很小,如果由观测数据计算 得到K2的观测值k很大,则在一定程度上说明假设不合 理;如果由观测数据计算得到K2的观测值k很小,则在一 定程度上说明假设合理. (3)根据随机变量K2的含义,可以通过评价该假设不合理的 程度。如由实际计算出的k>10.828.说明假设不合理的 程度为99.9%,即“两个分类变量有关系”这一结论成立 的可信度约为99.9%. 带有概率性质的反证法
2 2
因为 1.779<3.841,所以我们没有充分的理由说人具有 大学专科以上学历 (包括大学专科 )和对待教育改革的态 度有关.
也就是说,在H0成立的情况下,对随机变量K2进行多次观测, 观测值超过6.635的频率约为0.01。但,现在K2的观测值 k≈7.31,远远大于6.635,所以有理由断定H0不成立,即认为 “吸烟与患肺癌有关系”. 2 思考2 如果K 6.635,就断定H0不成立,这种判断出错的可能性有多大? 答:判断出错的概率为0.01。也就是我们有99.9% 的把握认为认为“吸烟与患肺癌有关系”.
等高条形图更清晰地表达了两种情况下患肺癌的比例。
通过数据和图形分析,得到结论是:吸烟者和不吸烟者 患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.那么这 种判断是否可靠呢?我们可以通过统计分析回答这个问题.
假设H0:吸烟与患肺癌之间没有关系,
吸烟与患肺癌列联表(单位:人) 不患肺癌 患肺癌 总计 不吸烟 a b a+b 吸烟 c d c+d 总计 a+c b+d a+b+c+d
不吸烟
吸烟 总计
39
21 60
15
25 40
54
46 100
通过公式计算
10039 25 15 21 K 7.31 54 46 60 40
2 2
思考1:这个值到底告诉我们什么呢? 2 已知在 成立的情况下, P( K 6.635) 0.01 即在 成立的情况下,K2的观测值大于6.635的概率非常小, 近似为0.01,是一个小概率事件,即我们判断错误的概率不超 过0.01.
为了使不同样本容量的数据有统一的评判标准,基于上述分 析,统计学家引入了一个随机变量-----卡方统计量:
2 n(ad bc) K2 = , 其中n=a+b+c+d为样本容量. (a + b)(c + d)(a + c)(b + d不患肺癌 患肺癌 总计
• 假设“面包份量足”,则一年购买面包的质量数据 的平均值应该不少于1000g ; • “这个平均值不大于950g”是一个与假设“面包份量 足”矛盾的小概率事件; • 这个小概率事件的发生使庞加莱得出推断结果。
我们经常听到这些说法: 吸烟对患肺癌有影响; 数学好的人物理一般也很好; 是否喜欢数学课程与性别之间有关系; 人的血型会决定人的性格; 星座与人的命运之间有某种联系. 这些说法都有道理吗?
课堂练习
4.有两个分类变量X与Y的一组数据,由其列联表 计算得K2≈4.523,则认为X与Y有关系是错误的 可信度为( ) A.95% B.90% C.5% D.10%
例3.在某医院,因为患心脏病而住院的665名男性病 人中,有214人秃顶,而另外772名不是因为患心脏病而住 院的男性病人中有175人秃顶. (1)列出2X2列联表; (2) 能否在犯错误的概率不超过 0.01 的前提下认为秃顶 与患心脏病有关系?
8.4 列联表独立性分析案例
目标: 1.理解独立性检验的基本思想和基本步骤; 2.利用K2来确认两个分类变量有关这一结论成立的可信度
情景: 数学家庞加莱每天都从一家面包店买一
块1000g 的面包,并记录下买回的面包的实际 质量。一年后,这位数学家发现,所记录数据 的均值为950g。于是庞加莱推断这家面包店的 面包分量不足。
临界值表:
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
如P(k>10.828)= 0.001表示在犯错误的概率不超过 0.001的前提下,认为“X与Y有关系”. 如P(k>6.635)= 0.010表示在犯错误的概率不超过 0.010的前提下,认为“X与Y有关系”. .........
据计算公式有 540×60×200-20×260 χ= ≈9.638. 80×460×220×320
2 2
因为 9.638>6.635,所以有 99%的把握说“40 岁以上的人患胃病与生活规律是有关的”.
2. 某教育机构为了研究人具有大学专科以上学历 ( 包括大学专 科 ) 和对待教育改革态度的关系,随机抽取了 392 名成年人进 行调查,所得数据如下表所示:
假设H0:吸烟与患肺癌之间没有关系,
如果“吸烟与患肺癌没有关系”,那么吸烟样本中不 患肺癌的比例应该与不吸烟样本中相应的比例差不多.
不患肺癌 a c a+c 患肺癌 b d b+d 总计 a+b c+d a+b+c+d
不吸烟 吸烟 总计
即 ︱ad-bc︱越小,说明吸烟与患肺癌之间的关系越弱; ︱ad-bc︱越大,说明吸烟与患肺癌之间的关系越强.
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 总计
秃顶 不秃顶
总计
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 秃顶 不秃顶 总计 214 451 665 175 597 772 总计 389 1 048 1 437
(2)根据列联表中的数据,得到
因此,在犯错误的概率不超过0.01的前提下, 认为秃顶与患心脏病有关系.
1. 为了调查胃病是否与生活规律有关,对某地 540 名 40 岁以上 的人进行调查,结果如下:
患胃病 未患胃病 合计 生活无规律 60 260 320
生活有规律
合计
20
80
200
460
220
540
根据以上数据,你认为 40 岁以上的患胃病与生活规律有关吗?
解
提出假设 H0:患胃病与生活规律无关,根
以 99% 的把握认为两者有关系,并不表示吸 烟的人中有 99% 的人都会患肺癌,也不表示一个吸烟的 人有 99% 的概率会患肺癌,即不表示两者的关系具体有 多大,而只是指“有关系”的可信度为 99% ,或者说把
“ 没有关系 ” 误判为 “ 有关系 ” 的概率为 1%.
[ 正解 ] ③ P ( χ 2 > 6.635 )≈ 0.01. 即有两变量有关系的可 信度为 99%.
课堂练习
1.独立性检验中的统计假设就是假设两个分类变量A,B ( )
A.互斥
C.相互独立
B.不互斥
D.不独立
课堂练习
2.下列关于回归分析与独立性检验的说法正确的是 ( ) A.回归分析和独立性检验没有什么区别 B.回归分析是对两个变量准确关系的分析,而独立 性检验是分析两个变量之间的不确定关系 C.回归分析研究两个变量之间的相关关系,独立性 检验是对两个变量是否具有某种关系的一种检验 D.独立性检验可以100%确定两个变量之间是否具有 某种关系
定量变量:体重、身高、温度、考试成绩等等。 变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。
定量变量——回归分析(画散点图、相关系数r、 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了100人,得到如下结果(单位:人)
课堂练习
3.下列说法中正确的是( ) ①独立性检验的基本思想是带有概率性质的反证法; ②独立性检验就是在假设H0下,如果出现一个与H0相 矛盾的小概率事件,就推断H0不成立,且该推断犯错 误的概率不超过这个小概率,则作出拒绝H0的推断; ③独立性检验一定能给出明确的结论. A.①② B.①③ C.②③ D.①②③
吸烟与肺癌列联表 患肺癌 不吸烟 吸烟 总计 39 21 60 不患肺癌 15 25 40 总计 54 46 100
在不吸烟者中患肺癌的比重是 72.22% 在吸烟者中患肺癌的比重是 45.65%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
等高条形图
图表标题
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟与肺癌列联表 患肺癌 吸烟 吸烟与肺癌列联表 不患肺癌
积极支持教育改革
大专以上学历 39
不太赞成教育改革
157
合计
196
大专以下学历
合计
29
68
167
324
196
392
对于教育机构的研究项目,根据上述数据能否认为人具有大学 专科以上学历 ( 包括专科 ) 和对待教育改革的态度有关?
解
提出假设 H0:人具有大学专科以上学历(包括专科)
和对待教育改革的态度没有关系. 392×39×167-157×29 χ= ≈1.779, 196×196×68×324
课本例题 P 86
总结独立性检验的一般步骤:
(1)假设两个分类变量没有关系; (2)根据列联表和公式计算出K2的观测值; (3)把K2的值与临界值比较,确定X与Y有关的程度或无关 系.