统计案例之独立性检验
【高二统计案例(2)】独立性检验
独立性检验1. 在2013年某大学生运动会期间,某网站针对是否观看大学生运动会的情况进行了一项问卷调查,得出如下表格:(附:K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d) 则K 2=( )A. 700B. 750C. 800D. 8502. 春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附:K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)参照附表,得到的正确结论是( )A. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C. 有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D. 有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”3.附表:由K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),计算得K 2=____________ 参照附表,得到的正确结论为( )A. 在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”B. 在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别无关”C. 有97.5%以上的把握认为“是否爱吃零食与性别有关”D. 有97.5%以上的把握认为“是否爱吃零食与性别无关”第2页,共7页4.由表中数据计算得到K 的观测值k ≈5.059,于是(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.5. 101目的110名观众,得到如下列联表:则有 的把握认为“喜爱该节目与性别有关”.6. 如图是一个2×2列联表,则m+n 的值为 .7. 某新闻媒体为了解观众对《创造101》节目的喜爱与性别是否有关,随机调查了观看该节目的110名观众,得则有 的把握认为“喜爱该节目与性别有关”.8. 在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:参照附表,K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d).在犯错误的概率不超过______的前提下,认为“小动物是否被感染与有没有服用疫苗有关”.独立性检验一、选择题(本大题共3小题,共15.0分)9.在2013年某大学生运动会期间,某网站针对是否观看大学生运动会的情况进行了一项问卷调查,得出如下表格:)(附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)则K2=()A. 700B. 750C. 800D. 850【答案】B【解析】【分析】即可求解;本题考查独立性检验,属于基础题型,代入K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)【解答】解:由题意得K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)=750.=12000×(6000×2000−2000×2000)28000×4000×8000×4000故选B.10.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附:K2=n(ad−bc)2参照附表,得到的正确结论是()(a+b)(c+d)(a+c)(b+d)A. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C. 有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D. 有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”【答案】C第4页,共7页【解析】【分析】本题考查独立性检验,基础题由公式可计算K 2的观测值k ,与临界值表中的临界值进行比较,即可得答案.【解答】解:由公式可计算K 2的观测值 k =n(ad−bc)2(a+b)(c+d)(a+c)(b+d)=100(45×15−30×10)255×45×75×25≈3.03>2.706,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”, 故选C .11.附表:由K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),计算得K 2=100(10×30−20×40)250×50×30×70≈4.762.参照附表,得到的正确结论为( )A. 在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”B. 在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别无关”C. 有97.5%以上的把握认为“是否爱吃零食与性别有关”D. 有97.5%以上的把握认为“是否爱吃零食与性别无关” 【答案】A【解析】【分析】本题主要考查独立性检验知识,属于基础题.独立性检验是在犯错的概率不超过多少时认为“是否爱吃零食与性别有关” K 2≈4.762>3.841而P(K 2≥3.841)=0.05,即可得到答案. 【解答】解:因为K 2≈4.762>3.841,P(K 2>3.841)=0.05.所以在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”, 故选A .二、填空题(本大题共8小题,共40.0分)12. 公元五世纪张丘建所著《张丘建算经》卷中第22题为:“今有女善织,日益功疾,初日织五尺,今一月日织九匹三丈,问日益几何”.题目的意思是:有个女子善于织布,一天比一天织得快(每天增加的数量相同),已知第一天织布5尺,一个月(30天)共织布9匹3丈,则该女子每天织布的增加量为 尺.(1匹=4丈,1丈=10尺) 【答案】1629【解析】【分析】本题考查了等差数列的求和.设每天织布的尺数成等差数列{a n },公差为d ,利用等差数列的求和公式即可得出.【解答】解:设每天织布的尺数成等差数列{a n},公差为d,d=390,则5×30+30×292解得d=16.29.故答案为162913.在平面直角坐标系xOy中,抛物线y2=8x的焦点坐标为________.【答案】(2,0)【解析】【分析】本题考查抛物线的几何性质,是容易题.=2即可得解.根据题意,确定抛物线的对称轴和开口方向,求出p2【解答】解:在y2=8x中,2p=8,即p=4,=2.所以,p2又抛物线的焦点在x轴上,且开口向右,故抛物线的焦点坐标为(2,0).答案为(2,0).14.设向量a⃗=(1,−4),b⃗ =(−1,x),c⃗=a⃗+3b⃗ .若a⃗//c⃗,则实数x的值是.【答案】4【解析】【分析】本题考查了平面向量共线的充要条件和平面向量的坐标运算.先计算c→的坐标,根据a→//c→,利用向量平行的条件列出关于x的方程,即可求得x.【解答】解:向量a→=(1,−4),c→=a→+3b→=(−2,−4+3x),因为a⃗//c⃗,所以(−4+3x)−(−4)×(−2)=0,解得x=4.故答案为4.15.第6页,共7页由表中数据计算得到K 的观测值k ≈5.059,于是(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.【答案】不能【解析】【分析】本题考查独立性检验,属于基础题.查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k 0=6.635.本题中,k ≈5.059<6.635,由此即可得到答案. 【解答】解:查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k 0=6.635.本题中,k ≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.16. 某新闻媒体为了解观众对《创造101》节目的喜爱与性别是否有关,随机调查了观看该节目的110名观众,得到如下列联表:则有 的把握认为“喜爱该节目与性别有关”. 【答案】99%【解析】【分析】本题主要考查独立性检验,属于基础题. 代入独立性检验公式即可求解.【解答】解:由列联表中数据,可得: χ2=110×(40×30−20×20)260×50×60×50≈7.822>6.635,所以有99%的把握认为“喜爱该节目与性别有关”.17. 的值为 .【答案】【解析】【分析】本题主要考查了2×2列联表的数据关系,属于基础题.由a +35=45,可求得a ,则m =a +7,再由b +35=73可得b ,则7+b =n ,即可求解.【解答】解:根据2×2列联表可知a +35=45,解得a =10,则m =a +7=17, 又由35+b =73,解得b =38,则n =7+b =45, 则m +n =62.18. 某新闻媒体为了解观众对《创造101》节目的喜爱与性别是否有关,随机调查了观看该节目的110名观众,得则有 的把握认为“喜爱该节目与性别有关”.【答案】99% 【解析】【分析】本题考查了独立性检验,考查了运算能力,属于基础题.由列联表中数据,代入计算公式可得K 2的值,再判断是否有99%的把握认为“喜爱该节目与性别有关”. 【解答】解:由列联表中数据,可得K 2=110×(40×30−20×20)260×50×60×50≈7.822>6.635,所以有99%的把握认为“喜爱该节目与性别有关”.19. 在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:参照附表,K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d).在犯错误的概率不超过______的前提下,认为“小动物是否被感染与有没有服用疫苗有关”.【答案】0.05【解析】【分析】本题考查独立性检验的应用,属于基础题.计算观测值,与题目中的观测值表进行比较,即可得出预测结论. 【解答】解:由题意算得,K 2= 100(10×30−20×40)250×50×30×70 ≈4.762>3.841,参照附表,可得:在犯错误的概率不超过5%的前提下,认为“小动物是否被感染与有没有服用疫苗有关”. 故答案为0.05.。
2022高中数学第1章统计案例2
第一章DIYIZHANG统计案例§2独立性检验2.1条件概率与独立事件课后篇巩固提升A组1.从1,2,3,4,5中任取2个不同的数,事件A:“取到的2个数之和为偶数”,事件B:“取到的2个数均为偶数”,则P(B|A)=()A. B. C. D.(A)=,P(AB)=,由条件概率计算公式,得P(B|A)=.2.某单位组织开展党史知识竞赛活动,以支部为单位参加比赛,某支部在5道党史题中(有3道选择题和2道填空题),不放回地依次随机抽取2道题作答,设事件A为“第1次抽到选择题”,事件B为“第2次抽到选择题”,则下列结论中不正确的是()A.P(A)=B.P(AB)=C.P(B|A)=D.P(B|)=(A)=,故A正确;P(AB)=,故B正确;P(B|A)=,故C正确;P()=1-P(A)=1-,P(B)=,P(B|)=,故D错误.故选D.3.某地区空气质量监测资料表明,一天的空气质量为优良的概率是0.75,连续两天为优良的概率是0.6,已知某天的空气质量为优良,则随后一天的空气质量为优良的概率是()A.0.8B.0.75C.0.6D.0.45,则随后一天空气质量也优良的概率为p,则得0.6=0.75·p,解得p=0.8,故选A.4.某中学开展主题为“学习宪法知识,弘扬宪法精神”的知识竞赛活动,甲同学答对第一道题的概率为,连续答对两道题的概率为.用事件A表示“甲同学答对第一道题”,事件B表示“甲同学答对第二道题”,则P(B|A)=()A. B. C. D.P(AB)=,P(A)=,∴P(B|A)=.故选D.5.如图,用K,A1,A2三类不同的元件连接成一个系统.当K正常工作且A1,A2至少有一个正常工作时,系统正常工作.已知K,A1,A2正常工作的概率依次为0.9,0.8,0.8,则系统正常工作的概率为()A.0.960B.0.864C.0.720D.0.576:由题意知K,A1,A2正常工作的概率分别为P(K)=0.9,P(A1)=0.8,P(A2)=0.8, ∵K,A1,A2相互独立,∴A1,A2至少有一个正常工作的概率为P(A2)+P(A1)+P(A1A2)=(1-0.8)×0.8+0.8×(1-0.8)+0.8×0.8=0.96.∴系统正常工作的概率为P(K)[P(A2)+P(A1)+P(A1A2)]=0.9×0.96=0.864.方法二:A1,A2至少有一个正常工作的概率为1-P()=1-(1-0.8)(1-0.8)=0.96,∴系统正常工作的概率为P(K)[1-P()]=0.9×0.96=0.864.6.某次知识竞赛规则如下:在主办方预设的5个问题中,选手若能连续正确回答出两个问题,即停止答题,晋级下一轮.假设某选手正确回答每个问题的概率都是0.8,且每个问题的回答结果相互独立,则该选手恰好回答了4个问题就晋级下一轮的概率为..128,该选手的第二个问题必答错,第三、四个问题必答对,故该选手恰好回答了4个问题就晋级下一轮的概率P=1×0.2×0.8×0.8=0.128.7.已知随机事件A和B相互独立,若P(AB)=0.36,P()=0.6(表示事件A的对立事件),则P(B)=..9P(A)=1-P()=0.4,由独立事件的概率乘法公式可得P(AB)=P(A)P(B),因此,P(B)==0.9.8.盒中装有10只乒乓球,其中6只新球,4只旧球,不放回地依次取出2个球使用,在第一次取出新球的条件下,第二次也取到新球的概率为.,则袋中还有9个球,其中5个新球,所以第二次取出新球的概率为.9.集合A={1,2,3,4,5,6},甲、乙两人各从A中任取一个数,若甲先取,乙后取,在甲抽到奇数的条件下,求乙抽到的数比甲抽到的数大的概率.1:将甲抽到数字a,乙抽到数字b,记作(a,b),则所有可能的抽取结果为:(1,2),(1,3),(1,4),(1,5),(1,6),(2,1),(2,3),(2,4),(2,5),(2,6),(3,1),(3,2),(3,4),(3,5),(3,6),(4,1),(4,2),(4,3),(4,5),( 4,6),(5,1),(5,2),(5,3),(5,4),(5,6),(6,1),(6,2),(6,3),(6,4),(6,5),共30个.其中甲抽到奇数的情形有15个,在这15个中,乙抽到的数比甲抽到的数大的有9个,所求概率P=.解法2:设甲抽到奇数的事件为A,甲抽到奇数,且乙抽到的数比甲大为事件B,则P(A)=.P(AB)=,故P(B|A)=.10.某班有两个课外活动小组,其中第一小组有足球票6张,排球票4张;第二小组有足球票4张,排球票6张.甲从第一小组的10张票中任抽1张,乙从第二小组的10张票中任抽1张.(1)两人都抽到足球票的概率是多少?(2)两人中至少有1人抽到足球票的概率是多少?“甲从第一小组的10张票中任抽1张,抽到足球票”为事件A,“乙从第二小组的10张票中任抽1张,抽到足球票”为事件B,则“甲从第一小组的10张票中任抽1张,抽到排球票”为事件,“乙从第二小组的10张票中任抽1张,抽到排球票”为事件,于是P(A)=,P()=;P(B)=,P()=.由于甲(或乙)是否抽到排球票,对乙(或甲)是否抽到足球票没有影响,因此A与B是相互独立事件.(1)两人都抽到足球票的概率为P=P(A)·P(B)=.(2)两人都抽到排球票的概率为P=P()·P()=.故两人至少有1人抽到足球票的概率为P=1-.B组1.已知某产品的次品率为4%,其合格品中75%为一级品,则任选一件为一级品的概率为()A.75%B.96%C.72%D.78.125%“任选一件产品是合格品”为事件A,则P(A)=1-P()=1-4%=96%.记“任选一件产品是一级品”为事件B.由于一级品必是合格品,所以事件A包含事件B,故P(AB)=P(B).由合格品中75%为一级品知P(B|A)=75%;故P(B)=P(AB)=P(A)·P(B|A)=96%×75%=72%.2.从甲袋中摸出一个红球的概率是,从乙袋中摸出一个红球的概率是,从两袋各摸出一个球,下列结论不正确的是()A.2个球都是红球的概率为B.2个球不都是红球的概率为C.至少有1个红球的概率为D.2个球中恰有1个红球的概率为A选项,2个球都是红球的概率为,A选项正确;对于B选项,2个球不都是红球的概率为1-,B 选项错误;对于C选项,至少有1个红球的概率为1-,C选项正确;对于D选项,2个球中恰有1个红球的概率为,D选项正确.故选B.3.已知P(AB)=P(A)P(B),且P()=,P(A)=P(B),则事件A发生的概率是()A. B. C. D.P(AB)=P(A)P(B),知A与B相互独立,故A与与B,都是相互独立的,由P(A)=P(B),得P(A)P()=P(B)P(),即P(A)[1-P(B)]=P(B)[1-P(A)],得P(A)=P(B).∵P()=,∴P()=P()=,∴P(A)=.4.某农业科技站对一批新水稻种子进行试验,已知这批水稻种子的发芽率为0.8,出芽后的幼苗成活率为0.9.在这批水稻种子中,随机地取出一粒,则这粒水稻种子发芽并能成长为幼苗的概率为() A.0.02 B.0.08 C.0.18 D.0.72“这粒水稻种子发芽”为事件A,“这粒水稻种子发芽并成长为幼苗”为事件AB,“这粒水稻种子在发芽的前提下能成长为幼苗”为事件B|A,则P(A)=0.8,P(B|A)=0.9,由条件概率公式,得P(AB)=P(B|A)·P(A)=0.9×0.8=0.72.5.市场上供应的灯泡中,甲厂占70%,乙厂占30%,甲厂产品的合格率是95%,乙厂产品的合格率是80%,则市场上灯泡的合格率是..5%A={甲厂产品},B={乙厂产品},C={合格产品},则C=AC+BC,所以P(C)=P(AC)+P(BC)=P(A)·P(C|A)+P(B)·P(C|B)=70%×95%+30%×80%=0.905=90.5%.6.设甲乘汽车、火车前往目的地的概率分别为0.6,0.4,汽车和火车正点到达目的地的概率分别为0.9,0.8,则甲正点到达目的地的概率为..86P=0.6×0.9=0.54,当甲乘火车时正点到达目的地的概率为P=0.4×0.8=0.32,所以甲正点到达目的地的概率为P=0.54+0.32=0.86.7.从一副不含大小王的52张扑克牌中不放回地抽取2次,每次抽1张,已知第1次抽到A,则第2次也抽到A的概率为多少?1次抽到A为事件M,第2次也抽到A为事件N,则MN表示两次都抽到A, P(M)=,P(MN)=,P(N|M)=.8.制造一机器零件,甲机床生产的废品率是0.04,乙机床生产的废品率是0.05,从它们生产的产品中各任取1件,求:(1)两件都是废品的概率;(2)其中没有废品的概率;(3)其中恰有1件废品的概率;(4)其中至少有1件废品的概率;(5)其中至多有1件废品的概率.“从甲机床生产的产品中抽得1件是废品”为事件A,“从乙机床生产的产品中抽得1件是废品”为事件B.则P(A)=0.04,P(B)=0.05.(1)P(AB)=P(A)P(B)=0.04×0.05=0.002.(2)P()=P()P()=0.96×0.95=0.912.(3)P(B+A)=P()P(B)+P(A)P()=0.96×0.05+0.04×0.95=0.086.(4)至少有一件是废品的对应事件为B+A+AB,易知B,A,AB是彼此互斥的三件事件.故所求概率为P=P(B+A+AB)=P(B+A)+P(AB)=0.086+0.002=0.088.(利用(1),(3)小题的结果)或考虑其对应事件“没有废品”,故P=1-P()=1-0.912=0.088.(5)“至多有一件是废品”即为事件B+A;其对立事件为“两件都是废品”:AB.故所求概率P=P(B+A)=1-P(AB)=1-0.002=0.998.。
统计案例(精讲)(提升版)(原卷版)
8.5 统计案例(精讲)(提升版)思维导图考点一独立性检验【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活动小组对高一学生进行了问卷调查,问卷共100道题,每题1分,总分100分,该课外活动小组随机抽取了100名学生的问卷成绩(单位:分)进行统计,将数据按照[0,20),[20,40),[40,60),[60,80),[80,100]分成5组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理科方向”学生.(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为“文科方向”与性别有关?理科方向文科方向总计男40女45考点呈现例题剖析总计 1001人,共抽取4次,记被抽取的4人中“文科方向”的人数为X ,若每次抽取的结果是相互独立的,求X 的分布列和数学期望.参考公式:()()()()22()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.参考临界值:()2P k αχ=0.10 0.05 0.025 0.010 0.005 0.001k2.7063.841 5.024 6.635 7.879 10.828【一隅三反】1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工序,每道工序的生产互不影响,这三道工序的次品率分别为118,119,120.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.0500.0100.0050.001 k 3.841 6.6357.87910.828(①P①100X(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列22⨯列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.甲型号乙型号合计满意不满意合计2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22⨯列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时 17 20 线上销售时间不足8小时合计45售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X ,求X 的分布列和数学期望. 附: ()20P K k ≥0.050 0.010 0.001 0k3.841 6.635 10.828参考公式:()()()()2 n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.考点二 线性回归方程【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y (单位:千度)进行了统计分析,得出下表数据:月份(x )5 6 7 8 日平均用电量(y )1.93.4t7.11.7877ˆ.0y x =-t 的值为( )A .5.8B .5.6C .5.4D .5.2【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iii ii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X ,求随机变量X 的分布列和数学期望.(视频率为相应事件发生的概率)【一隅三反】1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x 次 1 2 3 4 5 测试成绩y3940484850根据上表,可得关于的线性回归方程为ˆ3ˆy x a =+,下列结论不正确的是( )A .ˆ36a= B .这5次测试成绩的方差为20.8 C .y 与x 的线性相关系数0r < D .预测第6次体育测试的成绩约为542.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第i (i 1239)x =,,,,天的口罩的销售量i y (百件),得到的数据如下:99i i i=1i=145171x y ==∑∑,,()99922ii i i i=1i=1i=1312528510953x x y y y ==-=∑∑∑,,. 参考公式:相关系数()()()()iii=122iii=1i=1nnnx x y y r x x y y --=--∑∑∑数据()i i ()i 123x y n =,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计分别为()()()iii i1222i i11ˆˆˆnn i inni i x x y y x y nxybay bx x x xnx ===---===---∑∑∑∑, (1)若用线性回归模型ˆˆˆybx a =+拟合y 与x 之间的关系,求该回归直线的方程; (2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到i x 与i y 之间的关系,且模型2的相关系数20989r =.,试通过计算说明模型1,2中,哪一个模型的拟合效果更好. 3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iiiii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X,求随机变量X的分布列和数学期望.(视频率为相应事件发生的概率)考点三非线性回归方程【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个) 2.156 3.7278.30524.27936.224(1)根据表中数据判断,y a bx=+与e dxy c=(其中 2.71828e=…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;①每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;①在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =). 附:样本(),(1,2,,)i i x y i n =的最小二乘法估计公式为1221ˆni ii nii x y nx ybxnx==-=-∑∑,ˆa y bx=-.【一隅三反】1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x 1 2 3 4 5 市场规模y3.984.565.045.866.36参考数据: 5.16y =, 1.68v =,145.10i ii v y==∑,其中i i v x =.参考公式:对于一组数据()11v y ,,()22v y ,,…,()n n v y ,,其回归直线ˆˆˆybv a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i v y nvybv nv ==-=-∑∑,ˆˆay bv =-. (1)由上表数据可知,可用函数模型ˆˆyx a =拟合y 与x 的关系,请建立y 关于x 的回归方程(ˆa ,ˆb 的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p ,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X ,若()()34P X P X ===,求X 的分布列与期望.2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:ˆv . (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为z x x=,根据(1)的结果,问该公司哪一个月的月利润预报值最大? 参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.11 / 113.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y (单位:千万吨标准煤)的数据表格: 年份2016 2017 2018 2019 2020 年份代号x1 2 3 4 5 能源消费总量近似值y (单位:千万吨标准煤) 442 456 472 488 498以x 为解释变量,y 为预报变量,若以11为回归方程,则相关指数210.9946R ≈,若以22ˆln ya b x =+为回归方程,则相关指数220.9568R ≈. (1)判断11ˆyb x a =+与22ˆln y a b x =+哪一个更适宜作为能源消费总量近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程.参考数据:512356i i y ==∑,517212i i i x y ==∑.参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn ni i i ii i n n ii i i x x y y x y nxy b x x x nx ====---==--∑∑∑∑,ˆˆa y bx =-.。
第三章--统计案例-3.2-独立性检验的基本思想及其初步应用
解:由列联表中的数据,得 K2 的观测值为 1 633×30×1 355-224×242 k= ≈68.033>10.828. 254×1 379×54×1 579 因此,在犯错误的概率不超过 0.001 的前提下,认为每 一晚都打鼾与患心脏病有关.
为了调查某生产线上,某质量监督员甲对产
品质量好坏有无影响,现统计数据如下:质量监督员在现 场时,990件产品中合格品为 982 件,次品数为 8 件,甲不 在现场时,510件产品中合格品为493件,次品数为17件, 试分别用列联表、等高条形图、假设检验的方法对数据进
的方法来判断色盲与性别是否有关?你所得的结论在什么
范围内有效? 解:根据题目所给的数据作出如下的列联表: 色盲 不色盲 合计
男 女 合计
38 6 44
442 514 956
480 520 1 000
根据列联表作出相应的等高条形图,如图所示:
38 从等高条形图来看在男人中患色盲的比例480比在女人
38 6 6 中患色盲的比例520要大,其差值为480-520 ≈0.068,差
位统一,图形准确,但它不能给我们两个分类变量有关或
无关的精确的判断,若要作出精确的判断,可以进行独立 性检验的有关计算.
本题应首先作出调查数据的列联表,再根据列联表画
出等高条形图,并进行分析,ห้องสมุดไป่ตู้后利用独立性检验作出判 断.
在调查 480 名男士中有 38 名患有色盲, 520名女士中有6名患有色盲,分别利用图形和独立性检验
步
骤
③如果 k≥k0 ,就推断“X与Y有关系”,这种推断
犯错误的概率不超过α;否则,就认为在犯错误的概 率不超过α的前提下不能推断“X与Y有关系”,或者 在样本数据中没有发现足够证据支持结论“X与Y有 关系”.
1.2独立性检验的基本思想及其初步应用课件人教新课标
类型二 由K2进行独立性检验 例2 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病 人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下 表所示.
心脏搭桥手术 血管清障手术
总计
又发作过心脏病 39 29 68
未发作过心脏病 总计
157
196
167
196
324
392
试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别. 解 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没 有关系,由表中数据得a=39,b=157,c=29,d=167,a+b=196,c +d=196,a+c=68,b+d=324,n=392, 由公式得K2的观测值
解答
达标检测
1.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下列
联表:
喜欢程度
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
nad-bc2 由 K2=a+bc+da+cb+d算得,
110×40×30-20×202 k= 60×50×60×50 ≈7.8,
12345
附表:
12345
解析 答案
5.“全国文明城市”称号是最有价值的城市品牌,某市为创建第五届“全 国文明城市”,开展了“创建文明城市人人有责”活动.为了了解哪些人 更关注“创城”活动,随机抽取了年龄在10~70岁之间的100人进行调 查,并按年龄绘制如下频数散布表.
年龄(岁) [10,20) [20,30) [30,40) [40,50) [50,60) [60,70]
高中数学 第三章 统计案例 3.1 独立性检验 假设检验(h
假设检验(hypothesis testing)方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA)➢概述假设检验是分析数据的一种方法。
回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。
这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?”最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。
这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。
最有名的分布就是正态分布,它是:检验的基础。
t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。
➢适用场合·想知道一组或更多组数据的平均值、比例、方差或其他特征时;·当结论是基于更大总体中所取得的样本时。
例如:·想确定一个过程的均值或方差有否改变;·想确定很多数据集的均值或方差是否不同:·想确定两组不同的数据集的比例是否不同;·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。
➢实施步骤假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。
虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。
如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。
这些定义解释了假设检验的慨念,然后再回来看这个步骤。
本书不可能详细地涉及假设检验。
这个步骤是个综述和快速参考。
要得到更多的信息,查阅统计学参考书或请教统计学家。
1确定要从数据中获得的结论。
选择适当的检验方法。
用哪种检验取决于检验的目的和数据的种类。
独立性检验
99.9%把握认 为A与B有关
2 6.635
1%把握认为 A与B无关
99%把握认 为A与B有关
2 2.706 10%把握认为 90%把握认
A与B无关
为A与B有关
2 2.706
没有充分的依据显示A与B有关, 但也不能显示A与B无关
独立性检验
解:
吸烟 不吸烟
总计
患病 49 42 91
不患病 2099 7775 9874
P(χ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例如
2 10.828
0.1%把握认 为A与B无关
2
n(ad bc)2
(a c)(b d)(a b)(c d)
独立性检验
用χ2统计量研究 这类问题的方法
步骤
通过数据和图表分析,得到 结论是:吸烟与患病有关
结论的可靠 程度如何?
第一步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
a+c
不患病 b d
b+d
总计 a+b c+d a+b+c+d
某医疗机构为了了解呼吸道疾病与吸 烟是否有关,进行了一次抽样调查,共调 查了515个成年人,其中吸烟者220人,不 吸烟者295人,调查结果是:吸烟的220人 中37人患病, 183人不患病;不吸烟的 295人中21人患病, 274人不患病。
根据这些数据能否断定:患肺癌与 吸烟有关吗?
列2×2联 表
独立性检验的基本思想及其初步应用参考模板范本
反证法原理与独立性检验原理
反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
独立性检验原理:
在一个已知假设下, 如果一个与该假设 矛盾的小概率事件 发生,就推断这个 假设不成立。
患肺癌 42 0.54% 49 2.28% 91
总计 7817 2148 9965
100%
90%
等
80%
高
70%
条
60%
形
50%
图
40%
30%
20%10%0%源自不吸烟吸烟患肺癌 不患肺癌
不吸烟
吸烟 总计
不患肺癌 a
c a+c
患肺癌 b
d b+d
总计 a+b
c+d a+b+c+d
问3:a、b、c、d应该满足怎样的关系?
高二数学 选修 2-3
第三章 统计案例
3.2
独立性检验的
基本思想及其初步应用
视频
问题1 心脏病、肺癌、脑血管病等都与吸烟有关, 吸烟已成为继高血压之后的第二号全球杀手。 这些疾病与吸烟有关的结论是怎样得出的呢?
案 例:某肿瘤研究所为了研究吸烟是否对患肺癌 有影响,进行了一次随机抽样调查,共调查了9965 个成年人,其中吸烟者2148人,不吸烟者7817人。 调查结果如下表所示:
解:列出吸烟与是否患肺癌的2x2列联表如下
不吸烟 吸烟 总计
不患病 7775 2099 9874
患病 42 49 91
总计 7817 2148 9965
统计案例之独立性检验
统计案例之独立性检验班级姓名学号参考公式:,其中.1.在中学生综合素质评价某个维度的测评中,分优秀、合格、尚待改进三个等级进行学生互评.某校高一年级有男生500人,女生400人,为了了解性别对该维度测评结果的影响,采用分层抽样方法从高一年级抽取了45名学生的测评结果,并作出频数统计表如下:表一:男生表二:女生(1)从表二的非优秀学生中随机抽取2人交谈,求所选2人中恰有1人测评等级为合格的概率;(2)由表中统计数据填写下面的列联表,并判断是否有90%的把握认为“测评结果优秀与性别有关”.2.东亚运动会将于2013年10月6日在天津举行.为了搞好接待工作,组委会打算学习北京奥运会招募大量志愿者的经验,在某学院招募了16名男志愿者和14名女志愿者,调查发现,男女志愿者中分别有10人和6人喜爱运动,其余人不喜欢运动.(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关?(3)如果从喜欢运动的女志愿者中(其中恰有4人会外语),抽取2名负责翻译工作,那么抽出的志愿者中至少有1人能胜任翻译工作的概率是多少?3.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,现从高一学生中抽取人做调查,得到如下列联表:已知在这人中随机抽取一人抽到喜欢游泳的学生的概率为,(Ⅰ)请将上述列联表补充完整,并判断是否有%的把握认为喜欢游泳与性别有关?并说明你的理由;(Ⅱ)针对问卷调查的名学生,学校决定从喜欢游泳的人中按分层抽样的方法随机抽取人成立游泳科普知识宣传组,并在这人中任选两人作为宣传组的组长,求这两人中至少有一名女生的概率,4.某学校高三年级有学生1 000名,经调查,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B类同学),现用分层抽样方法(按A 类、B类分两层)从该年级的学生中共抽查100名同学,如果以身高达165 cm作为达标的标(1)完成上表;5.某校进行文科、理科数学成绩对比,某次考试后,各随机抽取100名同学的数学考试成绩进行统计,其频率分布表如下.(Ⅰ)根据数学成绩的频率分布表,求理科数学成绩的中位数的估计值;(Ⅱ)请填写下面的列联表,并根据列联表判断是否有90%的把握认为数学成绩与文理科有关:(Ⅲ)设文理科数学成绩相互独立,记表示事件“文科、理科数学成绩都大于等于120分”,估计的概率.答案:1.(1)设从高一年级男生中抽出人,则,,则从女生中抽取20人,所以,.表二中非优秀学生共5人,记测评等级为合格的3人为,,,尚待改进的2人为,,则从这5人中任选2人的所有可能结果为,,,,,,,,,,共10种,设事件表示“从表二的非优秀学生中随机选取2人,恰有1人测评等级为合格”,则的结果为,,,,,,共6种,所以,即所求概率为.(2)列联表如下:因为,,而,所以没有90%的把握认为“测评结果优秀与性别有关”.(2)根据已知数据可求得:K2=≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.(3)喜欢运动的女志愿者有6人,设喜欢运动的女志愿者分别为A,B,C,D,E,F,其中A,B,C,D会外语,则从这6人中任取2人,共15种取法.其中两人都不会外语的只有EF一种取法.故抽出的志愿者之中至少有1人能胜任翻译工作的概率是P=1-=.3.5.。
高中数学第一章统计案例2独立性检验2.2独立性检验2.3独立性检验的基本思想2.4独立性检验的应用课后巩固提升
2.4 独立性检验的应用[A组基础巩固]1.下列说法正确的个数是( )①对事件A与B的检验无关时,即两个事件互不影响;②事件A与B关系越密切,则χ2就越大;③χ2的大小是判定事件A与B是否相关的唯一根据;④若判定两个事件A与B有关,则A发生B一定发生.A.1 B.2C.3 D.4解析:两个事件检验无关,只是说明两个事件的影响较小;而判定两事件是否相关除了χ2公式外,还有许多方法.两事件有关,也只是说明当一个事件发生时,另一个事件发生的概率较大,但不一定必然发生.所以只有命题②正确.答案:A2.经过对χ2的统计量的研究,得到了若干个临界值,当χ2≤2.706时,我们认为( ) A.有95%的把握认为A与B有关系B.有99%的把握认为A与B有关系C.没有充分理由说明事件A与B有关系D.不能确定解析:利用临界值来判断,当χ2≤2.706时,没有充分理由说明事件A与B有关系.答案:C3.大学生和研究生毕业的一个随机样本给出了关于所获取学位类别与学生性别的分类数据如表所示:根据以上数据,则可以判定A.获取学位类别与性别有关B.获取学位类别与性别无关C.性别决定获取学位的类别D.以上都是错误的解析:χ2=340×(162×8-27×143)2189×151×305×35≈7.343>6.635.故有99%的把握认为获取学位类别与性别有关. 答案:A4.在吸烟与患肺病这两个变量的计算中,下列说法正确的是( )A .若χ2的值大于6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确 答案:C5.某班主任对全班50名学生进行了作业量的调查,数据如表( ) A .0.1 B .0.05 C .0.9D .0.95解析:∵χ2=50×(18×15-8×9)226×24×27×23≈5.059>3.841.∴有95%的把握认为学生性别与认为作业量大有关,或者说这种推断犯错误的概率不超过0.05. 答案:B6.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2≈27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”或“无关”) 解析:由χ2≈27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关. 答案:有关7.下列是关于出生男婴与女婴调查的列联表那么A =________,B ==________. 解析:由45+E =98得E =53, 由98+D =180可知D =82, 由A +35=D 知A =47.所以B =45+47=92,C =E +35=88. 答案:47 92 88 82 538.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:为了检验主修统计专业是否与性别有关系,根据表中的数据,得到χ2=50(13×20-10×7)223×27×20×30≈4.84,因为P (χ2>3.841)=0.05,所以断定主修统计专业与性别有关系,这种判断出错的可能性为________.解析:根据题意,如果P (χ2>3.841)=0.05,表示有95%的把握认为“X 与Y ”有关系,则这种判断出错的可能性为5%. 答案:5%9.从发生汽车碰撞事故的司机中抽取2 000名司机.根据他们的血液中是否含有酒精以及他们是否对事故负有责任,将数据整理如下:有关系?解析:根据列联表中的数据可以求得: χ2=2 000×(650×500-700×150)21 350×650×800×1 200≈114.9因为114.9>10.828,所以我们有99.9%的把握认为对事故负有责任与血液中含有酒精有关. 10.某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.能否在犯错误的概率不超过0.01的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系? 解析:根据题目所给数据得如下2×2列联表:χ2=1 500×(982×17-8×493)2990×510×1 475×25≈13.097>10.828.因此,在犯错误的概率不超过0.001的前提下,可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.[B 组 能力提升]1.假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其2×2列联表为:) A .a =5,b =4,c =3,d =2 B .a =5,b =3,c =4,d =2 C .a =2,b =3,c =4,d =5 D .a =3,b =2,c =4,d =5解析:对于同一样本,|ad -bc |越小,说明X 与Y 相关性越弱,而|ad -bc |越大,说明X 与Y 相关性越强,通过计算知,对于A ,B ,C 都有|ad -bc |=|10-12|=2.对于选项D 有|ad -bc |=|15-8|=7,显然7>2. 答案:D2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表3A .成绩B .视力C .智商D .阅读量解析:∵χ21=52×(6×22-14×10)216×36×32×20=52×8216×36×32×20,χ22=52×(4×20-16×12)216×36×32×20=52×112216×36×32×20,χ23=52×(8×24-12×8)216×36×32×20=52×96216×36×32×20,χ24=52×(14×30-6×2)216×36×32×20=52×408216×36×32×20,则有χ24>χ22>χ23>χ21,所以阅读量与性别关联的可能性最大.答案:D3.巴西医生马廷思收集的犯有各种贪污、受贿罪的官员与廉洁官员的寿命的调查资料如下:500名贪官中有348人的寿命小于平均寿命,152人的寿命大于或等于平均寿命;590名廉洁官员中有93人的寿命小于平均寿命,497人的寿命大于或等于平均寿命.这里,平均寿命是指“当地人均寿命”.通过数据分析,说明有________的把握认为贪官寿命小于平均寿命. 解析:根据题意列2×2列联表如下:假设H 0χ2=1 090×(348×497-152×93)2500×590×441×649≈325.635>6.635,因此拒绝H 0,即我们有99%的把握认为官员经济上是否清廉与他们的寿命长短有密切关系. 答案:99%4.在关于人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视;男性中有21人主要的休闲方式是看电视;男性、女性中另外的人主要的休闲方式是运动. (1)根据以上数据建立一个2×2的列联表; (2)判断性别与休闲方式是否有关系?解析:(1)依据题意得“性别与休闲方式”2×2列联表为:(2)由公式得χ2=70×54×64×60≈6.201.∵6.201>3.841,∴有95%的把握认为休闲方式与性别有关.5.某学校高三年级有学生1 000名,经调查研究,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B 类同学),现用分层抽样方法(按A 类、B 类分二层)从该年级的学生中共抽查100名同学,测得这100名同学身高(单位:厘米)频率分布直方图如图:(1)统计方法中,同一组数据常用该组区间的中点值(例如区间[160,170)的中点值为165)作为代表.据此,计算这100名学生身高数据的平均值;(2)如果以身高达170 cm 作为达标的标准,对抽取的100名学生,得到以下2×2列联表: 体育锻炼与身高达标2×2列联表①完成上表;②能否判定体育锻炼与身高达标有关系(χ2值精确到0.01)?解析:(1)数据的平均值为:145×0.03+155×0.17+165×0.30+175×0.30+185×0.17+195×0.03=170(cm). (2)①②χ2=100(75×25×50×50≈1.33<3.841.因此没有理由认为体育锻炼与身高达标有关系,即体育锻炼与身高达标无关.。
3.1独立性检验
n
n
同理可得:吸烟但未患病人数:n P( AB) n a b b d
n
n
不吸烟但患病人数: n P( AB) n c d a c
n
n
不吸烟且未患病人数:nຫໍສະໝຸດ P( AB) n c d b d
n
n
实际观测值
如果实际观测值与预 期估计值差异不“大”, 那么我们就可以认为 这些差异是由随机误 差造成的,即假设 H 0 不能被所给数据否定。 否则,应认为假设 H0 不能接受
将以上数据代入公式得:
2 11.8634,
吸烟
这个值是大还是小呢? 不吸烟
总计
患病 37 21 58
不患病 183 274 457
总计 220 295 515
统计学家估算出如下的概率: P( 2 6.635 ) 0.01
即在H0成立的情况下,2的值大于6.635的概率非常小,近似于0.01,即1%.
问题一:我们想要研究“吸烟与患呼吸道疾病的关系”时,需要研究 哪些量呢?
吸烟且患病的人数、不吸烟但患病的人数
为了研究这个问题,我们将是否吸烟与患病的数据用2×2列联表表示:
列联表:分类变量的汇总统计表(频数表)
一般地,假设有两个分类变量 X 和 Y,它们的取值分别为
{x1,x2}和{y1,y2},其样本频数表称为列联表 ,又称为 2×2 列联表,其形式为
(b n a b b d )2 (c n c d a c )2 (d n c d b d )2
n n
n n
nn
n a b bd
n cd a c
n cd bd
nn
nn
nn
化简得: 2 =
n(adb)c2
独立性检验
如果 A,B 无关,那么nn11与nn1+·nn+1 应 该很接近,nn12与nn1+·nn+2应该很 接近...
从而
χ (n11 _ n1+. nn+1)2
2=
n1+
.
n+1 n
+
(n12 _ n1+. nn+2)2
(n21 _ n2+. nn+1)2
n1+
.
n+2 n
+
n2+
.
n+1 n
+
( n22
事件A与B独立,有P(AB)=P(A)P(B) 成立。我们用H0表示上式,即H0: P(AB)=P(A) P(B)。并称之为统计假 设,当H0成立时,下面的三个式子也 成立:
P( AB)=P( A)P(B) P(A B)=P(A)P( B) P( A B)=P( A)P( B)
根据概率的统计定义,上面提 到的众多事件的概率都可以用相应 的频率来估计。
解:由公式得:
χ2 =
392 (39×167-29×157)2 68×324×196×196
≈1.780
因为1.780<3.841,我们没有 理由说“心脏搭桥手术”与“又 发生过心脏病”有关。
例3.某大型企业人力资源部为了 研究企业员工工作积极性和对待 企业改革态度的关系,随机抽取 了189名员工进行调查,所得的数 据如下表所示:
独立性检验
一、问题引入
警示:你快戒烟吧,否则一定 会患慢性气管炎的。
老年人患慢性气管炎与吸烟习 惯有没有关系呢?
二、案例分析
例1.为了探究患慢性气管炎与吸烟 是否有关,调查了339名50岁以上的 人,调查结果如下表所示:
高中数学第三章统计案例1独立性检验卡方检验素材苏教版
2χ检验(一)掌握内容1. 2χ检验的用途。
2. 四格表的2χ检验.(1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2χ检验。
3. 行⨯列表的2χ检验. (二) 熟悉内容频数分布拟合优度的2χ检验. (三) 了解内容1.2χ分布的图形。
2.四格表的确切概率法。
(一) 2χ检验的用途2χ检验(Chi —square test )用途较广,主要用途如下:1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2χ检验的基本思想1.2χ检验的基本思想是以2χ值的大小来反映理论频数与实际频数的吻合程度。
在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2χ值不应该很大,若实际计算出的2χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠).2. 基本公式:()∑-=TT A 22χ,A 为实际频数(Actual Frequency ),T 为理论频数(Theoretical Frequency ).四格表2χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2χ值是一致的。
(三)率的抽样误差与可信区间 1.率的抽样误差与标准误样本率与总体率之间存在抽样误差,其度量方法:np )1(ππσ-=,π为总体率,或 (8—1)np p S p )1(-=,p为样本率;(8—2)2.总体率的可信区间当n 足够大,且p 和1—p 均不太小,p 的抽样分布逼近正态分布.总体率的可信区间:(ppS u p S u p ⨯+⨯-2/2/,αα)。
(8—3)(四)2χ检验的基本计算见表8-1。
表8—1 2χ检验的用途、假设的设立及基本计算公式资料形式 用途 0H 、1H 的设立与计算公式 自由度 四格表 ①独立资料两 样本率的比较②配对资料两样本率的比较0H :两总体率相等 1H :两总体率不等①专用公式))()()(()(22d b c a d c b a n bc ad ++++-=χ②当n ≥40但1≤T 〈5时,校正公式))()()(()2/(22d b c a d c b a n n bc ad ++++--=χ③配对设计cb c b +--=22)1(χ1 R ⨯C 表 ①多个样本率、 0H :多个总体率(构成比)相等 (R —1)构成比的比较②两个变量之间关联性分析(0H:两种属性间存在关联)1H:多个总体率(构成比)不全相等(H:两种属性间存在关联))1(22-=∑CRnnAnχ(C—1)频数分布表频数分布的拟合优度检验H:资料服从某已知的理论分布1H:资料不服从某已知的理论分布∑-TTA2)(据频数表的组数而定(五)四格表的确切概率法当四格表有理论数小于1或n〈40时,宜用四格表的确切概率法。
“独立性检验”案例价值体现论文
“独立性检验”案例分析及价值体现一、教学背景介绍新课改提出的高中数学课程的总目标是:使学生在九年义务教育数学课程的基础上,进一步提高作为未来公民所必要的数学素养,以满足个人发展与社会进步的需要。
具体目标中还提及:通过不同形式的自主学习、探究活动,体验数学发现和创造的历程;发展数学应用意识和创新意识,逐步认识数学的应用价值,崇尚数学的理性精神等。
“独立性检验”这一节内容是苏教版选修1-2“第1章统计案例”中第一节的内容。
这一章内容是新课改中新增内容,从内容到教学都能很好地体现新课改的总体思想。
如果教法得当,能让学生充分感受到自主探究的乐趣,体会到数学的应用价值。
在此之前,学生通过必修3中“统计”一章的学习,已经具有部分统计的基础知识,但对于本节所涉及的统计知识,学生是完全陌生的。
二、教学目标分解1、知识与技能:通过典型案例的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
2、过程与方法:让学生经历由实际问题建立数学模型的过程,体会其基本方法。
3、情感、态度与价值观:让学生认识数学的科学价值、应用价值和文化价值,激发学生学习数学的兴趣。
4、重点、难点:重点是独立性检验的基本方法。
领会独立性检验的基本思想是学生学习中的难点。
三、教学过程实录(一)引例探究某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人。
调查的结果是:吸烟的220人中有37人患呼吸道疾病(以下简称患病),183人未患呼吸道疾病(以下简称未患病);不吸烟的295人中有21人患病,274人未患病。
问题1:根据这些数据能否断定:患呼吸道疾病与吸烟有关?分析:(1)列表:为了研究这个问题,我们先将以上数据用下表(表一)表示:患病未患病合计吸烟37 183 220不吸烟21 274 295合计58 457 515(2)粗略估计:在吸烟的人中,有的人患病;在不吸烟的人中,有的人患病。
高中数学 第一章 统计案例 1.2 独立性检验是如何判断
独立性检验是如何判断两个事件是否相互独立的独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量2χ应该很小.如果由观测数据计算得到的2χ的观测值很大,则在一定程度上说明假设不合理.根据随机变量2χ的含义,可以通过概率式评价该假设不合理的程度,由实际计算的2χ>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当2χ≤3.841时,认为两个分类变量是无关的.对于两事件而言即相互独立. 1.两个事件独立的判定例1: 为了研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进根据193个病人的数据,能否作出药的效果与给药方式有关的结论?请说明理由. 解:提出假设H 0:药的效果与给药方式无关系.根据列联表中的数据,得χ2=2193(58314064)122719895-⨯-⨯⨯⨯⨯≈1.3896<2.072.当H 0成立时,χ2>1.3896的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设H 0,即不能作出药的效果与给药方式有关的结论.注意:这是一个由列联表来验证的独立性检验问题,其结论是没有关系的假设成立.并且应该注意上述结论是对所有口服药物与注射药物的实验人而言的,绝不要误以为对被跟踪的193个跟踪研究对象成立.例2:调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表.试问能以多大把握认为婴儿的性别与出生时间有关系.分析:利用表中的数据通过公式计算出2χ统计量,可以用它的取值大小来推断独立性是否成立. 解:由公式()841.368892.35732345531826248922<≈⨯⨯⨯⨯-⨯⨯=χ 故婴儿的性别与出生时间是相互独立的(也可以说没有充分证据显示婴儿的性别与出生时间有关).2.两个事件不独立的判定例3:在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.利用独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?分析:列出22⨯列联表,利用公式求出2χ与两个临界值3.841与6.635比较大小得适当范围.解:根据题目所给数据得到如下表所示: 秃顶与患心脏病列联表由公式,得:()635.6373.167726651048389451175597214143722>≈⨯⨯⨯⨯-⨯⨯=χ 所以有99%的把握认为“秃顶与患心脏病有关”.说明:因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.例 4.某班主任对全班50名学生进行了作业量多少的调查,喜欢玩电脑游戏的同学认为作业多的有18人,认为作业不多的有9人,不喜欢玩电脑游戏的同学认为作业多的有8人,认为作业不多的有15人,则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约是多少?2x =059.523272426)981518(502=⨯⨯⨯⨯-⨯, ()024.52>x P =0.025,有97.5%的把握认为喜欢玩电脑游戏与认为作业多有关系.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计案例之独立性检验
班级姓名学号
参考公式:,其中.
1.在中学生综合素质评价某个维度的测评中,分优秀、合格、尚待改进三个等级进行学生
互评.某校高一年级有男生500人,女生400人,为了了解性别对该维度测评结果的影响,
采用分层抽样方法从高一年级抽取了45名学生的测评结果,并作出频数统计表如下:
表一:男生表二:女生
(1)从表二的非优秀学生中随机抽取2人交谈,求所选2人中恰有1人测评等级为合格的概率;
(2)由表中统计数据填写下面的列联表,并判断是否有90%的把握认为“测评结果优秀与性别有关”.
2.东亚运动会将于2013年10月6日在天津举行.为了搞好接待工作,组委会打算学习北
京奥运会招募大量志愿者的经验,在某学院招募了16名男志愿者和14名女志愿者,调查发现,男女志愿者中分别有10人和6人喜爱运动,其余人不喜欢运动.
(1)根据以上数据完成以下2×2列联表:
喜爱运动不喜爱运动总计
男10 16
女 6 14
总计30
(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关?
(3)如果从喜欢运动的女志愿者中(其中恰有4人会外语),抽取2名负责翻译工作,那么抽出的志愿者中至少有1人能胜任翻译工作的概率是多少?
3.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,
现从高一学生中抽取人做调查,得到如下列联表:
已知在这人中随机抽取一人抽到喜欢游泳的学生的概率为,
(Ⅰ)请将上述列联表补充完整,并判断是否有%的把握认为喜欢游泳与性别有关?
并说明你的理由;
(Ⅱ)针对问卷调查的名学生,学校决定从喜欢游泳的人中按分层抽样的方法随机抽取
人成立游泳科普知识宣传组,并在这人中任选两人作为宣传组的组长,求这两人中至少有一名女生的概率,
4.某学校高三年级有学生 1 000名,经调查,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B类同学),现用分层抽样方法(按A 类、B类分两层)从该年级的学生中共抽查100名同学,如果以身高达165 cm作为达标的标准,对抽取的100名学生,得到以下列联表:
身高达标身高不达标总计
经常参加体育锻炼40
不经常参加体育锻炼15
总计100
(1)完成上表;
5.某校进行文科、理科数学成绩对比,某次考试后,各随机抽取100名同学的数学考试成绩进行统计,其频率分布表如下.
(Ⅰ)根据数学成绩的频率分布表,求理科数学成绩的中位数的估计值;
(Ⅱ)请填写下面的列联表,并根据列联表判断是否有90%的把握认为数学成绩与文理科有关:
(Ⅲ)设文理科数学成绩相互独立,记表示事件“文科、理科数学成绩都大于等于120分”,估计的概率.
答案:
1.(1)设从高一年级男生中抽出人,则,,则从女生中抽取20人,
所以,.
表二中非优秀学生共5人,记测评等级为合格的3人为,,,尚待改进的2人为,,则从这5人中任选2人的所有可能结果为,,,,,,,,,,共10种,
设事件表示“从表二的非优秀学生中随机选取2人,恰有1人测评等级为合格”,则的结果为,,,,,,共6种,所以,即所求概率为.
(2)列联表如下:
因为,,
而,所以没有90%的把握认为“测评结果优秀与性别有关”.
2. (1)
喜爱运动不喜爱运动总计
男10 6 16
女 6 8 14
总计16 14 30
(2)根据已知数据可求得:
K2=≈1.157 5<2.706,
因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.
(3)喜欢运动的女志愿者有6人,设喜欢运动的女志愿者分别为A,B,C,D,E,F,其中A,B,C,D会外语,则从这6人中任取2人,共15种取法.其中两人都不会外语的只有EF
一种取法.故抽出的志愿者之中至少有1人能胜任翻译工作的概率是P=1-=.
3.
5.。