2015高考数学总复习专题系列——统计.板块五.独立性检验.学生版
高考数学 专题 独立性检验复习课件
(2)根据列联表可以得出什么样的结论?对以后的复习有什么指 导意义?
解: (2)计算可知,午休的考生及格率为 P1=
80 4 = ,不午休的考生 180 9
65 13 的及格率为 P2= = ,则 P1>P2,因此,可以粗略判断午休与考生 200 40
考试及格有关系,并且午休的及格率高,所以在以后的复习中考生 应尽量适当午休,以保持最佳的学习状态.
即时训练1-2: 如表是一个2×2列联表:
y1 y2 总计
x1
x2 总计
a
8 b
21
25 46
73
33 110
则表中a,b处的值分别为( C ) (A)94,96 (B)52,50 (C)52,60 (D)54,52
题型二 利用等高条形图判断两个分类变量是否相关 【例2】 为了解铅中毒病人与尿棕色素为阳性是否有关系,分 别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
方法技巧 利用列联表可以较好地看出两个分类变量是否具 有关系,如本题的午休与考试及格,类似地, 我们也可以用列联 表进行粗略估计吸烟与健康,读书年限与视力等变量间的关系.
即时训练1-1:班级与成绩2×2列联表:
优秀 甲班 乙班 10 7 不优秀 35 38 总计 45 p
总计
m
n
q
表中数据m,n,p,q的值应分别为( ) (A)70,73,45,188 (B)17,73,45,90 (C)73,17,45,90 (D)17,73,45,45 解析:由表中数据可知m,n,p,q的值分别为 17,73,45,90.故选B.
2×2列联表的定义 列出两个分类变量的 频数表 ,称为列联表。假设两个分类 变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表 (也称为2×2列联表)为
高考数学总复习考点知识与题型专题讲解72 列联表与独立性检验
高考数学总复习考点知识与题型专题讲解§9.4列联表与独立性检验考试要求1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解独立性检验及其应用.知识梳理1.分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.2.列联表与独立性检验(1)关于分类变量X和Y的抽样数据的2×2列联表:(2)计算随机变量χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.如表为5个常用的小概率值和相应的临界值.思考辨析判断下列结论是否正确(请在括号中打“√”或“×”)(1)2×2列联表中的数据是两个分类变量的频数.(√)(2)事件A和B的独立性检验无关,即两个事件互不影响.(×)(3)χ2的大小是判断事件A和B是否相关的统计量.(√)(4)在2×2列联表中,若|ad-bc|越小,则说明两个分类变量之间关系越强.(×) 教材改编题1.某机构为调查网游爱好者是否有性别差异,通过调研数据统计:在500名男生中有200名爱玩网游,在400名女生中有50名爱玩网游.若要确定网游爱好是否与性别有关时,用下列最适合的统计方法是()A.均值B.方差C.独立性检验D.回归分析答案 C解析由题意可知,“爱玩网游”与“性别”是两类变量,其是否有关,应用独立性检验判断.2.如表是2×2列联表,则表中a,b的值分别为()A.27,38 B.28,38C.27,37 D.28,37答案 A解析a=35-8=27,b=a+11=27+11=38.3.已知P(χ2≥6.635)=0.01,P(χ2≥10.828)=0.001.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235,则根据小概率值α=________的χ2独立性检验,分析喜欢该项体育运动与性别有关.答案0.01解析因为6.635<7.235<10.828,所以根据小概率值α=0.01的χ2独立性检验,分析喜欢该项体育运动与性别有关.题型一列联表与χ2的计算例1(1)为了解某大学的学生是否喜欢体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:则a-b-c等于()A.7 B.8 C.9 D.10答案 C解析根据题意,可得c=120-73-25=22,a=74-22=52,b=73-52=21,补充完整2×2列联表为:∴a-b-c=52-21-22=9.(2)为加强素质教育,使学生各方面全面发展,某学校对学生文化课与体育课的成绩进行了调查统计,结果如表:在对体育课成绩与文化课成绩进行独立性检验时,根据以上数据可得到χ2的值为() A.1.255 B.38.214C.0.003 7 D.2.058答案 A解析χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=337×(57×43-16×221)2278×59×73×264≈1.255.思维升华2×2列联表是4行4列,计算时要准确无误,关键是对涉及的变量分清类别.跟踪训练1某次国际会议为了搞好对外宣传工作,会务组选聘了50名记者担任对外翻译工作,在如表“性别与会外语”的2×2列联表中,a+b+d=________.答案44解析由题意得a+b+d+6=50,所以a+b+d=50-6=44.题型二列联表与独立性检验例2(2022·全国甲卷改编)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:(1)根据上表,分别估计这两家公司在甲、乙两城之间长途客车准点的概率;(2)能否根据小概率值α=0.1的独立性检验,分析甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.解(1)根据表中数据,A家公司共有班次260个,准点班次有240个,设A家公司长途客车准点事件为M,则P(M)=240260=1213;B家公司共有班次240个,准点班次有210个,设B家公司长途客车准点事件为N,则P(N)=210 240=78.所以A家公司长途客车准点的概率为12 13;B家公司长途客车准点的概率为7 8.(2)列联表如下:零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无关.χ2=500×(240×30-210×20)2260×240×450×50≈3.205>2.706=x 0.1,根据小概率值α=0.1的独立性检验,推断H 0不成立,即认为甲、乙两城之间的长途客车是否准点与客车所属公司有关. 思维升华 独立性检验的一般步骤 (1)根据样本数据制成2×2列联表.(2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算.(3)比较χ2与临界值的大小关系,作统计推断.跟踪训练2 为了减少自身消费的碳排放,“绿色消费”等绿色生活方式渐成风尚.为获得不同年龄段的人对“绿色消费”意义的认知情况,某地研究机构将“90后与00后”作为A 组,将“70后与80后”作为B 组,并从A ,B 两组中各随机选取了100人进行问卷调查,整理数据后获得如下列联表: 单位:人附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .(1)若从样本内知晓“绿色消费”意义的120人中用比例分配的分层随机抽样方法随机抽取16人,问应在A 组、B 组中各抽取多少人?(2)能否依据小概率值α=0.001的独立性检验,分析对“绿色消费”意义的认知情况与年龄有关?解 (1)由题意知,在A 组中抽取的人数为16×75120=10.在B 组中抽取的人数为16×45120=6.(2)零假设为H 0:对“绿色消费”意义的认知情况与年龄无关. 由题意,得χ2=200×(75×55-25×45)2120×80×100×100=18.75>10.828=x 0.001,故依据小概率值α=0.001的独立性检验,推断H 0不成立,即认为对“绿色消费”意义的认知情况与年龄有关. 题型三 独立性检验的综合应用例3 体育运动是强身健体的重要途径,《中国儿童青少年体育健康促进行动方案(2020-2030)》(下面简称“体育健康促进行动方案”)中明确提出青少年学生每天在校内参与不少于60分钟的中高强度身体活动的要求.随着“体育健康促进行动方案”的发布,体育运动受到各地中小学的高度重视,众多青少年的体质健康得到很大的改善.某中学教师为了了解体育运动对学生的数学成绩的影响情况,现从该中学高三年级的一次月考中随机抽取1 000名学生,调查他们平均每天的体育运动情况以及本次月考的数学成绩情况,得到如表数据:约定:平均每天进行体育运动的时间不少于60分钟的为“运动达标”,数学成绩排在年级前50%以内(含50%)的为“数学成绩达标”. (1)求该中学高三年级本次月考数学成绩的65%分位数;(2)请估计该中学高三年级本次月考数学成绩的平均分(同一组中的数据用该组区间的中点值作代表);(3)请根据已知数据完成下列列联表,并根据小概率值α=0.001的独立性检验,分析“数学成绩达标”是否与“运动达标”相关.附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(n =a +b +c +d ).解 (1)每组的频率依次为0.025,0.125,0.350,0.300,0.150,0.050,∵0.025+0.125+0.350=0.500<0.65,0.025+0.125+0.350+0.300=0.800>0.65, 且0.500+0.8002=0.65, 高三年级本次月考数学成绩的65%分位数位于[90,110)内,且为[90,110)的中点100, 该中学高三年级本次月考数学成绩的65%分位数为100. (2)该中学高三年级本次月考数学成绩的平均分x =0.025×40+0.125×60+0.350×80+0.300×100+0.150×120+0.050×140=91.50,估计该中学高三年级本次月考数学成绩的平均分为91.50分. (3)列联表如表所示:零假设为H 0:“数学成绩达标”与“运动达标”无关,χ2=1 000×(350×300-200×150)2550×450×500×500=1 00011≈90.9>10.828=x 0.001,∴根据小概率值α=0.001的独立性检验,推断H 0不成立,即认为“数学成绩达标”与“运动达标”有关.思维升华 独立性检验的考查,往往与概率和抽样统计图等一起考查,这类问题的求解往往按各小题及提问的顺序,一步步进行下去,是比较容易解答的,考查单纯的独立性检验往往用小题的形式,而且χ2的公式一般会在原题中给出.跟踪训练3 某网红奶茶品牌公司计划在W 市某区开设加盟分店,为了确定在该区开设分店的个数,该公司对该市已开设分店的5个区域的数据作了初步处理后得到下列表格,记x 表示在5个区域开设分店的个数,y 表示这x 个分店的年收入之和.(1)该公司经过初步判断,可用经验回归模型拟合y 与x 的关系,求y 关于x 的经验回归方程;(2)如果该公司最终决定在该区选择两个合适的地段各开设一个分店,根据市场调查得到如下统计数据,第一分店每天的顾客平均为30人,其中5人会购买该品牌奶茶,第二分店每天的顾客平均为80人,其中20人会购买该品牌奶茶.依据小概率值α=0.1的独立性检验,分析两个店的顾客下单率有无差异.参考公式:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ;χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),x 0.1=2.706.解 (1)由题意可得,x =2+3+4+5+65=4,y =2.5+3+4+4.5+65=4,∑i =15x i y i =2×2.5+3×3+4×4+5×4.5+6×6=88.5,∑i =15x 2i =22+32+42+52+62=90,设y 关于x 的经验回归方程为y ^=b ^x +a ^,则b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=88.5-5×4×490-5×42=0.85,a ^=y -b ^x =4-0.85×4=0.6,∴y 关于x 的经验回归方程为y ^=0.85x +0.6. (2)零假设为H 0:两个店的顾客下单率无差异,则 由题意可知2×2列联表如表所示:∴χ2=110×(25×20-5×60)230×80×85×25=4451≈0.863<2.706=x 0.1,∴根据小概率值α=0.1的独立性检验,没有充分证据推断H 0不成立,即两个店的顾客下单率没有差异.课时精练1.观察下列各图,其中两个分类变量x,y之间关系最强的是()答案 D解析观察等高堆积条形图易知D选项两个分类变量之间关系最强.2.下列关于独立性检验的说法正确的是()A.独立性检验是对两个变量是否具有线性相关关系的一种检验B.独立性检验可以100%确定两个变量之间是否具有某种关系C.利用χ2独立性检验推断吸烟与患肺病的关联中,若有99%的把握认为吸烟与患肺病有关系时,则我们可以说在100个吸烟的人中,有99人患肺病D.对于独立性检验,随机变量χ2的值越小,判定“两变量有关系”犯错误的概率越大答案 D解析对于A,独立性检验是通过卡方计算来判断两个变量存在关联的可能性的一种方法,并非检验二者是否是线性相关,故错误;对于B,独立性检验并不能100%确定两个变量相关,故错误;对于C,99%是指“抽烟”和“患肺病”存在关联的可能性,并非抽烟人中患肺病的发病率,故错误;对于D ,根据卡方计算的定义可知该选项正确.3.为了考察某种中成药预防流感的效果,抽样调查40人,得到如下数据:下表是χ2独立性检验中几个常用的小概率值和相应的临界值:根据表中数据,计算χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),若由此认为“该药物预防流感有效果”,则该结论出错的概率不超过( ) A .0.05 B .0.1 C .0.01 D .0.005 答案 A解析 由题意知,χ2=40×(2×12-8×18)210×30×20×20=4.8>3.841=x 0.05,由临界值表可知,认为“该药物预防流感有效果”,则该结论出错的概率不超过0.05. 4.(多选)(2022·郑州模拟)为考察一种新型药物预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的2×2列联表中,由列联表中的数据计算得χ2≈9.616.参照附表,下列结论正确的是( ) 附表:A.根据小概率值α=0.001的独立性检验,分析认为“药物有效”B.根据小概率值α=0.001的独立性检验,分析认为“药物无效”C.根据小概率值α=0.005的独立性检验,分析认为“药物有效”D.根据小概率值α=0.005的独立性检验,分析认为“药物无效”答案BC解析因为χ2≈9.616,所以7.879<χ2<10.828,所以根据小概率值α=0.001的独立性检验,分析认为“药物无效”.根据小概率值α=0.005的独立性检验,分析认为“药物有效”.5.(多选)(2023·南通模拟)根据分类变量x与y的观察数据,计算得到χ2=2.974,依据表中给出的χ2独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是()A.根据小概率值α=0.05的独立性检验,分析变量x与y相互独立B.根据小概率值α=0.05的独立性检验,分析变量x与y不相互独立C.变量x与y相互独立,这个结论犯错误的概率不超过0.1D.变量x与y不相互独立,这个结论犯错误的概率不超过0.1答案AD解析因为χ2=2.974>2.706,所以变量x与y不相互独立,这个结论犯错误的概率不超过0.1.6.为考查某种营养品对儿童身高增长的影响,选取部分儿童进行试验,根据100个有放回简单随机样本的数据,得到如下列联表,由表可知下列说法正确的是( )参考公式:χ2=n (ad -bc )2(a+b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:A.a =b =30 B .χ2≈12.667C .从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是35 D .根据小概率值α=0.001的独立性检验,可以认为该营养品对儿童身高增长有影响 答案 D解析 由题可知a =50-10=40,b =50-30=20,所以A 错误;χ2=100×(40×30-10×20)250×50×60×40≈16.667 >10.828=x 0.001,所以根据小概率值α=0.001的独立性检验,可以认为该营养品对儿童身高增长有影响,所以B 错误,D 正确;从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是40100=25,所以C 错误.7.如表是对于“喜欢运动”与性别是否有关的2×2列联表,依据表中的数据,得到χ2≈________(结果保留到小数点后3位).答案 4.722解析 χ2=85×(40×12-28×5)245×40×68×17≈4.722.8.一项研究同年龄段的男、女生的注意力差别的脑功能实验,其实验数据如表所示:则χ2=________(精确到小数点后三位),依据概率值α=0.05的独立性检验,该实验________该年龄段的学生在注意力的稳定性上对于性别没有显著差异(填拒绝或支持). 答案 0.538 支持解析由表中数据可知a=29,b=7,c=33,d=5,n=a+b+c+d=74,根据χ2=n(ad-bc)2(a+c)(c+d)(b+d)(a+b),计算可知χ2=74×(145-231)2(29+33)×(33+5)×(7+5)×(29+7)≈0.538<3.841=x0.05,所以没有充分证据认为学生在注意力的稳定性上与性别有关,即该实验支持该年龄段的学生在注意力的稳定性上对于性别没有显著差异.9.(2021·全国甲卷改编)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值α=0.01的独立性检验能否认为甲机床的产品质量与乙机床的产品质量有差异?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.解(1)根据题表中数据知,甲机床生产的产品中一级品的频率是150200=0.75,乙机床生产的产品中一级品的频率是120200=0.6.(2)零假设为H 0:甲机床的产品质量与乙机床的产品质量无差异, 根据题表中的数据可得χ2=400×(150×80-120×50)2200×200×270×130=40039≈10.256>6.635=x 0.01,所以依据小概率值α=0.01的独立性检验,推断H 0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异.10.某花圃为提高某品种花苗质量,开展技术创新活动,A ,B 在实验地分别用甲、乙方法培育该品种花苗.为观测其生长情况,分别在实验地随机抽取各50株,对每株进行综合评分,将每株所得的综合评分制成如图所示的频率分布直方图.记综合评分为80 及以上的花苗为优质花苗.(1)求图中a 的值,并求综合评分的中位数;(2)填写下面的2×2列联表,并根据小概率值α=0.01的独立性检验,分析优质花苗与培育方法是否有关,请说明理由.附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)由直方图的性质可知,0.005×10+0.010×10+0.025×10+10a +0.020×10=1, 解得a =0.040,因为(0.02+0.04)×10=0.6>0.5,所以中位数位于[80,90)内, 设中位数为x ,则有0.020×10+0.040×(90-x )=0.5,解得x =82.5. 故综合评分的中位数为82.5. (2)由(1)得优质花苗的频率为0.6, 所以样本中优质花苗的数量为60, 得如下列联表:零假设为H 0:优质花苗与培育方法无关,χ2=100×(20×10-30×40)260×40×50×50≈16.667>6.635=x 0.01,所以根据小概率值α=0.01的独立性检验,推断H 0不成立,即认为优质花苗与培育方法有关.11.在某病毒疫苗的研发过程中,需要利用基因编辑小鼠进行动物实验.现随机抽取100只基因编辑小鼠对该病毒疫苗进行实验,得到如下2×2列联表(部分数据缺失):计算可知,根据小概率值α=________的独立性检验,分析“给基因编辑小鼠注射该种疫苗能起到预防该病毒感染的效果”()附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.A.0.001 B.0.05C.0.01 D.0.005答案 B解析完善2×2列联表如下:零假设为H 0:“给基因编辑小鼠注射该种疫苗不能起到预防该病毒感染的效果”.因为χ2=100×(10×30-40×20)230×70×50×50≈4.762,3.841<4.762<6.635,所以根据小概率值α=0.05的独立性检验,推断H 0不成立,即认为“给基因编辑小鼠注射该种疫苗能起到预防该病毒感染的效果”. 12.(多选)有两个分类变量X ,Y ,其列联表如表所示.其中a ,15-a 均为大于5的整数,若依据α=0.05的独立性检验可以认为X 与Y 有关,则a 的可能取值为( ) A .6 B .7 C .8 D .9 答案 CD解析 根据a >5且15-a >5,a ∈Z ,知a 可取6,7,8,9.由表中数据及题意,得χ2=65×[a (30+a )-(15-a )(20-a )]220×45×15×50=13×(13a -60)220×45×3×2≥3.841=x 0.05,结合选项,知a 的可能取值为8,9.13.(多选)在一次恶劣天气的飞行航程中,调查男、女乘客在飞机上晕机的情况,得到如下列联表:(单位:人),则( )A.a c <6d B .χ2<2.706C .依据小概率值α=0.1的独立性检验,可以认为在恶劣天气的飞行航程中,是否晕机与性别有关D .依据小概率值α=0.1的独立性检验,可以认为在恶劣天气的飞行航程中,是否晕机与性别无关 答案 BD解析 由题中列联表数据,知⎩⎪⎨⎪⎧ a +6=e ,15+b =28,a +15=c ,6+b =d ,e +28=46,c +d =46,解得⎩⎪⎨⎪⎧a =12,b =13,e =18,c =27,d =19.所以得到如下列联表:所以a c =1227=49>619=6d ,即A 错误;零假设为H 0:在恶劣天气的飞行航程中,是否晕机与性别无关,由列联表中的数据,得χ2=46×(12×13-6×15)218×28×19×27≈0.775<2.706=x 0.1,依据小概率值α=0.1的独立性检验,没有充分证据推断H 0不成立,因此可以认为H 0成立,即在恶劣天气的飞行航程中,是否晕机与性别无关,所以B ,D 正确,C 错误. 14.为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:若在本次考察中得出“在犯错误的概率不超过0.01的前提下认为药物有效”的结论,则a 的最小值为________.(其中a ≥40且a ∈N *)(参考数据:6.635≈2.58,10.828≈3.29)附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .答案 46解析 由题意可得χ2=100[a (a -30)-(50-a )(80-a )]250×50×80×20≥6.635,整理得(100a -4 000)2≥502×42×6.635,所以100a -4 000≥200× 6.635≈200×2.58=516或100a -4 000≤-200× 6.635≈-200×2.58=-516,解得a ≥45.16或a ≤34.84, 又因为a ≥40且a ∈N *, 所以a ≥46, 所以a 的最小值为46.。
高三独立性检验知识点总结
高三独立性检验知识点总结高三是每个学生都将经历的重要时刻,而对于理科生来说,数学是其中最关键的一门学科。
而在数学中,统计学更是高中数学中的重要组成部分。
在统计学中,独立性检验是一个非常重要的概念和方法,它用于判断两个变量之间是否存在相关性。
本文将对高三独立性检验的相关知识点进行总结。
首先,我们需要了解什么是独立性检验。
独立性检验是用于检验两个变量之间是否存在相关性的一种统计方法。
在进行独立性检验时,我们通常有两个变量,一个为自变量,另一个为因变量。
我们的目标是通过样本数据来判断自变量与因变量之间是否存在相关性。
如果两个变量之间存在相关性,我们可以得出结论说它们之间不是独立的;如果两个变量之间没有相关性,我们可以得出结论说它们之间是独立的。
在独立性检验中,我们常用的方法是卡方检验。
卡方检验是一种常用的统计方法,用于判断两个变量之间是否存在相关性。
在进行卡方检验时,我们通常会建立一个观察值和期望值的对比表格。
观察值是通过实际的样本数据得出的,而期望值则是通过某种假设或模型推算出来的。
通过比较观察值和期望值的差异,我们可以判断两个变量之间是否存在相关性。
独立性检验的核心思想是通过计算观察值和期望值的差异,并根据差异的显著性来判断两个变量之间的关系是否存在。
在卡方检验中,我们通常要计算一个统计量,称为卡方值。
卡方值越大,说明观察值和期望值的差异越大,从而说明两个变量之间的相关性越强。
而卡方值的显著性则需要进行假设检验,通常使用显著性水平来进行判断。
如果卡方值小于显著性水平,则我们可以得出结论说两个变量之间不存在相关性;如果卡方值大于显著性水平,则我们可以得出结论说两个变量之间存在相关性。
在进行独立性检验时,我们还需要注意一些常见的误区和注意事项。
首先,样本容量要足够大。
只有样本容量足够大时,我们才能够得到可靠的统计推断。
其次,变量的取值要具有一定的多样性。
如果变量的取值过于集中,样本数据的信息就会不足,从而影响独立性检验的结果。
2015届高考数学一轮总复习 10-3相关关系、回归分析与独立性检验
2015届高考数学一轮总复习 10-3相关关系、回归分析与独立性检验基础巩固强化一、选择题1.(文)(2013·长春调研)已知x ,y 的取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ) A .1.30 B .1.45 C .1.65 D .1.80 [答案] B[解析] 依题意得,x -=16×(0+1+4+5+6+8)=4,y -=16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25.又直线y ^=0.95x +a 必过样本中心点(x -,y -),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45,选B.(理)(2013·衡阳联考)已知x 与y 之间的一组数据:已求得y 关于x 的线性回归方程y =2.1x +0.85,则m 的值为( ) A .1B .0.85C .0.7D .0.5 [答案] D[解析] ∵x -=1.5,代入y ^=2.1x +0.85中得,y -=4, ∴14(m +3+5.5+7)=4,∴m =0.5. 2.(2012·东北三校模拟)某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有( )的把握认为“学生性别与支持活动有关系”.( )A .0.1%B .1%C .99%D .99.9%附:[答案] [解析] 由题意得,从给出的附表中可得P (χ2≥6.635)=0.010,又7.069∈(6.635,10.828),所以有99%的把握性认为学生性别与支持该活动有关系,故选C.3.(2012·新课标全国,3)在一组样本数据(x 1,y 1)、(x 2,y 2)、…、(x n ,y n )(n ≥2,x 1,x 2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0C.12D .1[答案] D[解析] 样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y =12x +1上,样本的相关系数应为1.要注意理清相关系数的大小与相关性强弱的关系. 4.(文)某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.6万元 B .65.5万元 C .67.7万元 D .72.0万元[答案] B[解析] 此题必须明确回归直线方程过定点(x ,y ).易求得x =3.5,y =42,则将(3.5,42)代入y ^=b ^x +a ^中得:42=9.4×3.5+a ^,即a ^=9.1,则y =9.4x +9.1,所以当广告费用为6万元时销售额为9.4×6+9.1=65.5万元.(理)(2013·辽宁六校联考)某产品在某零售摊位上的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得回归直线方程y =b x +a 中的b =-4,据此模型预计零售价定为15元时,每天的销售量为( )A .48个B .49个C .50个D .51个 [答案] B[解析] 由题意知x -=17.5,y -=39,代入回归直线方程得a ^=109,109-15×4=49,故选B. 5.(文)(2013·福州模拟)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程为y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性相关系数r 和相关指数R 2都是描述线性相关强度的量,r 和R 2越大,相关强度越强. ④在一个2×2列联表中,计算得χ2=13.079,则有99%的把握确认这两个变量间有关系. 其中错误..的个数是( ) A .0 B .1 C .2D .3本题可以参考独立性检验临界值表:[答案] [解析] 方差反映的是波动大小的量,故①正确;②中由于-5<0,故应是负相关,当x 每增加1个单位时,y 平均减少5个单位,∴②错误;相关系数r 是描述线性相关强度的量,|r |越接近于1,相关性越强,在线性相关的两个变量的回归直线方程中,R 2是描述回归效果的量,R 2越大,模型的拟合效果越好,故③错误;④显然正确.(理)(2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg [答案] D[解析] D 项中身高为170cm 时,体重“约为”58.79,而不是“确定”,回归方程只能作出“估计”,而非确定“线性”关系.6.下面是一个2×2的列联表则表中a 、b A .44,54 B .52,46 C .54,46 D .52,54 [答案] B[解析] 由a +21=73得,a =52, 由54+b =100得,b =46,故选B. 二、填空题7.(2013·唐山统一考试)考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50cm 时,肱骨长度的估计值为________cm.[答案] 56.19[解析] y ^=1.197×50-3.66=56.19(cm).8.(2013·广东梅州一模)在2012年8月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归直线方程是:y ^=-3.2x +40,且m +n =20,则其中的n =________.[答案] 10[解析] x -=9+9.5+m +10.5+115=8+m 5,y -=11+n +8+6+55=6+n 5,线性回归直线一定经过样本中心(x -,y -),即6+n 5=-3.2(8+m 5)+40,即3.2m +n =42,又∵m +n =20,即⎩⎪⎨⎪⎧ 3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.9.以下四个命题:①从匀速传递的产品生产流水线上,质检员每20min 从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量χ2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的序号是________. [答案] ②③ 三、解答题10.为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩:(1)(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理性建议.[解析] (1)x -=100+-12-17+17-8+8+127=100;y -=100+-6-9+8-4+4+1+67=100;∴s 2数学=9947=142,s 2物理=2507, 从而s 2数学>s 2物理,∴物理成绩更稳定.(2)由于x 与y 之间具有线性相关关系,根据回归系数公式得到b ^=∑i =17x i y i -7x -y-∑i =17x 2i -7x -2=497994≈0.5, a ^=y --b ^x -=100-0.5×100=50, ∴回归直线方程为y ^=0.5x +50.当y =115时,x =130,即该生物理成绩达到115分时,他的数学成绩大约为130分.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.能力拓展提升一、选择题11.(文)(2013·合肥检测)由数据(x 1,y 1),(x 2,y 2),…,(x 10,y 10)求得线性回归方程y ^=b ^x +a ^,则“(x 0,y 0)满足线性回归方程y ^=b ^x +a ^”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件[答案] B[解析] x 0,y 0为这10组数据的平均值,又因为回归直线y ^=b ^x +a ^必过样本中心点(x -,y -),因此(x 0,y 0)一定满足线性回归方程,但坐标满足线性回归方程的点不一定是(x -,y -).(理)(2013·福建)已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′[答案] C[解析] 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑i =16x i y i -6x ·y ∑i =16x 2i -6x2=58-6×72×13691-6×(72)2=57,a ^=y --b ^x -=136-57×72=-13,所以b ^<b ′,a ^>a ′. 12.(2013·河北模拟)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3[答案] A[解析] 由相关系数的定义以及散点图所表达的含义,可知r 2<r 4<0<r 3<r 1,故选A. 二、填空题13.(2013·乌鲁木齐第一次诊断)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归直线方程y ^=0.67x +54.9.表中一个数据模糊不清,经推断,该数据的值为______. [答案] 68[解析] 设模糊不清部分的数据为m , x -=10+20+30+40+505=30,由y ^=0.67x +54.9过点(x -,y -)得,y -=0.67×30+54.9=75, 所以62+m +75+81+895=75,m =68.三、解答题14.(文)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=bx +a ,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?(注:b =∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a =y --b x -) [解析](1)散点图如右图.(2)由表中数据得∑i =14x i y i =52.5,x -=3.5,y -=3.5,∑i =14x 2i =54,∴b =0.7.∴a =1.05.∴y ^=0.7x +1.05.回归直线如图所示.(3)将x =10代入回归直线方程得,y =0.7×10+1.05=8.05(小时), ∴预测加工10个零件需要8.05小时.(理)在某医学实验中,某实验小组为了分析某药物用药量与血液中某种抗体水平的关系,选取六只实验动物进行血检,得到如下资料:记s 为抗体指标标准差,若抗体指标落在(y -s ,y +s )内,则称该动物为有效动物,否则称为无效动物.研究方案规定先从六只动物中选取两只,用剩下的四只动物的数据求线性回归方程,再对被选取的两只动物数据进行检验.(1)求选取的两只动物都是有效动物的概率;(2)若选取的是编号为1和6的两只动物,且利用剩余四只动物的数据求出y 关于x 的线性回归方程为y ^=0.17x +a ,试求出a 的值;(3)若根据回归方程估计出的1号和6号动物抗体指标数据与检验结果误差都不超过抗体指标标准差,则认为得到的线性回归方程是可靠的.试判断(2)中所得线性回归方程是否可靠.参考公式:样本数据x 1,x 2,…,x n 的标准差: S =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],其中x -为样本平均数. [解析] (1)y -=3.9,s ≈0.31.故1、6号为无效动物,2、3、4、5号为有效动物.记从六只动物中选取两只为事件A .所有可能结果为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)共15种.满足题意的有(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共6种.故P (A )=615=25.(2)对于2、3、4、5号动物,x -=4.5,y -=3.925, 代入y ^=0.17x +a 得a =3.16.(3)由y ^=0.17x +3.16得y ^1=3.33,y ^6=4.52.误差e 1=0.07,e 6=0.22,均比标准差s ≈0.31小,故(2)中回归方程可靠.15.(文)(2013·海口调研)某中学研究性学习小组,为了考查高中学生的作文水平与爱看课外书的关系,在本校高三年级随机调查了50名学生.调查结果表明:在爱看课外书的25人中有18人作文水平好,另7人作文水平一般;在不爱看课外书的25人中有6人作文水平好,另19人作文水平一般.(1)试根据以上数据完成以下2×2列联表,并运用独立性检验思想,指出有多大把握认为中学生的作文水平与爱看课外书有关系?高中学生的作文水平与爱看课外书的2×2列联表(2)名爱看课外书且作文水平一般的学生也分别编号为1、2、3、4、5,从这两组学生中各任选1人进行学习交流,求被选取的两名学生的编号之和为3的倍数或4的倍数的概率.附表:K 2(或χ2)=n (ad -bc )(a +b )(c +d )(a +c )(b +d )[解析] (1)2×2列联表如下:因为K 2(或χ2)=50×(18×19-6×7)25×25×24×26=15013≈11.538>10.828.由表知,P (K 2或χ2≥10.828)≈0.001.故有99.9%的把握认为中学生的作文水平与爱看课外书有关系.(2)设“被选取的两名学生的编号之和为3的倍数”为事件A ,“被选取的两名学生的编号之和为4的倍数”为事件B .因为事件A 所包含的基本事件为:(1,2),(1,5),(2,1),(2,4),(3,3),(4,2),(4,5),(5,1),(5,4),共9个,基本事件总数为5×5=25.所以P (A )=925.因为事件B 所包含的基本事件为:(1,3),(2,2),(3,1),(3,5),(4,4),(5,3),共6个. 所以P (B )=625.因为事件A 、B 互斥, 所以P (A ∪B )=P (A )+P (B )=925+625=35. 故被选取的两名学生的编号之和为3的倍数或4的倍数的概率是35.(理)(2013·福建泉州一模)甲、乙两台机床生产同一型号零件.记生产的零件的尺寸为t (cm),相关行业质检部门规定:若t ∈(2.9,3.1],则该零件为优等品;若t ∈(2.8,2.9]∪(3.1,3.2],则该零件为中等品;其余零件为次品.现分别从甲、乙机床生产的零件中各随机抽取50件,经质量检测得到下表数据:试根据样本估计总体的思想,估算甲机床生产一件零件的利润的数学期望;(2)对于这两台机床生产的零件,在排除其他因素影响的情况下,试根据样本估计总体的思想,估计约有多大的把握认为“零件优等与否和所用机床有关”,并说明理由.参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).参考数据:[解析]则有E (X )=3×0.8+1×0.14所以,甲机床生产一件零件的利润的数学期望为2.48元.(2)由表中数据可知:甲机床优等品40个,非优等品10个;乙机床优等品30个,非优等品20个.制作2×2列联表如下:计算K 2的观测值k =100(40×20-30×10)50×50×70×30=10021≈4.762.考察参考数据并注意到3.841<4.762<5.024,可知:对于这两台机床生产的零件,在排除其他因素影响的情况下,根据样本估计总体的思想,约有95%的把握认为“零件优等与否和所用机床有关”.考纲要求1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程,了解回归分析的基本思想、方法及其简单应用.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. 补充说明 1.散点图将样本中n 个数据点(x i ,y i )(i =1,2,…,n )描在平面直角坐标系中,表示两个变量关系的一组数据的图形叫做散点图.2.回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:①画散点图,②求回归直线方程,③用回归直线方程作预报.3.回归直线:观察散点图的特征,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.4.相关指数R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2,R 2越接近于1,模型的拟合效果越好.备选习题1.(2013·福建厦门质检)某雷达测速区规定:凡车速大于或等于80km/h 的汽车视为“超速”,并将受到处罚.如图是某路段的一个检测点对200辆汽车的车速进行检测所得结果的频率分布直方图,则从图中可以看出被处罚的汽车大约有()A .20辆B .40辆C .60辆D .80辆 [答案] A[解析] 时速大于或等于80km/h 的汽车频率为0.01×10=0.1,故被处罚的汽车有0.1×200=20(辆),故选A.2.有甲、乙两个班级进行数学考试,按照大于等于85分的优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )参考公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )附表:A.列联表中c B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” [答案] C[解析] 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到K 2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”,选项C 正确.3.(2013·衡水中学六模)现对某市工薪阶层关于“楼市限购令”的态度进行调查,随机调查了50人,他们月收入的频数分布及对“楼市限购令”赞成人数如下表.点对‘楼市限购令’的态度有差异”;人中不赞成“楼市限购令”人数至多1人的概率.K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )[解析] (1)2×2列联表k=50×(3×11-7×29)2(3+7)(29+11)(3+29)(7+11)≈6.27<6.635.所以没有99%的把握认为月收入以5500为分界点对“楼市限购令”的态度有差异.(2)从月收入在[15,25),[25,35)的被调查人中各随机选取1人,共有50种取法,其中恰有两人都不赞成“楼市限购令”共有2种取法,所以至多1人不赞成“楼市限购令”共有48种方法,所以P=4850=2425.。
统计.板块五.独立性检验.学生版
一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法: ⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法. ②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法. ⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设N k n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++- ,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样. ⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点: ⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样. ⑸简单随机抽样的每个个体入样的可能性均为n N.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取N k n=;若N n不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块五.独立性检验然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤: ①计算极差:找出数据的最大值与最小值,计算它们的差; ②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组; ④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤: ①将数据分为“茎”、“叶”两部分; ②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++- .五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系. 2.散点图:将样本中的n 个数据点()(12)i i x y i n = ,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n n n n ,,,4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆy a bx =+,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n = ,,,,且回归直线方程为ˆya bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y y i n -= ,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.记21()nii i Q ya bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式:1221ˆnii i n ii xy nxybxnx==-=-∑∑,ˆˆa y bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有: ①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆa b,的计算公式为 1122211()()()()nnii ii i i nniii i xx y y xy n x y bxx xn x ====---==--∑∑∑∑ ,ˆˆay bx =-,其中11nii x x n==∑,11nii y y n ==∑由此得到的直线ˆˆya bx =+ 就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii iixx y y x yn x yr ---==∑∑6.相关系数r 的性质:⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222ii i i i i i iQ ya bx ya y nab x y ab x bx =--=-+-++∑∑∑∑∑∑22222()2i iii i ina a b x y b xb x y y =+-+-+∑∑∑∑∑,把上式看成a 的二次函数,2a 的系数0n >, 因此当2()2i i i ib x y y b x a nn--=-=∑∑∑∑时取最小值.同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2iiiix y a xb x-=∑∑∑时取最小值.解得:12221()()()nii ii i n iii xy nxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-,其中1iy y n=∑,1ix x n=∑是样本平均数.9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ; ④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明: ⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%. ⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系. ⑶这里的r是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握典例分析性有( )A .90%B .95%C .99%D .99.5%【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【例6】 某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【例7】 某班主任对全班50名学生进行了作业量的调查,数据如下表:A .99%B .95%C . 90%D .无充分根据【例8】 下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?【例9】 在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:【例12】气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?【例13】 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动. ⑴根据以上数据建立一个22⨯的联表;⑵判断性别与休闲方式是否有关系.【例14】 (2010课标全国卷Ⅰ高考)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:⑵能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? ⑶根据⑵的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:22()()()()()n ad bc Ka b c d a c b d -=++++【例15】 某校高三年级在一次全年级的大型考试中,数学优秀的有360人,非优秀的有880人.数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?【例16】 (2010辽宁高考)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .⑴甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;⑵下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:2m m ) 表1:注射药物A 后皮肤疱疹面积的频数分布表频率疱疹面积频率疱疹面积图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图(ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:附:2()K ()()()()n ad bc a b c d a c b d -=++++【例17】 (2009辽宁20)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm )的值落在[)29.9430.06,的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,的结果如下表:⑵由于以上统计数据填下面22⨯列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.智康高中数学.板块五.独立性检验.题库 11附:()()2211221221212120.050.013.841p k n n n n n n n n n kχχ++++- = 6.635≥,。
2015届高考数学二轮专题板块案例分析:统计.板块五.独立性检验 (北师大版)
板块五.独立性检验题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握性有( )A .90%B .95%C .99%D .99.5%【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【例6】 某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【例7】 某班主任对全班50名学生进行了作业量的调查,数据如下表:认为作业量大 认为作业量不大 总计男生 189 27 女生 815 23 总计 2624 50 则学生的性别与作业量的大小有关系的把握大约为( ) A .99% B .95% C . 90% D .无充分根据【例8】下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?喝过酒没喝过酒总计男生77 404 481女生16 122 138总计93 526 619【例9】在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?有效无效合计口服58 40 98注射64 31 95合计122 71 193【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:种子处理种子未处理合计得病32 101 133不得病61 213 274合计93 314 407根据以上数据,请问种子经过处理跟是否生病有关?。
专题一、独立性检验题型归纳
专题一、独立性检验题型一、独立事件的判断1、独立事件的定义:对于两个事件A 、B ,如果有P(AB)=P(A)P(B)就称事件A 与B 互相独 立,简称A 与B 独立.2、当事件A 与B 独立时,事件A 与B 、A 与B 、A 与B 也独立.【例1】从一副52X 扑克牌(不含大小王)中,任意抽一X 出来,设事件A :“抽到黑桃”, B:“抽到皇后Q ”,试用P(AB)=P(A)·P(B)验证事件A 与B 及A 与B 是否独立?【变式1】设两个独立事件A 和B 都不发生的概率为19,A 发生B 不发生的概率与B 发生A不发生的概率相同,则事件A 发生的概率P(A)是( )A 、29B 、118C 、13D 、23【变式2】掷一枚硬币,记事件A :“出现正面”,B :“出现反面”,则有( )A 、A 与B 相互独立 B 、P(AB)=P(A)·P(B)C 、A 与B 不相互独立D 、P(AB)=14【变式3】坛子中放有3个白球,2个黑球,从中进行不放回地摸球,用A 表示第一次摸到 白球,B 表示第二次摸到白球,则A 与B 是( )A 、互斥事件B 、相互独立事件C 、对立事件D 、不相互独立事件【变式4】假设生男孩和生女孩是等可能的,设事件A 为“一个家庭中既有男孩,又有女孩”,事件B 为“一个家庭中最多有一个女孩”.某一家庭有三个小孩,则事 件A 与B 是否独立?【变式5】(1)甲、乙两名射手同时向一目标射击,设事件A :“甲击中目标”,事件B : “乙击中目标”,则事件A 与事件B ( )A 、相互独立但不互斥B 、互斥但不相互独立C 、相互独立且互斥D 、既不相互独立也不互斥(2)掷一颗骰子一次,设事件A :“出现偶数点”,事件B :“出现3点或6点”, 则事件A ,B 的关系是( )A 、互斥但不相互独立B 、相互独立但不互斥C 、互斥且相互独立D 、既不相互独立也不互斥题型二、独立性检验1、2×2列联表判断两个事件A 、B 是否有关,我们可以把A 发生、A 不发生(A )、B 发生、B 不发生(B )注意:(1)作独立性检验时,要求2×2列联表中的4个数据都要大于等于5。
高中数学独立性检验
结论的可靠 程度如何?
通过数据和图表分析,得到结论是: 吸烟与患呼吸道病有关
H0: 吸烟 和患呼吸道疾病没有关系
完整版课件ppt
12
3、计算 2
吸烟与患呼吸道疾病关系列联表
吸烟 不吸烟
总计
患病
n11 n21
n 1
不患病
n12
n 22
n2
吸烟的人中患病的比例:
不吸烟的人中患病的比例:
n 11 n 1
不吸烟
吸烟
完整版课件ppt
患病 比例
患患病肺癌 不不患患病肺癌
不患病 比例
7
初步结论:
问题1:吸烟与不吸烟,患病的可能性的大小是 否有差异?
吸烟者和不吸烟者患呼吸道疾病的可能性存在差 异,吸烟者患呼吸道疾病的可能性大
问题2:差异大到什么程度才能作出“吸烟与患病有 关”的判断?
问题3:能否用数量刻画出“有关”的程度?
250 200 150 100
50 0
不患患肺病癌 患患病肺癌
吸烟 不吸烟
三维柱 状图
不吸烟 吸烟
完整版课件ppt
5
2) 通过图形直观判断
350 300 250 200 150 100
50 0 不吸烟
吸烟
完整版课件ppt
二维条 形图
患肺病癌 不患患肺病癌
6
3)通过图形直观判断
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
吸烟 37
183 220
不吸烟 21
274 295
总计 58
通过公式计算
457 515
2 n(n11n12n12n21)2
n1n2n1n2
高考数学专题复习:独立性检验
高考数学专题复习:独立性检验一、单选题1.某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有97.5%的把握但没有99%的把握认为偏爱蔬菜还是肉类与性别有关,则2K 的观测值可能为( ) k 2.706 A .2 3.206K =B .2 6.625K =C .27.869K =D .211.208K =2.某校为了解学生“玩手机游戏”和“学习成绩”是否有关,随机抽取了100名学生,运用2×2列联表进行独立性检验,经计算得到2 3.936K =,所以判定玩手机游戏与学习成绩有关系,那么这种判断出错的可能性为( )A .1%B .5%C .95%D .99%3.某校为了调查喜欢语文与性别的关系,随机调查了一些学生,数据如下表,由此判断喜欢语文与性别有关系,那么这种判断出错的可能性为( )()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .99.5%B .5%C .0.5%D .95%4.以下四个命题,其中正确的个数有( )①在独立性检验中,随机变量2K 的观测值越大,“认为两个分类变量有关”,这种判断犯错误的概率越小.②在线性回归方程ˆ0.80.35yx =-时,变量x 与y 具有负的线性相关关系; ③随机变量X 服从正态分布2(3,)N σ,若(4)0.64P X ≤=,则(23)0.07P X ≤≤=; ④两个随机变量相关性越强,则相关系数r 的值越接近于1. A .1个B .2个C .3个D .4个5.两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表如下表所示:则下列四组数据中,分类变量X 和Y 之间关系最强的是( ) A .4a =,2b =,3c =,6d = B .2a =,1b =,3c =,5d = C .4a =,5b =,6c =,8d =D .2a =,3b =,4c =,6d =6.为了丰富教职工业余文化生活,某校计划在假期组织70名老师外出旅游,并给出了两种方案(方案一和方案二),每位老师均选择且只选择一种方案,其中有50%的男老师选择方案一,有75%的女老师选择方案二,且选择方案一的老师中女老师占40%,则参照附表,得到的正确结论是( )附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.A .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别有关”B .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别无关”C .有95%以上的把握认为“选择方案与性别有关”D .有95%以上的把握认为“选择方案与性别无关”7.利用独立性检验的方法调查高中生性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用22⨯列联表,由计算可得27.236K =,参照下表:得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别无关”B .有99%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关"D .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别无关”8.如果根据性别与是否爱好运动的列联表得到2 3.852 3.841x ≈>,所以判断性别与运动有关,那么这种判断犯错的可能性不超过( ) A .2.5%B .0.5%C .1%D .5%9.某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用22⨯列联表进行独立性检验.经计算2 6.058K =,则所得到的统计学结论是:有( )的把握认为“学生性别与支持该活动有关系”A .0.025%B .97.5%C .99%D .99.9%10.根据分类变量x 与y 的观测数据,计算得到2 2.974χ=.依据0.05α=的独立性检验,结论为( )A .变量x 与y 不独立B.变量x与y不独立,这个结论犯错误的概率不超过0.05C.变量x与y独立D.变量x与y独立,这个结论犯错误的概率不超过0.05二、填空题11.为了调查高中学生参加课外兴趣活动选篮球和舞蹈是否与性别有关,现随机调查了30名学生,得到如下22⨯列联表:根据表中的数据,及观测值2K(其中22()()()()()n ad bcKa b c d a c b d-=++++),参考数据:则在犯错误的概率不超过__________前提下,认为选择舞蹈与性别有关.12.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:(单位:人)由上表中数据计算得2K的观测值22105(10302045)6.10955503075K⨯⨯-⨯=≈⨯⨯⨯,请估计在犯错误的概率不超过__________的前提下认为“文化程度与月收入有关系”.13.利用独立性检验的方法调查高中性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用22⨯列联表,由计算可得27.245K≈,参照下表2.706 至少有__________以上的把握认为“爱好该项运动与性别有关”.14.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =250(1320107)23272030⨯⨯-⨯⨯⨯⨯≈4.844.则认为选修文科与性别有关系出错的可能性为__________.三、解答题15.为了解某市市民对政府出台楼市限购令的态度,在该市随机抽取了50名市民进行调查,他们月收入(单位:百元)的频率分布直方图如下:(1)求该市市民平均月收入的估计值(每组数据以区间中点值为代表).(2)将月收入不低于7500元称为“高收入”,否则称为“非高收入”,根据已知条件完成下面的22⨯列联表,并判断能否有99%的把握认为市民对楼市限购令的态度与收入有关.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.16.为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果: 表1:男生上网时间与频数分布表表2:女生上网时间与频数分布表(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数; (2)完成联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”.附:()()()()22()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.0.45517.某大学为鼓励学生进行体育锻炼,购买了一批健身器材供学生使用,并从该校大一学生中随机抽取了100名学生调查使用健身器材的情况,得到数据如表所示:(1)设每周使用健身器材的次数不低于3次为“爱好健身”,根据上表数据,填写22⨯列联表,并判断能否在犯错误的概率不超过0.10的前提下认为“男生和女生在使用健身器材的爱好方面有差异”;(2)从上述每周使用健身器材3次的学生中,利用分层抽样的方法抽取5名学生,再从抽取的5名学生中随机抽取3人,求3人中至多有一名女生的概率.18.在对人们休闲方式的一次调查中,仅就看电视与运动这两种休闲方式比较喜欢哪一种进行了调查.调查结果:接受调查总人数110人,其中男、女各55人;受调查者中,女性有30人比较喜欢看电视,男性有35人比较喜欢运动.(1)请根据题目所提供的调查结果填写下列22⨯列联表:(2)能否在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系”?注:22()()()()()n ad bcKa b c d a c b d-=++++,(其中n a b c d=+++为样本容量)参考答案1.B【分析】根据把握率确定2K的观测值区间范围即可选择.【详解】∵有97.5%的把握但没有99%的把握,∴2K的观测值区间范围为[5.024,6.635),结合选项可知,2K的观测值可能为6.625.故选:B2.B【分析】根据2K的值,对照附表即可得解.【详解】由题得2 3.936 3.841K=>,所以判定玩手机游戏与学习成绩有关系,这种判断出错的可能性为5%. 故选:B3.C【分析】计算出2K的值可得答案.【详解】因为()22501520510258.33320307.89225753K⨯⨯-⨯==≈>⨯⨯⨯,所有这种判断出错的可能性0.5%.故选:C.4.A【分析】利用随机变量2K的观测值越大,说明两个变量有关系的可能性越大判断①;根据回归方程一次项系数的正负判断②;根据正态分布的性质判断③; 利用线性相关的概念判断④. 【详解】①:在独立性检验中,因为随机变量2K 的观测值越大,说明两个变量有关系的可能性越大,即犯错误的概率越大,故①错误;②:回归方程ˆ0.80.35yx =-的一次项系数为-0.35<0,故变量x 与y 具有负的线性相关关系,故②正确;③:随机变量X 服从正态分布2(3)N σ,,则(34)(4)(3)0.640.50.14P X P X P X <≤=≤-<=-=, 由对称性可知,(23)0.14P X ≤≤=,故③错误;④:两个随机变量的线性相关关系越强,则相关系数r 的绝对值越接近于1,故④错误. 正确的选项有1个. 故选:A 5.A 【分析】逐项求出ad bc -的值并加以对比,最大值对应的分类变量之间关系最强. 【详解】我们可以用ad bc -的大小近似的判断两个分类变量之间关系的强弱,ad bc -的值越小,关系越弱,越大,关系越强.这四组数据中ad bc -的值分别为18、7、2、0, 所以A 组数据的ad bc -的值最大,相比较而言这组数据反应的X 和Y 的关系最强. 故选:A. 6.C 【分析】设该校男老师的人数为x ,女老师的人数为y ,根据条件,得到22⨯列联表,求出x ,y 的值,利用公式计算2K 的值,再与表中临界值比较可得结果. 【详解】设该校男老师的人数为x ,女老师的人数为y ,则可得如下表格:由题意0.40.50.25x y =+,可得43y x =,可得30x =,40y =,则()227015301510 4.667 3.84125453040K ⨯-⨯=≈>⨯⨯⨯, 但4.667 5.024<,所以无97.5%以上有95%以上的把握认为“选择方案与性别有关”. 故选:C. 7.B 【分析】由已知的27.236K =,对比临界值表可得答案 【详解】解:因为27.236 6.635K =>,所以有99%以上的把握认为“爱好该项运动与性别有关”. 故选:B. 8.D 【分析】根据临界值附表比较,即得结论. 【详解】根据以下临界值附表可知这种判断犯错的可能性不超过5%. 故选:D 9.B【分析】将2K 的值与表中数据比较大小可知5.024 6.058 6.635<<,由此确定出相应的把握有多少.【详解】因为2 6.058K =,对照表格:5.024 6.058 6.635<<,所以有10.0250.97597.5%-==的把握认为“学生性别与是否支持该活动有关系”. 故选:B.10.C【分析】由表中数据以及独立性检验的思想即可得出结果.【详解】0.05α=时,2 3.841 2.974χ=>,所以在犯错概率不超过0.1时变量x 与y 有关.故选:C11.0.025【分析】由列联表中的数据,根据公式计算出2K 的值,再对照临界表即可得答案.【详解】 解:由列联表中的数据可得,2230(13827)27 5.4 5.024*********K ⨯⨯-⨯===>⨯⨯⨯, 所以在犯错误的概率不超过0.025的前提下,认为选择舞蹈与性别有关.故答案为:0.025.12.0.025【分析】根据2K ,对比临界值即可得出结论.【详解】∵6.109 5.024>,故能在犯错误的概率不超过0.025的前提下认为“文化程度与月收入有关系”.故答案为:0.025.13.99%【分析】根据卡方的值与参考数据比较即可判断;【详解】解:因为27.245K ≈,6.6357.2457.879<<,所以10.0199%-=故至少有99%以上的把握认为“爱好该项运动与性别有关”,故答案为:99%14.5%【分析】根据观测值k ≈4.844以及独立性检验的基本思想即可得出结果.【详解】K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.故答案为:5%15.(1)63;(2)表格见解析,有.【分析】(1)每组数据区间中点值乘以该组的频率求和可得答案;(2)根据每组频率乘以50可得每组的人数可完成列联表,计算2K 可得答案.【详解】(1)该市市民平均月收入的估计值为400.1500.2600.3700.2800.1900.163⨯+⨯+⨯+⨯+⨯+⨯=.(2)根据频率分布直方图知每组的人数分别为5,10,15,10,5,5.可得22⨯列联表如下:所以()22502882128.33340103020K ⨯⨯-⨯=≈⨯⨯⨯,因为8.333 6.635>,所以有99%的把握认为市民对楼市限购令的态度与收入有关.16.(1)225;(2)列联表答案见解析,没有90%的把握认为“大学生上网时间与性别有关”.【分析】(1)设上网时间不少于60分钟的人数为x ,依题意有30750100x =,计算即可; (2)填写列联表,计算2K ,对照临界值得出结论.【详解】(1)设上网时间不少于60分钟的人数为x ,依题意有30750100x =,解得225x =,所以估计其中上网时间不少于60分钟的人数是225.(2)塻22⨯列联表如下:由表中数据可得到22200(60304070) 2.20 2.70610010013070K ⨯-⨯=≈<⨯⨯⨯, 故没有90%的把握认为“大学生上网时间与性别有关”.17.(1)表格见解析,不能;(2)710. 【分析】(1)根据已知数据统计列联表中的各项的人数,填写列联表,进而计算2K 并与0.1的临界值进行比较,得到论断;(2)利用分层抽样的等比例原则求得抽取的5人中男女生的人数,利用符号表示每个学生,利用列举法计数,得到所求概率.【详解】解:(1)填写的列联表如下所示:()2210222422320.506 2.70644565446K ⨯⨯-⨯=≈<⨯⨯⨯.所以不能在犯错误的概率不超过0.1的前提下认为“男生和女生在使用健身器材的爱好方面有差异”.(2)从每周使用健身器材3次的学生中,利用分层抽样的方法抽取5名学生,则抽取男生3名,抽取女生2名.将抽取的3名男生分别记为a ,b ,c ,2名女生分别记为m ,n ,则从5人中随机抽取3人的不同情况有abc ,abm ,abn ,acm ,acn ,amn ,bcm ,bcn ,bmn ,cmn ,共10种, 其中至多有一名女生的情况有abc ,abm ,abn ,acm ,acn ,bcm ,bcn ,共7种. 所以从抽取的5名学生中随机抽取3人,至多有一名女生的概率为710. 18.(1)答案见解析;(2)不能.【分析】(1)由题意填写列联表即可;(2)代入数据计算2K 的观测值,比较观测值与3.841的大小,判断能否在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系” .【详解】解.(1)根据题目所提供的调查结果,可得下列22⨯列联表:(2)根据列联表中的数据,可计算()2211030352025 3.66750605555K ⨯⨯-⨯=≈⨯⨯⨯,因为03.667 3.841k k ≈<=,所以不能在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系”.。
高考数学——独立性检验-考点复习
学习目标统计案例了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用,并能解决一些实际问题.知识整合1.22×列联表设X ,Y 为两个变量,它们的取值分别为12{}x x ,和12{}y y ,,其样本频数列联表(22×列联表)如下:1y2y总计 1x a b a +b 2xc d c +d总计a +cb +da b c d +++2.独立性检验利用随机变量2K (也可表示为2χ)2()()()()()n ad bc a b c d a c b d −=++++(其中n a b c d =+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验. 3.独立性检验的一般步骤(1)根据样本数据列出22×列联表;(2)计算随机变量2K 的观测值k ,查下表确定临界值k 0:20()P K k ≥0.50 0.40 0.25 0.15 0.1000.0500.0250.0100.005 0.001 0k0.455 0.708 1.3232.0722.7063.841 5.024 6.6357.87910.828(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()20P K k ≥;否则,就认为在犯错误的概率不超过()20P K k ≥的前提下不能推断“X 与Y 有关系”.【注意】(1)通常认为 2.706k ≤时,样本数据就没有充分的证据显示“X 与Y 有关系”.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.考向一两类变量相关性的判断已知分类变量的数据,判断两类变量的相关性.可依据数据及公式计算2K,然后作出判断.典例1利用独立性检验来考查两个分类变量X和Y是否有关系时,通过查阅下表来确定“X和Y有关系”k>,那么就有把握认为“X和Y有关系”的百分比为的可信度.如果 5.024()2>0.500.400.250.150.100.050.0250.0100.0050.001 P K kK0.4550.708 1.323 2.072 2.706 3.84 5.024 6.6357.87910.828 A.25%B.75%C.2.5%D.97.5%【答案】D【解析】∵k>5.024,而在观测值表中对应于5.024的是0.025,1﹣0.025=0.975=97.5%,∴有97.5%的把握认为“X和Y有关系”.故选D.【名师点睛】本题考查独立性检验的应用,属于基础题,根据所给的观测值,与所给的临界值表中的数据进行比较,而在观测值表中对应于5.024的是0.025,从而得到结果.典例2有人发现,多看电视容易使人变冷漠,下表是一个调査机构对此现象的调查结果:附表:()2P K k >0.050.0250.0100.005 0.001K3.845.0246.6357.87910.828则认为多看手机与人冷漠有关系的把握大约为 A .99.9% B .97.5% C .95%D .90%【答案】A【解析】由题可得K 2=21686838-2042888011058××××××()≈11.377. ∵11.377>10.828,∴有99.9%的把握认为看电视与人变冷漠有关系. 故答案为A.【名师点睛】本题主要考查独立性检验,意在考查学生对该知识的掌握水平和解决实际问题的能力.把所给的数据代入求独立性检验的观测值的公式,求出观测值,把观测值同独立性检验的临界值表进行比较,得到所求的值大于10.828,得到有99.9%的把握认为看电视与人变冷漠有关系.1.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取60名高中生做问卷调查,得到以下数据:作文成绩优秀 作文成绩一般 总计课外阅读量较大 22 10 32 课外阅读量一般8 20 28 总计303060由以上数据,计算得到2K 的观测值9.643k ≈,根据临界值表,以下说法正确的是 附:P (K 2≥k 0)0.500.400.250.150.100.050.050.010 0.005k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879A .在样本数据中没有发现足够证据支持结论“作文成绩优秀与课外阅读量大有关”B .在犯错误的概率不超过0.001的前提下,认为作文成绩优秀与课外阅读量大有关C .在犯错误的概率不超过0.05的前提下,认为作文成绩优秀与课外阅读量大有关D .在犯错误的概率不超过0.005的前提下,认为作文成绩优秀与课外阅读量大有关考向二 独立性检验与概率统计的综合独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为中档题,高考中经常是将独立性检验与概率统计相综合进行命题,解题关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解问题.典例3 某中学对高三甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:现规定平均成绩在80分以上(不含80分)的为优秀. (1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面22×列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助?参考公式及数据:22()()()()()n ad bc K a b c d a c b d −=++++,其中n a b c d =+++.20()P K k ≥0.40 0.25 0.15 0.1000.0500.0250.0100k0.708 1.3232.0722.7063.841 5.024 6.635【答案】(1)甲、乙两班的优秀率分别为60%和50%;(2)列联表见解析,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助. 【解析】(1)由题意知,甲、乙两班均有学生50人,甲班优秀人数为30人,优秀率为3060%50=, 乙班优秀人数为25人,优秀率为2550%50=, 所以甲、乙两班的优秀率分别为60%和50%. (2)22×列联表如下:因为22100(30252025)1001.010 1.3235050554599K ××−×==≈<×××,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助. 典例4 为调查某社区居民的业余生活状况,研究这一社区居民在20:00~22:00时间段的休闲方式与性别的关系,随机调查了该社区80人,得到下面的数据表:(1)根据以上数据,能否有99%的把握认为“在20:00~22:00时间段居民的休闲方式与性别有关系”? (2)将此样本的频率估计为总体的概率,在该社区的所有男性中随机调查3人,设调查的3人在这一时间段以看书为休闲方式的人数为随机变量X ,求X 的数学期望和方差.附:22()()()()()n ad bc K a b c d a c b d −=++++2()P K k ≥0.050 0.010 0.001 k3.8416.63510.828【答案】(1)有99%的把握认为“在20:00~22:00时间段居民的休闲方式与性别有关”;(2)5(),2E X =5()12D X =.【解析】(1)根据样本提供的2×2列联表得:2280(10101050)808.889 6.635602020609K ××−×==≈>×××.所以有99%的把握认为“在20:00~22:00时间段居民的休闲方式与性别有关”.(2)由题意得:5~(3,)6X B ,且3315()C ,0,1,2,36()(6)kkk P Xk k −===, 所以55()3,62E X =×=515()36612D X =××=. 【解题必备】本题主要考查独立性检验及其应用、二项分布的期望与方差,考查了分析问题与解决问题的能力.其中使用统计量2K 作2×2列联表的独立性检验的步骤是: ①检查2×2列联表中的数据是否符合要求;②由公式22()()()()()n ad bc K a b c d a c b d −=++++计算2K 的值;③将2K 的值与临界值表中的数据进行对比.另外需要注意回归分析也常在高考中出现.2.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,从中国某城市的高中生中随机抽取了55人,从美国某城市的高中生中随机抽取了45人进行答题.中国高中生答题情况是:选择家的占25、朋友聚集的地方占310、个人空间占310.美国高中生答题情况是:朋友聚集的地方占35、家占15、个人空间占15.如下表:在家里最幸福 在其他场所幸福 合计中国高中生 美国高中生 合计(1)请将22×列联表补充完整,试判断能否有95%的把握认为“恋家”与否与国别有关;(2)从被调查的不“恋家”的美国学生中,用分层抽样的方法选出4人接受进一步调查,再从4人中随机抽取2人到中国交流学习,求2人中含有在“个人空间”感到幸福的学生的概率.附:()()()()()22n ad bcka b c d a c b d−=++++,其中n a b c d=+++.()2P k k≥0.050 0.025 0.010 0.001k 3.841 5.024 6.635 10.8281.观察如图所示的等高条形图,其中最有把握认为两个分类变量x,y之间有关系的是A.B.C.D.2.在研究打酣与患心脏病之间的关系中,通过收集数据、整理分析数据得“打酣与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的.下列说法中正确的是A.100个心脏病患者中至少有99人打酣B.1个人患心脏病,那么这个人有99%的概率打酣C.在100个心脏病患者中一定有打酣的人D.在100个心脏病患者中可能一个打酣的人都没有3.已知两个统计案例如下:①为了探究患肺炎与吸烟的关系,调查了339名50岁以上的人,调查结果如下表:患肺炎未患肺炎总计吸烟 43 162 205 不吸烟 13 121 134 总计56283339②为了解某地母亲与女儿身高的关系,随机测得10对母女的身高如下表:母亲身高(cm) 159 160 160 163 159 154 159 158 159 157 女儿身高(cm)158159160161161155162157162156则对这些数据的处理所应用的统计方法是 A .①回归分析,②取平均值B .①独立性检验,②回归分析C .①回归分析,②独立性检验D .①独立性检验,②取平均值4.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:每年体检 每年未体检 合计老年人 a7c 年轻人 6bd合计ef50已知抽取的老年人、年轻人各25名.则完成上面的列联表数据错误的是 A .18a =B .19b =C .50c d +=D .1f e −=5.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了下表:喜爱打篮球不喜爱打篮球合计男生 25 10 35 女生 5 10 15 合计302050参考公式:22()()()()()n ad bc K a b c d a c b d −=++++,其中n a b c d =+++.临界值表:20()P K k ≥0.1000.0500.0250.0100.005 0.0010k2.7063.8415.0246.6357.87910.828根据表中的数据你认为喜爱打篮球与性别之间有关系的把握是 A .97.5% B .99% C .99.5%D .99.9%6.为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:优秀 非优秀 总计 A 班 14 6 20 B 班 7 13 20 总计211940附:参考公式及数据: (1)统计量:22()()()()()n ad bc K a b c d a c b d −=++++,其中n a b c d =+++.(2)独立性检验的临界值表:P (K 2≥k 0) 0.0500.010 k 03.8416.635则下列说法正确的是A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关 7.假设有两个分类变量X 和Y 的22×列联表为:1x5 b 5b + 2x15 d 15d + 总计204060对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为A .5,35b d == B .15,25b d == C .20,20bd =D .30,10b d == 参考公式:22()()()()()n ad bc K a b c d a c b d −=++++,其中n a b c d =+++.8.某学校为判断高三学生选修文科是否与性别有关,现随机抽取50名学生,得到如下22×列联表:理科 文科 合计 男 13 10 23 女 7 20 27 合计203050根据表中数据得到,已知()23.8410.05P K ≥≈,()2 5.0240.025P K ≥≈.现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为A .97.5%B .95%C .2.5%D .5%9.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:同意限定区域停车 不同意限定区域停车 合计男 20 5 25 女 10 15 25 合计302050则认为“是否同意限定区域停车与家长的性别有关”的把握约为__________. 附:()()()()()22n ad bc K a b c d a c b d −=++++,其中n a b c d =+++.()20P K k ≥0.50 0.40 0.25 0.15 0.10 0k0.455 0.708 1.323 2.072 2.706 ()20P K k ≥0.05 0.025 0.010 0.005 0.001 0k3.8415.0246.6357.87910.82810.已知下列命题:①在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在回归直线方程0.52y x ∧=−+中,当解释变量x 每增加一个单位时,预报变量y ∧平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说, k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的序号是__________.11.一则“清华大学要求从2017级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了巨大反响.其实,已有不少高校将游泳列为必修内容.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,该学校对100名高一新生进行了问卷调查,得到如下22×列联表:喜欢游泳 不喜欢游泳 合计 男生 40 女生 30 合计已知在这100人中随机抽取1人,抽到喜欢游泳的学生的概率为35. (1)请将上述列联表22×补充完整,并判断是否可以在犯错误的概率不超过0.001的前提下认为喜欢游泳与性别有关.(2)已知在被调查的学生中有6名来自高一(1)班,其中4名喜欢游泳,现从这6名学生中随机抽取2人,求恰有1人喜欢游泳的概率. 附:()()()()()22=n ad bc K a b c d a c b d −++++()20P K k ≥ 0.100.050 0.025 0.010 0.005 0.0010k2.7063.841 5.024 6.635 7.879 10.82812.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”,遍布了一二线城市的大街小巷.为了解共享单车在A 市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了200人进行抽样分析,得到表格:(单位:人)经常使用 偶尔或不用 合计 30岁及以下 70 30 100 30岁以上 60 40 100 合计13070200(1)根据以上数据,能否在犯错误的概率不超过0.15的前提下认为A 市使用共享单车情况与年龄有关?(2)现从所抽取的30岁以上的网友中利用分层抽样的方法再抽取5人. (i )分别求这5人中经常使用、偶尔或不用共享单车的人数;(ii )从这5人中,再随机选出2人赠送一件礼品,求选出的2人中至少有1人经常使用共享单车的概率.参考公式:()()()()()22n ad bc K a b c d a c b d −=++++,其中n a b c d =+++.参考数据:()20P K k ≥0.15 0.10 0.05 0.025 0.0100k2.072 2.7063.841 5.024 6.63513.某省高考改革实施方案指出:该省高考考生总成绩将由语文、数学、外语3门统一高考成绩和学生自主选择的学业水平等级性考试科目共同构成,该省教育厅为了解正在读高中的学生家长对高考改革方案所持的赞成态度,随机从中抽取了100名城乡家长作为样本进行调查,调查结果显示样本中有25人持不赞成意见,如图是根据样本的调查结果绘制的等高条形图.(1)根据已知条件与等高条形图完成下面的列联表,并判断我们能否有95%的把握认为“赞成高考改革方案与城乡户口有关”?注:()()()()()22n ad bcKa b c d a c b d−=++++,其中.(2)用样本的频率估计概率,若随机在全省不赞成高考改革的家长中抽取3个,记这3个家长中是城镇户口的人数为,试求的分布列及数学期望()E X.1.(2017年高考新课标Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg).其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg ,新养殖法的箱产量不低于50kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50kg箱产量≥50kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:,22()()()()()n ad bc K a b c d a c b d −=++++2.(2018年高考新课标Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min )绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:超过m不超过m第一种生产方式 第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:()()()()()22n ad bc K a b c d a c b d −=++++,()2P K k ≥0.0500.0100.001 k3.8416.63510.8281.【答案】D【名师点睛】本题考查卡方含义,考查基本求解能力.根据临界值表,确定犯错误的概率即可. 2.【答案】(1)见解析;(2)12. 【解析】(1)由已知得:在家里最幸福 在其他场所幸福 合计中国高中生 22 33 55 美国高中生 9 36 45 合计3169100∴()22100223693331695545K ××−×=×××1001134.628 3.8413123××≈>×,【思路点拨】(1)根据题意填写列联表,计算观测值2K ,对照临界值表得出结论;(2)用分层抽样方法抽出4人,其中在“朋友聚焦的地方”感到幸福的有3人,在“个人空间”感到幸福的有1人,分别设为123,,,a a a b ,再设“含有在‘个人空间’感到幸福的学生”为事件A ,求出基本事件数,即可求得概率值. #¥网1.【答案】D【解析】在等高条形图中,x 1,x 2所占比例相差越大,分类变量x ,y 有关系的把握越大. 故答案为D【名师点睛】(1)本题主要考查通过等高条形图判断两个分类变量是否有关系,意在考查学生对该知识的掌握水平和分析推理能力.(2)在等高条形图中,如果两个分类变量所占的比例差距越大,则说明两个分类变量有关系的把握越大. 2.【答案】D【解析】利用独立性检验的结论可得:若“打酣与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的,则在100个心脏病患者中可能一个打酣的人都没有. 本题选择D 选项.【名师点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释. 3.【答案】B【解析】常用独立性检验研究两个分类变量之间是否有关系,常用回归分析研究两个具有相关关系的变量的相关程度,综上可知选B. 4.【答案】D【解析】因为725,625,6,7,50,50a c b d a e b f c d e f +==+==+=+=+=+=,所以18,19,50,24,26,2ab c d e f f e ==+===−=. 故选D.【名师点睛】本题考查列联表有关概念,考查基本求解能力.先根据列联表列方程组,解得a ,b ,c ,d ,e ,f 再判断各选项. 5.【答案】A6.【答案】C【解析】因为2240(141376)202021 4.91192K ××−×=×××≈,所以3.841<K 2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关. 7.【答案】D【解析】将表格中的数据和选项中提供的数据代入公式:22()()()()()n ad bc K a b c d a c b d −=++++中并计算可得,选项A :22160(535155)3204010502K ××−×==×××, 选项B :22260(5251515)152040204016K ××−×==×××, 选项C :22360(5201520)24204025357K ××−×==×××, 选项D :22460(5101530)96204035257K ××−×==×××, 所以222431K K K >>22K >,即由选项D 中的数据得到的2K 值最大,也就能说明X 与Y 有关系的可能性最大,故选D. 8.【答案】D【解析】由题意得2 4.844 3.841K ≈>,而()23.8410.05P K ≥≈,这种判断出错的可能性约为5%,故选D. 9.【答案】99.5%【名师点睛】本题考查独立性检验知识,考查学生的计算能力,考查学生分析解决问题的能力,属于中档题.利用公式求得K 2,与临界值比较,即可得到结论. 10.【答案】①②③ 学@!【解析】①相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好,是正确的;②两个变量相关性越强,则相关系数r 的绝对值就越接近于1,是正确的;③在回归直线方程0.52y x ∧=−+中,当解释变量x 每增加一个单位时,预报变量y ∧平均减少0.5个单位是正确的,因为回归方程,并不是样本点都落在方程上,故只能是估计值,所以说是平均增长; ④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越小,故原命题错误. 故答案为:①②③.11.【答案】(1)列联表见解析,可以;(2)815. 【解析】(1)根据条件可知喜欢游泳的人数为3100605×=人. 完成22×列联表:喜欢游泳 不喜欢游泳 合计 男生 40 10 50 女生 20 30 50 合计6040100【名师点睛】本题考查了独立性检验与运算求解能力,同时考查通过列举法求概率的应用,属于中档题.(1)根据题意计算喜欢游泳的学生人数,求出女生、男生多少人,完善列联表,再计算观测值2K ,对照临界值表即可得出结论;(2)设“恰有一人喜欢游泳”为事件A ,设4名喜欢游泳的学生为1234,,,a a a a ,不喜欢游泳的学生为12,b b ,通过列举法即可得到答案.12.【答案】(1)能在犯错误的概率不超过0.15的前提下认为A 市使用共享单车情况与年龄有关;(2)(i )经常使用共享单车的有3人,偶尔或不用共享单车的有2人;(ii )910. 【解析】(1)由列联表可知,()2220070406030 2.19813070100100K ××−×≈×××.因为2.198 2.072>,所以能在犯错误的概率不超过0.15的前提下认为A 市使用共享单车情况与年龄有关. (2)(i )依题意可知,所抽取的5名30岁以上的网友中,经常使用共享单车的有6053100×=(人),偶尔或不用共享单车的有4052100×=(人). (ii )设这5人中,经常使用共享单车的3人分别记为a ,b ,c ;偶尔或不用共享单车的2人分别记为d ,e .则从5人中选出2人的所有可能结果为:(),a b ,(),a c ,(),a d ,(),a e ,(),b c ,(),b d ,(),b e ,(),c d ,(),c e ,(),d e ,共10种.其中没有1人经常使用共享单车的可能结果为:(),d e ,共1种,故选出的2人中至少有1人经常使用共享单车的概率1911010P =−=. 13.【答案】(1)列联表见解析,没有95%的把握认为“赞成高考改革方案与城乡户口有关”;(2)见解析.【解析】(1)完成列联表,如下: @#网∴的分布列为:()00.06410.28820.43230.216 1.8E X =×+×+×+×=.1.【答案】(1)0.4092;(2)列联表见解析,有99%的把握认为箱产量与养殖方法有关;(3)52.35kg .(2)根据箱产量的频率分布直方图得列联表:箱产量50kg <箱产量50kg ≥旧养殖法 62 38 新养殖法34662K 的观测值()22006266343815.70510010096104k××−×≈×××,由于15.705 6.635>,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg 的直方图面积为()0.0040.0200.04450.340.5++×=<,箱产量低于55kg 的直方图面积为()0.0040.0200.0440.06850.680.5+++×=>, 故新养殖法箱产量的中位数的估计值为0.50.345052.35(kg)0.068−+≈.【名师点睛】(1)利用独立性检验,能够帮助我们对日常生活中的实际问题作出合理的推断和预测.独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,随机变量的观测值k 值越大,说明“两个变量有关系”的可能性越大.(2)利用频率分布直方图求众数、中位数和平均数时,应注意三点: ①最高的小长方形底边中点的横坐标即众数; ②中位数左边和右边的小长方形的面积和是相等的;③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和. +@网2.【答案】(1)第二种生产方式的效率更高,理由见解析;(2)见解析;(3)能.(2)由茎叶图知7981802m+==.列联表如下:超过m不超过m第一种生产方式15 5第二种生产方式 5 15(3)由于2240(151555)10 6.63520202020K×−×==>×××,所以有99%的把握认为两种生产方式的效率有差异.。
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
中学数学统计.板块五.独立性检验.学生版
一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设Nk n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++-,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取Nk n=;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块五.独立性检验然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系. 2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n 4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆy a bx =+,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆya bx =+,当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y y i n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆa y bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆab ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynxyb xx xn x ====---==--∑∑∑∑,ˆˆa y bx =-,其中11n i i x x n ==∑,11nii y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii i ixx y y x ynx yr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑,把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值. 同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.典例分析【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握性有( )A .90%B .95%C .99%D .99.5%【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【例6】 某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【例7】 某班主任对全班50名学生进行了作业量的调查,数据如下表:A .99%B .95%C . 90%D .无充分根据【例8】 下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?【例9】 在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:【例12】气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?【例13】 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.⑴根据以上数据建立一个22⨯的联表;⑵判断性别与休闲方式是否有关系.【例14】 (2010课标全国卷Ⅰ高考)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:⑵能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? ⑶根据⑵的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++【例15】 某校高三年级在一次全年级的大型考试中,数学优秀的有360人,非优秀的有880人.数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?【例16】 (2010辽宁高考)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .⑴甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;⑵下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:2mm ) 表1:注射药物A 后皮肤疱疹面积的频数分布表频率疱疹面积频率疱疹面积图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图(ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:附:2K ()()()()a b c d a c b d =++++【例17】 (2009辽宁20)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm )的值落在[)29.9430.06,的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,的结果如下表:⑵由于以上统计数据填下面22⨯列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:()()2211221221212120.050.013.841p k n n n n n n n n n k χχ++++- = 6.635≥,。
统计.板块五.独立性检验.教师版 普通高中数学复习讲义Word版
一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同.随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N的总体中抽取容量为n的样本,如果总体容量能被样本容量整除,设Nkn=,先对总体进行编号,号码从1到N,再从数字1到k中随机抽取一个数s作为起始数,然后顺次抽取第2(1)s k s k s n k+++-,,,个数,这样就得到容量为n的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N是有限的.⑵简单随机样本数n小于等于样本总体的个数N.⑶简单随机样本是从总体中逐个抽取的.⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N恰好是样本容量n的整数倍时,取Nkn =;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容知识内容板块五.独立性检验量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍然相等,为Nn.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n 4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆy a bx =+,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆya bx =+,当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y y i n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆa y bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆa b ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynxyb xx xn x ====---==--∑∑∑∑,ˆˆa y bx =-,其中11n i i x x n ==∑,11nii y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii i ixx y y x ynx yr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑,把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值. 同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【考点】独立性检验 【难度】1星 【题型】选择 【关键词】无 【解析】无典例分析【答案】B ;【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.【考点】独立性检验 【难度】1星 【题型】填空 【关键词】无 【解析】略【答案】95%;【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握性有( )A .90%B .95%C .99%D .99.5%【考点】独立性检验 【难度】1星 【题型】选择 【关键词】无 【解析】略【答案】B ;【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【考点】独立性检验 【难度】1星 【题型】选择 【关键词】无 【解析】略【答案】A ;【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【考点】独立性检验 【难度】1星 【题型】选择【关键词】无【解析】略【答案】A;【例6】某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【考点】独立性检验【难度】1星【题型】解答【关键词】无【解析】因为2 3.841χ≥,所以出错的可能性为5%.【答案】5%;【例7】某班主任对全班50名学生进行了作业量的调查,数据如下表:A.99% B.95% C.90% D.无充分根据【考点】独立性检验【难度】2星【题型】选择【关键词】无【解析】2250(151889)5.0585 3.84127232624χ⨯-⨯=≈⨯⨯⨯≥【答案】B;【例8】下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?【考点】独立性检验【难度】2星【题型】解答 【关键词】无 【解析】略【答案】提出假设0H :该周内中学生是否喝过酒与性别无关.由列联表中的数据,算出2 1.6366χ≈,当0H 成立时,2 3.841χ≥的概率约为0.05,而这里2 1.6366 3.841χ≈<, 所以,不能推断出喝酒与性别有关的结论.【例9】 在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【考点】独立性检验 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】根据题意,列出列联表如下:根据公式,2290(2526318) 4.24356343357χ⨯-⨯=≈⨯⨯⨯,因为4.243 3.841>,所以我们有95%的把握认为在这次航程中晕机与性别有关,即男人比女人更容易晕机.【例10】 为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?【考点】独立性检验 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】在口服的病人中,有5859%98≈的人有效;在注射的病人中,有6467%95≈的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明. 提出假设0H :药的效果与给药方式没有关系.由列联表中的数据,算出22193(58314064) 1.3896122719895χ⨯⨯-⨯=≈⨯⨯⨯,查表有2( 2.072)0.15P χ=≥.当0H 成立时,2 1.3896χ≥的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H ,即不能作出药的效果与给药方式有关的结论. 点评:如果观测值2 2.706χ≤,那么就认为没有充分的证据显示两个分类变量有关系,但也不能作出结论“0H 成立”,即两个变量没有关系.【例11】 考察棉花种子经过处理跟生病之间的关系得到如下表数据:【考点】独立性检验 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】统计假设:种子经过处理跟是否生病无关.由列表数据,计算22407(3221361101)0.1641 2.70693314133274χ⨯-⨯=≈<⨯⨯⨯因此基本上认为种子经过处理跟是否生病无关.【例12】 气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?【考点】独立性检验 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】由列联表中的数据可知,服用复方江剪刀草的患者的有效率为18475%245≈, 服用胆黄片的患者的有效率为9191%100=,可见,服用复方江剪刀草的患者与服用胆黄片的患者的有效率存在较大差异.下面用2χ进行独立性检验,以确定能有多大把握作出这一推断.提出假设0H :两种中草药的治疗效果没有差异.由列联表中的数据,求得22345(18496191)11.09827570245100χ⨯⨯-⨯=≈⨯⨯⨯.当0H 成立时,210.828χ≥的概率约为0.001,而这里211.09810.828χ≈>.所以我们有99.9%的把握认为:两种药物的疗效有差异.【例13】 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.⑴根据以上数据建立一个22⨯的联表;⑵判断性别与休闲方式是否有关系. 【考点】独立性检验 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】⑴22⨯联表为:⑵ 假设”休闲方式与性别无关”,计算226.201 3.84170546460χ=≈>⨯⨯⨯,所以有理由认为假设”休闲方式与性别无关”是不合理的,有95%的把握认为”休闲方式与性别有关”.【例14】 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:⑵能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? ⑶根据⑵的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++ 【考点】独立性检验 【难度】3星 【题型】解答【关键词】2010年,全国高考 【解析】略【答案】⑴调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为7014%500= ⑵22500(4027030160)9.96720030070430K ⨯⨯-⨯==⨯⨯⨯.由于9.967 6.635>,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.⑶由⑵的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.【例15】某校高三年级在一次全年级的大型考试中,数学优秀的有360人,非优秀的有880人.数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?【考点】独立性检验【难度】3星【题型】解答【关键词】无【解析】略【答案】列出数学与物理优秀的22⨯列联表如下χ≈.由公式计算可得:2270.1143列出数学与化学优秀的列联表如下χ≈.由公式计算可得:2240.6112列出数学与总分优秀的列联表如下由公式计算可得:22486.1225χ≈.综上可知,数学成绩优秀则最大可能总分也优秀,即数学成绩优秀与总分也优秀关系较大.【例16】 为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .⑴甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;⑵下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:2mm ) 表1:注射药物A 后皮肤疱疹面积的频数分布表频率组距疱疹面积频率组距疱疹面积图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图(ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:附:2K ()()()()a b c d a c b d=++++【考点】独立性检验 【难度】4星 【题型】解答【关键词】2010年,辽宁高考 【解析】略【答案】⑴甲、乙两只家兔分在不同组的概率为991981002002C 100C 199P ==.⑵(i)疱疹面积频率组距疱疹面积图1注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,所以注射药物A 后疱疹面积的中位数小于注射药物B 后疱疹面积的中位数. (ii )表3224.5610010010595K =≈⨯⨯⨯由于210.828K >,所以99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.【例17】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm )的值落在[)29.9430.06,的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,的结果如下表:⑵由于以上统计数据填下面22⨯列联表,并问是否有99%的把握认为“两个分厂生附:()()2211221221212120.050.013.841p k n n n n n n n n n k χχ++++- =6.635≥,【考点】独立性检验 【难度】3星 【题型】解答【关键词】2009年,辽宁高考 【解析】略【答案】⑴甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为36072%500=; 乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为32064%500=. ⑵21000360180320140500500680320χ⨯⨯-⨯=⨯⨯⨯7.35 6.635≈>,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.。
5.5 列联表中独立性的检验
要求:定义变量
medicine(药物:呋喃、甲氰)、result(效果:愈合、未愈合) count(频数)
给出列联表检验结果
或删去理论频数太小的行,列。
最小理论频数=最小行合计频数﹒最小列合计频数/总频数 3.多个总体率比较的卡方检验,若结论为拒绝原假设, 只能认为总体率之间不全等,不能说明任意两个总体率 有无差别,需做多重比较。
例:
判断患鼻咽癌与血型有无关系
分类
患癌者 健康人 合计
A型血
64 125 189
B型血
86 138 224
双向无序列联表:两个分类变量分类标志无数值大小 与先后顺序之分。
疗法 疗效 治愈 32 76 108 未愈 46 50 96 合计
不加牛黄 加牛黄 合计
78 126 204
设不加牛黄组治愈总体率为
,加牛黄组治愈总体率为 “疗法”与“疗效”独立
检验
即
H0:X与Y独立(即两组总体率相同)
实际频数Oij与理论频数Eij的差异是随机误差, 用 Pearson卡方统计量反映实际Oij与理论Eij吻合程度
O型血
130 210 340
AB型血
20 26 46
合计
300 499 799
第一行合计数,第四列合计数最小,最小理论频数
300 46 E14 17.27 5 799 H0:“患癌”与“血型”独立,H1:“患癌”与“血型”
不独立
2
642 862 N( 1) 799 i , j 1 Oi O j 300 189 300 224
不加牛黄 32 加牛黄 76 合计 108
疗效
治愈 46 50 9“疗法”与“疗效”独立(即两组治愈率相同 ) N=204>40
统计案例——独立性检验( 讲义 修改版 附详解答案)
第二讲 统计案例 ——独立性检验一.独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为参考公式()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++3.独立性检验:利用随机变量2K 来判断“两个分类变量有关系”的方法称为独立性检验.4.独立性检验的步骤①计算随机变量2K 的观测值k ,查表确定临界值k 0②如果k ≥0k ,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过P (2K ≥0k );否则,就认为在犯错误的概率不超过P (2K ≥0k )的前提下不能推断“X 与Y 有关系”. 对点练习:通过随机询问110名性别不同的大学生是否爱好某项运动,得到列联表:计算得2211040302020K 7.860506050⨯⨯-⨯=≈⨯⨯⨯()正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别有关” B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”【题型讲解】考点一 独立性检验【1-1】,,A B C 三个班共有100名学生,为调查他们的体育锻炼情况,通过分层抽样获得了部分(1)试估计班的学生人数;(2) 从A 班和C 班抽出的学生中,各随机选取一人,A 班选出的人记为甲,C 班选出的人记为乙,假设所有学生的锻炼时间相对独立,求该周甲的锻炼时间比乙的锻炼时间长的概率; (3)再从,,A B C 三个班中各随机抽取一名学生,他们该周的锻炼时间分别是7,9,8.25(单位:小时),这3个新数据与表格中的数据构成的新样本的平均数记为1μ,表格中数据的平均数记为0μ ,试判断0μ和1μ的大小,(结论不要求证明).【1-2】某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下列联表:则可以说其亲属的饮食习惯与年龄有关的把握为( )A .90% B .95% C .99% D .99.9%【变式训练1】某学校为判断高三学生选修文科是否与性别有关,现随机抽取50名学生根据表中数据得到()22501320107 4.84423272030k ⨯⨯-⨯=≈⨯⨯⨯,已知()2 3.8410.05P χ≥≈,()2 5.0240.025P χ≥≈.现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为( )A. 97.5% B. 95% C. 2.5% D. 5% 【变式训练2】2018年1月22 日,“国际教育信息化大会”在山东青岛开幕.为了解哪些人更关注“国际教育信息化大会”,某机构随机抽取了年龄在15-75岁之间的100人进行调查,经统计“青少年”与“中老年”的人数之比为9: 11.(1)根据已知条件完成下面的22⨯列联表,并判断能否有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”;【易错典题】为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查喜爱打篮球 不喜爱打篮球 合计 男生 5 女生 10 合计50已知在全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35.(1)请将上表补充完整(不用写计算过程);(2)能否有99.5%的把握认为喜爱打篮球与性别有关?说明你的理由.下面的临界值表供参考:考点三 分层训练A 基础巩固训练1.若对于变量x 的取值为3,4,5,6,7时,变量y 对应的值依次分别为4.0,2.5,-0.5,-1,-2;若对于变量u 的取值为1,2,3,4时,变量v 对应的值依次分别为2,3,4,6,则变量x 和y ,变量u 和v 的相关关系是( )A. 变量x 和y 是正相关,变量u 和v 是正相关B. 变量x 和y 是正相关,变量u 和v 是负相关C. 变量x 和y 是负相关,变量u 和v 是负相关D. 变量x 和y 是负相关,变量u 和v 是正相关 2.假设有两个分类变量和的列联表为:1y 2y总计1xa 10 10a +2xc30 30c + 总计6040100对同一样本,以下数据能说明与有关系的可能性最大的一组为( )A. 45,15a c ==B. 40,20a c ==C. 35,25a c ==D. 30,30a c ==数学成绩较好 数学成绩一般 合计 物理成绩较好 18 7 25 物理成绩一般 6 19 25 合计242650由22()()()()()n ad bc K a b c d a c b d -=++++,解得2250(181967)11.525252426K ⨯⨯-⨯=≈⨯⨯⨯ 得到的正确结论是( )(A )在犯错误的概率不超过000.1的前提下,认为“数学成绩与物理成绩有关” (B )在犯错误的概率不超过000.1的前提下,认为“数学成绩与物理成绩无关” (C )有00100的把握认为“数学成绩与物理成绩有关” (D )有0099以上的把握认为“数学成绩与物理成绩无关”4.某校迎新晚会结束后,学校就观众是否喜欢歌舞类节目进行了调查.(1)学校从观看晚会的5名观众,,,,A B C D E 中随机抽取2人进行访谈,求观众A 和B 至少有1人被抽中的概率.(2)学校从现场抽取100名观众进行调查,经数据处理后得到下列图表:图甲:男性与女性观众不喜欢歌舞 图乙:男性观众中不喜欢歌舞节目的人数分布统计图 节目的人数分布统计图请根据上述图表的数据信息,完成下列22⨯列联表的填写,并说明有多大的把握认为“是否喜欢歌舞类节目和性别有关”.5.为了调查某高中学生每天的睡眠时间,现随机对20名男生和20名女生进行问卷调查,如下: 女生:睡眠时间(小时) [)4,5[)5,6 [)6,7 [)7,8 []8,9人数 248 4 2男生:睡眠时间(小时) [)4,5[)5,6 [)6,7 [)7,8 []8,9人数15653(1)现把睡眠时间不足5小时的定义为“严重睡眠不足”,从睡眠时间不足6小时的女生中随机抽取3人,求此3人中恰有一人为“严重睡眠不足”的概率; (2)完成下面2×2列联表,并回答是否有90%的把握认为“睡眠时间与性别有关”?睡眠时间少于7小时 睡眠时间不少于7小时 合计 男生 女生 合计B 能力提升训练1. 在独立性检验中,统计量2χ有两个临界值:3.841和6.635.当2 3.841χ>时,有95%的把握说明两个事件有关,当2 6.635χ>时,有99%的把握说明两个事件有关,当2 3.841χ≤时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算220.87χ=.根据这一数据分析,认为打鼾与患心脏病之间( )(A )有95%的把握认为两者有关 (B )约有95%的打鼾者患心脏病(C )有99%的把握认为两者有关 (D )约有99%的打鼾者患心脏病2.甲、乙、丙、丁四位同学各自对,A B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:甲 乙 丙 丁 r0.820.780.690.85m106 115 124 103则哪位同学的试验结果体现,A B两变量有更强的线性相关性()A. 甲B. 乙C. 丙D. 丁3.对某校900名学生每周的运动时间进行调查,其中男生有540名,女生有360名,根据性别利用分层抽样的方法,从这900名学生中选取60名学生进行分析,统计数据如下表(运动时间单位:小时)男生运动时间统计:女生运动时间统计:(1)计算,x y的值;(2)若每周运动时间不低于6小时的同学称为“运动爱好者”,每周运动时间低于6小时的同学称为“非运动爱好者”,根据以上统计数据填写下面的22列联表,能否在犯错误的概率不超过0.025的前提下认为“‘运动爱好者’ 与性别有关”?4.为研究患肺癌与是否吸烟有关,做了一次相关调查,其中部分数据丢失,但可以确定的是不吸烟人数与吸烟人数相同,吸烟患肺癌人数占吸烟总人数的45;不吸烟的人数中,患肺癌与不患肺癌的比为1:4.(1)若吸烟不患肺癌的有人,现从患肺癌的人中用分层抽样的方法抽取人,再从这人中随机抽取人进行调查,求这两人都是吸烟患肺癌的概率;(2)若研究得到在犯错误概率不超过0.001的前提下,认为患肺癌与吸烟有关,则吸烟的人数至少有多少?C 思维拓展训练1.【改编题】在性别与吃零食这两个分类变量的计算中,下列说法正确的是()A. ①②B.②③C. ①③D.②①若K2的观测值k=6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.2.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1;③对分类变量X与Y的随机变量k2的观测值k来说,k越小,判断“X与Y有关系”的把握程度越大.其中真命题的个数为()A. 3 B.2 C.1 D.03.为考察高中生的性别与是否喜欢数学课程之间的关系,在我市某普通中学高中生中随机抽取200名学生,得到如下2×2列联表:喜欢数学课不喜欢数学课合计男30 60 90女20 90 110合计50 150 200经计算K≈6.06,根据独立性检验的基本思想,约有_________ (填百分数)的把握认为“性别与喜欢数学课之间有关系”.4.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:专业性别非统计专业统计专业男13 10 女7 20为了判断主修统计专业是否与性别有关系,根据表中的数据,计算得到2χ=_____(保留三位小数),判定__________(填“有”或“没有”)95%的把握认为主修统计专业与性别有关系.5. 某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关.现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,在将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的频率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22⨯的列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附表:22()()()()().n ad bcKa b c d a c b d-=++++答案一.独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1 y2 总计公式22Kn ad bca b c d a c b d-=++++()()()()(),其中n=a+b+c+d为样本容量.3.独立性检验:利用随机变量2K来判断“两个分类变量有关系”的方法称为独立性检验.4.独立性检验的步骤①计算随机变量2K的观测值k,查表确定临界值k0②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(2K≥k0);否则,就认为在犯错误的概率不超过P(2K≥k0)的前提下不能推断“X与Y有关系”.对点练习:通过随机询问110名性别不同的大学生是否爱好某项运动,得到列联表:由22Kn ad bca b c d a c b d-=++++()()()()(),计算得2211040302020K7.860506050⨯⨯-⨯=≈⨯⨯⨯()正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 【答案】【题型讲解】考点一 独立性检验【1-1】,,A B C 三个班共有100名学生,为调查他们的体育锻炼情况,通过分层抽样获得了部分学生一周的锻炼时间,数据如下表(单位:小时);A 班 6 6.5 7 7.5 8B 班6 7 8 9 10 11 12C 班3 4.5 6 7.5 9 10.5 12 13.5(1)试估计C 班的学生人数;(2) 从A 班和C 班抽出的学生中,各随机选取一人,A 班选出的人记为甲,C 班选出的人记为乙,假设所有学生的锻炼时间相对独立,求该周甲的锻炼时间比乙的锻炼时间长的概率; (3)再从,,A B C 三个班中各随机抽取一名学生,他们该周的锻炼时间分别是7,9,8.25(单位:小时),这3个新数据与表格中的数据构成的新样本的平均数记为1μ,表格中数据的平均数记为0μ ,试判断0μ和1μ的大小,(结论不要求证明). 【答案】(1)40(2)38(Ⅲ)10μμ< 【解析】(1)由题中的表可知,在A 班,B 班,C 班中被调查的人数分别是5,7,8,再由分层抽样的方法可知,C 班的学生人数估计值是810040578⨯=++.(3)10μμ<.因为表格中三组数据的平均数分别为7,9,8.25,所以总的的平均值,08.2μ=. 新加的三个数据7,9,8.25,平均值为8.08,比0μ小,所以拉低了平均值,即10μμ<. 【1-2】某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下22⨯列联表:偏爱蔬菜 偏爱肉类 合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030则可以说其亲属的饮食习惯与年龄有关的把握为( )A .90% B .95% C .99% D .99.9% 【答案】C【变式训练1】某学校为判断高三学生选修文科是否与性别有关,现随机抽取50名学生 理科 文科 合计 男 13 10 23 女 7 20 27 合计203050根据表中数据得到()22501320107 4.84423272030k ⨯⨯-⨯=≈⨯⨯⨯,已知()2 3.8410.05P χ≥≈,()2 5.0240.025P χ≥≈.现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为( )A. 97.5% B. 95% C. 2.5% D. 5% 【答案】D【解析】2 4.844 3.841K ≈> ,而()2 3.8410.05P K ≥≈,这种判断出错的可能性约为5% ,选D.【变式训练2】2018年1月22 日,“国际教育信息化大会”在山东青岛开幕.为了解哪些人更关注“国际教育信息化大会”,某机构随机抽取了年龄在15-75岁之间的100人进行调查,经统计“青少年”与“中老年”的人数之比为9: 11.(1)根据已知条件完成下面的22⨯列联表,并判断能否有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”;(2)现从抽取的青少年中采用分层抽样的办法选取9人进行问卷调查.在这9人中再选取3人进行面对面询问,记选取的3人中关注“国际教育信息化大会”的人数为X ,求X 的分布列及数学期望. 附:参考公式()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:【答案】(1)列联表见解析,有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”.(2)分布列见解析, ()1E X =【解析】试题分析:(Ⅰ)根据统计数据,可得2×2列联表,根据列联表中的数据,计算K 2的值,即可得到结论;(Ⅱ)ξ的可能取值有0,1,2,3,求出相应的概率,可得ξ的分布列及数学期望. 试题解析:解:(1)依题意可知,抽取的“青少年”共有91004520⨯=人,“中老年”共有1004555-=人. 完成的22⨯列联表如下:则()()()()()22n ad bc K a b c d a c b d -=++++ ()2100303520159.0915*******⨯⨯-⨯=≈⨯⨯⨯,因为()2 6.6350.01,9.091 6.635P K >=>,所以有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”.【易错典题】为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查喜爱打篮球不喜爱打篮球合计男生 5女生10合计50已知在全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35.(1)请将上表补充完整(不用写计算过程);(2)能否有99.5%的把握认为喜爱打篮球与性别有关?说明你的理由.下面的临界值表供参考:(参考公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++)易错分析:解答此类问题,主要有两类错误,一是不能正确理解临界值表;二是因计算繁琐,出现错误.温馨提醒:(1)独立性检验是近几年考查渐多的知识点之一,学习中应重视,不能因高考题难度不大而“轻敌”.(2)摆脱对计算器的依赖,多做一些计算训练,提高计算能力. 考点三 分层训练A 基础巩固训练1.【云南省昆明一中2018届高三第一次摸底测试】若对于变量x 的取值为3,4,5,6,7时,变量y 对应的值依次分别为4.0,2.5,-0.5,-1,-2;若对于变量u 的取值为1,2,3,4时,变量v 对应的值依次分别为2,3,4,6,则变量x 和y ,变量u 和v 的相关关系是( ) A. 变量x 和y 是正相关,变量u 和v 是正相关 B. 变量x 和y 是正相关,变量u 和v 是负相关 C. 变量x 和y 是负相关,变量u 和v 是负相关 D. 变量x 和y 是负相关,变量u 和v 是正相关 【答案】D【解析】变量x 增加,变量y 减少,所以变量x 和y 是负相关;变量u 增加,变量v 增加,所以变量u 和v 是正相关,因此选D.2.【2017届湖南省邵阳市高三下学期第二次联考】假设有两个分类变量X 和Y 的22 列联表为:1y 2y总计对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为( )A. 45,15a c ==B. 40,20a c ==C. 35,25a c ==D. 30,30a c == 【答案】A【解析】由题意可得,当10a a +与30cc +相差越大,X 与Y 有关系的可能性最大,分析四组选项,A 中的a,c 的值最符合题意,故选A.3.对某班级50名学生学习数学与学习物理的成绩进行调查,得到如下表所示:由22()()()()()n ad bc K a b c d a c b d -=++++,解得2250(181967)11.525252426K ⨯⨯-⨯=≈⨯⨯⨯参照附表,得到的正确结论是( )(A )在犯错误的概率不超过000.1的前提下,认为“数学成绩与物理成绩有关” (B )在犯错误的概率不超过000.1的前提下,认为“数学成绩与物理成绩无关” (C )有00100的把握认为“数学成绩与物理成绩有关” (D )有0099以上的把握认为“数学成绩与物理成绩无关” 【答案】A4.某校迎新晚会结束后,学校就观众是否喜欢歌舞类节目进行了调查.(1)学校从观看晚会的5名观众,,,,A B C D E 中随机抽取2人进行访谈,求观众A 和B 至少有1人被抽中的概率.(2)学校从现场抽取100名观众进行调查,经数据处理后得到下列图表:图甲:男性与女性观众不喜欢歌舞 图乙:男性观众中不喜欢歌舞 节目的人数分布统计图 节目的人数分布统计图请根据上述图表的数据信息,完成下列22⨯列联表的填写,并说明有多大的把握认为“是否喜欢歌舞类节目和性别有关”.注:()()()()()22n ad bc K a b a d a c b d -=++++【答案】(1)107;(2)列联表见解析,有0090的把握认为喜欢歌舞类节目和性别有关. 【解析】试题解析:(1)从5名观众中任取2名,共有,,,,,,,,,AB AC AD AE BC BD BE CD CE DE10种不同的取法,,A B至少有1人被抽中共有7种,所以710 P=.(2)男性不喜欢歌舞节目的共有4人,所以男性共有42020=人,其中喜欢歌舞节目的有20416-=人,女性不喜欢歌舞节目的共有6人,喜欢歌舞节目的有10020674--=人,22∴⨯列联表如下图:()221001667442.7820809010k⨯-⨯==⨯⨯⨯因为2.782,706>,所以有090的把握认为喜欢歌舞类节目和性别有关.5.为了调查某高中学生每天的睡眠时间,现随机对20名男生和20名女生进行问卷调查,如下: 女生:睡眠时间(小时) [)4,5[)5,6[)6,7[)7,8[]8,9人数24842男生:睡眠时间(小时) [)4,5[)5,6[)6,7[)7,8[]8,9人数1 5 6 5 3(1)现把睡眠时间不足5小时的定义为“严重睡眠不足”,从睡眠时间不足6小时的女生中随机抽取3人,求此3人中恰有一人为“严重睡眠不足”的概率;(2)完成下面2×2列联表,并回答是否有90%的把握认为“睡眠时间与性别有关”?睡眠时间少于7小时 睡眠时间不少于7小时 合计 男生 女生 合计2()0.150.100.050.0250.0100.0050.0012.072 2.7063.841 5.024 6.6357.87910.828P K k k ≥(22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)【答案】(1)35;(2)没有把握. 【解析】试题分析:本小题主要考查学生对概率知识的理解,以及统计案例的相关知识,同时考查学生的数据处理能力,考查学生的分析问题解决问题的能力、转化能力、计算能力.第一问,根据题意知,“睡眠严重不足”的有2人,睡眠时间在[5,6)的有4人,在这6人中选2人,把所有人都用字母表示,写出所有情况,在所有情况中选出符合题意的情况共12种,最后计算概率;第二问,第二问,利用2k 的公式计算,再查表进行比较大小即可判断.(2)睡眠少于7小时 睡眠不少于7小时 合计 男生 12 8 20 女生 14 6 20 合计261440220(126148)400.440 2.7062026142091k ⨯-⨯==≈<⨯⨯⨯所以没有90%的把握认为“睡眠时间与性别有关”B 能力提升训练1.某同学利用课余时间做了一次社交软件使用习惯调查,得到22⨯列联表如下:则下列结论正确的是( )A. 在犯错的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关B. 在犯错的概率超过0.005的前提下认为社交软件使用习惯与年龄有关C. 在犯错的概率不超过0.001的前提下认为社交软件使用习惯与年龄有关D. 在犯错的概率超过0.001的前提下认为社交软件使用习惯与年龄有关 【答案】A 【解析】()2230421681020101218K ⨯-⨯==⨯⨯⨯ ,由于6.6351010828<<,可以认为在犯错的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关,选A .2. 在独立性检验中,统计量2χ有两个临界值:3.841和6.635.当2 3.841χ>时,有95%的把握说明两个事件有关,当2 6.635χ>时,有99%的把握说明两个事件有关,当2 3.841χ≤时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算220.87χ=.根据这一数据分析,认为打鼾与患心脏病之间( )(A )有95%的把握认为两者有关 (B )约有95%的打鼾者患心脏病 (C )有99%的把握认为两者有关 (D )约有99%的打鼾者患心脏病 【答案】C【解析】比较估计值与临界值的关系20.87 6.635>,因此可以说有有99%的把握说明两个事件有关3.甲、乙、丙、丁四位同学各自对,A B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.82 0.78 0.69 0.85m106 115 124 103则哪位同学的试验结果体现,A B两变量有更强的线性相关性()A. 甲B. 乙C. 丙D. 丁【答案】D4.对某校900名学生每周的运动时间进行调查,其中男生有540名,女生有360名,根据性别利用分层抽样的方法,从这900名学生中选取60名学生进行分析,统计数据如下表(运动时间单位:小时)男生运动时间统计:女生运动时间统计:(1)计算,x y的值;(2)若每周运动时间不低于6小时的同学称为“运动爱好者”,每周运动时间低于6小时的同列联表,能否在犯错误的概率不学称为“非运动爱好者”,根据以上统计数据填写下面的22超过0.025的前提下认为“‘运动爱好者’ 与性别有关”?【答案】(1)12x =,10y =;(2)列联表见解析,能在犯错不超过0.025的前提下认为“‘运动爱好者’与性别有关”.试题解析:(1)由题意,男生应该选取36名,女生应选取24名,故12x =,10y =; (2)由题意得,2260(2416812) 6.4336243228K ⨯⨯-⨯=≈⨯⨯⨯,因为6.43 5.024>,故在犯错不超过0.025的前提下认为“‘运动爱好者’与性别有关” .5.为研究患肺癌与是否吸烟有关,做了一次相关调查,其中部分数据丢失,但可以确定的是不吸烟人数与吸烟人数相同,吸烟患肺癌人数占吸烟总人数的45;不吸烟的人数中,患肺癌与不患肺癌的比为1:4.(1)若吸烟不患肺癌的有人,现从患肺癌的人中用分层抽样的方法抽取人,再从这人中随机抽取人进行调查,求这两人都是吸烟患肺癌的概率;男生 女生 合计运动爱好者24 8 32 非运动爱好者 12 1628合计36 2460(2)若研究得到在犯错误概率不超过0.001的前提下,认为患肺癌与吸烟有关,则吸烟的人数至少有多少? 附: ()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()0P K k ≥ 0.100 0.050 0.010 0.001 0k2.7063.8416.63510.828【答案】(1)35;(2)吸烟人数至少为20人. 【解析】试题分析:(1)先求出吸烟的人有20人,按比例可得其中肺癌的有16人,不患肺癌的有4人,按分层抽样的定义可得抽取的5人中,4人患病,1人不患病,利用列举法可得抽取方式共有10种,都患病的6种,由概率计算公式可得结果;(2)设吸烟人数为5x ,列出22⨯列联表,由表计算出2 3.6K x =,根据表得3.610.828x ≥,解出x 即可得最后结果.(2)设吸烟人数为5x ,由题意可得列联表如下:患肺癌不患肺癌合计吸烟 4xx5x不吸烟 x4x 5x 总计5x5x10x由表得, ()()222241016 3.65x x xK x x -==,由题意3.610.828x ≥,∴ 3.008x ≥,x ,即吸烟人数至少为20人.∵x为整数,∴x的最小值为4.则520C 思维拓展训练1.【改编题】在性别与吃零食这两个分类变量的计算中,下列说法正确的是()A. ①②B.②③C. ①③D.②①若K2的观测值k=6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.【答案】D【解析】①若k>=6.635,我们有99%的把握认为吃零食与性别有关系,不表示有99%的可能女性,故①不正确.②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%,所以②正确.③若从统计量中求出有99%的把握认为吃零食与性别有关系,不表示有1%的可能性使得推断出现错误,故③不正确.故答案为D.2.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1;③对分类变量X与Y的随机变量k2的观测值k来说,k越小,判断“X与Y有关系”的把握程度越大.其中真命题的个数为()A. 3 B.2 C.1 D.0【答案】C3.为考察高中生的性别与是否喜欢数学课程之间的关系,在我市某普通中学高中生中随机抽取200名学生,得到如下2×2列联表:喜欢数学课不喜欢数学课合计男30 60 90女20 90 110合计50 150 200经计算K2≈6.06,根据独立性检验的基本思想,约有_________ (填百分数)的把握认为“性别与喜欢数学课之间有关系”.【答案】97.5%.4.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:专业性别非统计专业统计专业男13 10女7 20为了判断主修统计专业是否与性别有关系,根据表中的数据,计算得到2χ=_____(保留三位小数),所以判定__________(填“有”或“没有”)95%的把握认为主修统计专业与性别有关系. 【答案】4.844,有。
2015届高考文科数学二轮复习:独立性检验
3. 独立性检验的基本思想:
①独立性检验的必要性(为什么中能只凭列联表的数据和图形下结论?):列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上适用于总体.
②独立性检验的步骤(略)及原理(与反证法类似):
第一步:提出假设检验问题H
0:吸烟与患肺癌没有关系↔ H
1
:吸烟与患肺癌有关系
第二步:选择检验的指标
2
2
()
K
()()()()
n ad bc
a b c d a c b d
-
=
++++
(它越小,原假设“H
:吸
烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H
1
:吸烟与患肺癌有关系”成立的可能性越大.
第三步:查表得出结论。
2015年高考数学(理)总复习精品课件:第16章 第3讲 回归分析与独立性检验
(5)相关指数:
n
( yi $yi )2
1-
i1 n
R2=_______i_1_(_y_i __y_)_2_____.
R2 的值越大,说明残差平方和___越__小___,也就是说模型的 拟合效果___越__好___.在线性回归模型中,R2 表示解释变量对于预 报变量变化的贡献率,R2 越接近于 1,表示回归的效果越好.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,
n
(xn,yn),通过求 Q= (yi-b^xi-a^)2 的最小值而得到回归直线 i1
的方法,即求回归直线,使得样本数据的点到它的距离的平方
和___最_小____,这一方法叫做最小二乘法,则回归直线方程^y=b^x
n
n
(xi x)( yi y)
3.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类
别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的___频__数__表___,称为列联表.
假设有两个分类变量 X 和 Y,它们的可能取值分别为{x1,x2} 和{y1,y2},其样本频数列联表(称为 2×2 列联表):
2×2 列联表
高考考查过散点图的应 用、线性回归方程的求 法及独立性检验思想的
应用,预计 2015 年高考 仍将以这些点为考查重 点.
应用.
(3)了解回归的基本思想、方法及其简单应用.
1.变量间的关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另 一类是____相__关__关__系____;与函数关系不同,____相__关__关__系____是 一种非确定性关系. (2)将样本中 n 个数据点(xi,yi)(i=1,2,…,n)描在平面直 角坐标系中,表示两个变量关系的一组数据的图形叫做散点图.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法: ⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法. ②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法. ⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设Nk n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++-,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样. ⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点: ⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取Nk n=;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块五.独立性检验然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤: ①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组; ④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤: ①将数据分为“茎”、“叶”两部分; ②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根.一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当23.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:状态B 状态B 合计 状态A 11n 12n 1n + 状态A21n 22n 2n +1n +2n +n如果有调查得来的四个数据11122122n n n n ,,,,并希望根据这样的4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆya bx =+,称为变量Y 对变量x 的回归直线方程,其中ab ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆy a bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y yi n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点. 记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式: 1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆay bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有: ①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆa b ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynx yb xx xn x ====---==--∑∑∑∑,ˆˆay bx =-,其中11n i i x x n ==∑,11ni i y y n==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii i ixx y y x ynx yr ---=∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑, 把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值.同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系; ②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ; ④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明: ⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%. ⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系. ⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握典例分析性有( )A .90%B .95%C .99%D .99.5%【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【例6】 某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【例7】 某班主任对全班50名学生进行了作业量的调查,数据如下表:认为作业量大 认为作业量不大 总计男生 189 27 女生 815 23 总计 2624 50 则学生的性别与作业量的大小有关系的把握大约为( ) A .99% B .95% C . 90% D .无充分根据【例8】 下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?喝过酒 没喝过酒 总计男生77 404 481 女生16 122 138 总计93 526 619【例9】 在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?有效无效合计口服58 40 98注射64 31 95合计122 71 193【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:种子处理种子未处理合计得病32 101 133不得病61 213 274合计93 314 407根据以上数据,请问种子经过处理跟是否生病有关?【例12】气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?有效无效合计复方江剪刀草184 61 245胆黄片91 9 100合计275 70 345【例13】 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动. ⑴根据以上数据建立一个22⨯的联表;⑵判断性别与休闲方式是否有关系.【例14】 (2010课标全国卷Ⅰ高考)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:⑵能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? ⑶根据⑵的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++【例15】 某校高三年级在一次全年级的大型考试中,数学优秀的有360人,非优秀的有880人.数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?物理优秀 化学优秀 总分优秀 数学优秀 228 225 267 数学非优秀14315699【例16】 (2010辽宁高考)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .⑴甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;⑵下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:2mm ) 表1:注射药物A 后皮肤疱疹面积的频数分布表频率疱疹面积频率疱疹面积图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图(ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:附:2K ()()()()a b c d a c b d =++++【例17】 (2009辽宁20)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm )的值落在[)29.9430.06,的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,的结果如下表: 甲厂:分组 [29.86,29.90)[29.90,29.94) [29.9429.98),[29.9830.02),[30.0230.06),[30.0630.10),[30.1030.14),频数12 63 86 182 92 614乙厂:分组 [29.86,29.90) [29.90,29.94) [29.9429.98), [29.9830.02), [30.0230.06), [30.0630.10), [30.1030.14),频数29 71 85 159 76 6218 ⑴试分别估计两个分厂生产的零件的优质品率; ⑵由于以上统计数据填下面22⨯列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:()()2211221221212120.050.013.841p kn n n n nn n n n kχχ++++- =6.635≥,11。