2018版高考数学大一轮复习第十章统计与统计案例10.3变量间的相关关系统计案例教师用书文北师大版
2018届高考数学第一轮知识点梳理复习教案5(第十章统计与统计案例)
第十章⎪⎪⎪统计与统计案例 第一节 统 计突破点(一) 随机抽样1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.4.三种抽样方法的比较本节主要包括2个知识点: 1.随机抽样; 2.用样本估计总体.简单随机抽样1.抽签法的步骤第一步,将总体中的N个个体编号;第二步,将这N个号码写在形状、大小相同的号签上;第三步,将号签放在同一不透明的箱中,并搅拌均匀;第四步,从箱中每次抽取1个号签,连续抽取k次;第五步,将总体中与抽取的号签的编号一致的k个个体取出.2.随机数法的步骤第一步,将个体编号;第二步,在随机数表中任选一个数开始;第三步,从选定的数开始,按照一定抽样规则在随机数表中选取数字,取足满足要求的数字就得到样本的号码.[例1](1)以下抽样方法是简单随机抽样的是()A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验(2)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()7816657208026314070243699728019832049234493582003623486969387481A.08C.02 D.01[解析](1)选项A、B不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项C不是简单随机抽样,因为总体的个体有明显的层次;选项D是简单随机抽样.(2)由题意知前5个个体的编号为08,02,14,07,01.[答案](1)D(2)D系统抽样系统抽样的步骤(1)先将总体的N个个体编号;(2)确定分段间隔k(k∈N*),对编号进行分段.当Nn(n是样本容量)是整数时,取k=N n;(3)在第1段用简单随机抽样确定第1个个体编号l(l≤k);(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.[例2] (1)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14(2)中央电视台为了解观众对《中国好歌曲》的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.[解析] (1)由系统抽样定义可知,所分组距为84042=20,每组抽取一人,因为包含整数个组,所以抽取个体在区间[481,720]的数目为(720-480)÷20=12.(2)把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含50050=10个个体.所以需剔除2个个体,抽样间隔为10.[答案] (1)B (2)2 10 [易错提醒]用系统抽样法抽取样本,当Nn 不为整数时,取k =⎣⎢⎡⎦⎥⎤N n ,即先从总体中用简单随机抽样的方法剔除(N -nk )个个体,且剔除多余的个体不影响抽样的公平性.分层抽样进行分层抽样的相关计算时,常利用以下关系式巧解:(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.[例3] (1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )类别 人数老年教师 900 中年教师 1 800 青年教师 1 600 合计4 300 A .90 B .100 C .180D .300(2)(2016·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n 的样本,其中甲种产品有18件,则样本容量n =( )A .54B .90C .45D .126(3)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).高一 45 30 a 高二151020学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a 的值为________.[解析] (1)设该样本中的老年教师人数为x ,由题意及分层抽样的特点得x 900=3201 600,故x =180. (2)依题意得33+5+7×n =18,解得n =90,即样本容量为90.(3)由题意知1245+15=3045+15+30+10+a +20,解得a =30.[答案] (1)C (2)B (3)30 [方法技巧]分层抽样的解题策略(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同. (3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样. (4)抽样比=样本容量总体容量=各层样本数量各层个体数量.能力练通 抓应用体验的“得”与“失”1.[考点一]某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法①1,2,3, (100)②001,002, (100)③00,01,02, (99)④01,02,03, (100)其中正确的序号是()A.②③④B.③④C.②③D.①②解析:选C根据随机数法编号可知,①④编号位数不统一.2.[考点三]为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C学校中应抽取的人数为()A.10 B.12C.18 D.24解析:选A根据分层抽样的特征,从C学校中应抽取的人数为90180+270+90×60=10.3.[考点二]某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是()A.10 B.11C.12 D.16解析:选D从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.4.[考点三]某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人.解析:设A、B、C三所学校高三文科学生人数分别为x,y,z,由题知x,y,z成等差数列,所以x+z=2y,又x+y+z=1 500,所以y=500,用分层抽样方法抽取B校学生人数为1201 500×500=40.答案:405.[考点二]为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.解析:由最小的两个编号为03,09可知,抽取时的分段间隔是6.即抽取10名同学,其编号构成首项为3,公差为6的等差数列,故最大编号为3+9×6=57.答案:57突破点(二)用样本估计总体1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(3)茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.2.样本的数字特征(1)众数、中位数、平均数①标准差:样本数据到平均数的一种平均距离,一般用s表示,s=1n[(x1-x)2+(x2-x)2+…+(x n-x)2].②方差:标准差的平方s2=1n[(x1-x)2+(x2-x)2+…+(x n-x)2],其中x i(i=1,2,3,…,n)是样本数据,n是样本容量,x是样本平均数.③方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.(3)平均数、方差公式的推广若数据x1,x2,…,x n的平均数为x,方差为s2,则数据mx1+a,mx2+a,…,mx n+a的平均数为m x+a,方差为m2s2.频率分布直方图[例1](1)(2016·山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56 B.60 C.120 D.140(2)某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.[解析](1)由频率分布直方图知200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.(2)月工资收入落在(30,35](百元)内的频率为1-(0.02+0.04+0.05+0.05+0.01)×5=1-0.85=0.15,所以(30,35](百元)月工资收入段应抽出100×0.15=15(人).[答案] (1)D (2)15 [方法技巧]1.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确;(2)频率分布直方图的纵坐标是频率组距,而不是频率.2.与频率分布直方图计算有关的两个关系式 (1)频率组距×组距=频率; (2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.茎叶图1(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一; (2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据. 2.茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.[例2]某良种培育基地正在培育一小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下.品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430, 434,443,445,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407, 410,412,415,416,422,430(1)作出数据的茎叶图;(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.[解](1)画出茎叶图如图所示:(2)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.[方法技巧]茎叶图问题的求解策略(1)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表问题时,要充分对这个图表提供的样本数据进行相关的计算或者是对某些问题作出判断.(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图数据求出样本数据的数字特征,进一步估计总体情况.1近似.实际应用中,需先计算数据的平均数,分析平均水平,再计算方差(标准差),分析稳定情况.2.若给出图形,一方面可以由图形得到相应的样本数据,计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性比较方差(标准差)的大小.考法(一)与频率分布直方图交汇命题[例3](2016·北京高考)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图.(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.[解](1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:组号12345678分组[2,4](4,6](6,8](8,10](10,12](12,17](17,22](22,27]频率0.10.150.20.250.150.050.050.054×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).[方法技巧]频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考法(二)与茎叶图交汇命题[例4](1)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,乙组数据的平均数为17.4,则x,y的值分别为()甲组乙组9099y6166x629A.7,8 B.5,7 C.8,5 D.7,7(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示:87794010x 9 1则7个剩余分数的方差为________.[解析](1)甲组数据的中位数为17, 故y=7,乙组数据的平均数为3×10+20+(9+6+6+x+9)5=17.4,解得x=7.(2)由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x=91×7,解得x=4.s2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367.[答案](1)D(2)367[易错提醒]在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.考法(三)与优化决策问题交汇[例5]甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲乙丙丁平均环数x8.38.88.88.7方差s 23.5 3.6 2.2 5.4( ) A .甲 B .乙 C .丙D .丁[解析] 由题目表格中数据可知,丙平均环数最高,且方差最小,说明成绩好,且技术稳定,选C.[答案] C [方法技巧]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.能力练通 抓应用体验的“得”与“失”1.[考点一]在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16 解析:选D 设中间一组的频数为x ,依题意有x 80=14⎝ ⎛⎭⎪⎫1-x 80,解得x =16. 2.[考点二]在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.131415⎪⎪⎪⎪0 0 3 4 5 6 6 8 8 8 91 1 12 2 23 34 45 5 56 67 80 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是()A.3 B.4 C.5 D.6解析:选B35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在20÷5=4个小组中,每组取1人,共取4人.3.[考点一]某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x的值等于()A.0.12 B.0.012 C.0.18 D.0.018解析:选D依题意,0.054×10+10×x+0.01×10+0.006×10×3=1,解得x=0.018.4.[考点三·考法(二)]如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为()798446479 3A.84,4.84 B.84,1.6 C.85,1.6 D.85,4解析:选C依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.5.[考点三·考法(三)]甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):甲 10899 9 乙 10 10 799________. 解析:x -甲=x -乙=9,s 2甲=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25, s 2乙=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s 2甲,故甲更稳定.答案:甲6.[考点三·考法(一)](2016·四川高考)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x (吨),一位居民的月用水量不超过x 的部分按平价收费,超出x 的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a 的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得a=0.30.(2)由(1)知100位居民每人的月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x<3.由0.30×(x-2.5)=0.85-0.73,解得x=2.9.所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.7.[考点三·考法(二)]某车间20名工人年龄数据如下表:年龄(岁)工人数(人)19 128 329 330 531 432 340 1合计20(1)求这20(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.解:(1)由题可知,这20名工人年龄的众数是30,极差是40-19=21. (2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均数为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=120∑20i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.[全国卷5年真题集中演练——明规律] 1.(2016·全国丙卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A .各月的平均最低气温都在0 ℃以上B .七月的平均温差比一月的平均温差大C .三月和十一月的平均最高气温基本相同D .平均最高气温高于20 ℃的月份有5个解析:选D 由图形可得各月的平均最低气温都在0 ℃以上,A 正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B 正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C 正确;故D 错误.2.(2013·新课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样解析:选C由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.3.(2014·新课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125)频数62638228(1)(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?解:(1)如图所示:(2)质量指标值的样本平均数为x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.4.(2014·新课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解:(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为5 50=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.5.(2013·新课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A药的20位患者日平均增加的睡眠时间:0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.52.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4服用B药的20位患者日平均增加的睡眠时间:3.2 1.7 1.90.80.9 2.4 1.2 2.6 1.3 1.41.60.5 1.80.6 2.1 1.1 2.5 1.2 2.70.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?A药B药0.1.2.3.解:(1)设A药观测数据的平均数为x,B药观测数据的平均数为y-.由观测结果可得x-=120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y-=120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.由以上计算结果可得x->y-,因此可看出A药的疗效更好.(2)由观测结果可绘制如下茎叶图:从以上茎叶图可以看出,A药疗效的试验结果有710的叶集中在茎2,3上,而B药疗效的试验结果有710的叶集中在茎0,1上,由此可看出A药的疗效更好.[课时达标检测] 重点保分课时——一练小题夯双基,二练题点过高考[练基础小题——强化运算能力]1.某学校为了了解某年高考数学的考试成绩,在高考后对该校1 200名考生进行抽样调查,其中有400名文科考生,600名理科考生,200名艺术和体育类考生,从中抽取120名考生作为样本,记这项调查为①;从10名家长中随机抽取3名参加座谈会,记这项调查为②,则完成①,②这两项调查宜采用的抽样方法依次是()A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法解析:选B在①中,文科考生、理科考生、艺术和体育类考生会存在差异,。
高三数学(文)一轮复习课件:变量间的相关关系、统计案例
某商品销售量 y(件)与销售价格 x(元/件)负相关,
则其回归方程可能是( )
A. yˆ 10x 200
B. yˆ 10x 200
C. yˆ 10x 200
D. yˆ 10x 200
【解析】 ∵商品销售量 y(件)与销售价格 x(元/件)负相 关,∴a<0,排除 B,D.又∵x=0 时,y>0 ,∴排除 C,答案为 A. 【答案】 A
10.3 变量间的相关关系、统计案例
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从 左下角 到 右上角 的区域,对于 两个变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从 左上角 到 右下角 的区域,对于 两个变量的这种相关关系,我们将它称为负相关.
2/18/2020
和b为模型的_未__知__参__数___,_e__称为随机误差.
2/18/2020
(4)相关系数
n
xi- x yi- y
i=1
n
n
xi- x 2 yi- y 2
i=1
i=1
①r=____________________________;
②当r>0时,表明两个变量__正__相__关__; 当r<0时,表明两个变量__负__相___关__.
2/18/2020
有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85
分以下为非优秀统计成绩后,得到如下的列联表.
优秀
非优秀
总计
甲班
10
乙班
30
合计 105
已知从全部 105 人中随机抽取 1 人为优秀的概率为 2 . 7
(1)请完成上面的列联表;
2018版高考数学大一轮复习第十章统计与统计案例10.3变量间的相关关系统计案例教师用书文北师大版
2018版高考数学大一轮复习 第十章 统计与统计案例 10.3 变量间的相关关系、统计案例教师用书 文 北师大版1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是非线性相关的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.2.线性回归方程(1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法.(2)线性回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数. ⎩⎨⎧ b =∑n i =1 -x -y ∑n i =1 -x =∑n i =1xiyi -n x y ∑n i =1x2i -n x 2,a =y -b x .3.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,(x ,y )称为样本点的中心.(3)相关系数①r =∑n i =1-x -y ∑n i =1 -x ∑n i =1 -y=∑n i =1xiyi -n x y∑n i =1x2i -n x 2 ∑n i =1y2i -n y 2; ②当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关;当r =0时,表明两个变量线性不相关.|r |值越接近于1,表明两个变量之间的线性相关程度越高.|r |值越接近于0,表明两个变量之间的线性相关程度越低.4.独立性检验设A ,B 为两个变量,每一个变量都可以取两个值,变量A :A 1,A 2=A1;变量B :B 1,B 2=B1.2×2列联表:构造一个统计量χ2=-++++. 利用统计量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的; 当χ2>2.706时,有90%的把握判定变量A ,B 有关联;当χ2>3.841时,有95%的把握判定变量A ,B 有关联;当χ2>6.635时,有99%的把握判定变量A ,B 有关联.【思考辨析】判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × )。
高考数学一轮复习 第十章 统计与统计案例 10.3 变量间的相关关系、统计案例真题演练集训 理 新人
系、统计案例真题演练集训理新人教A版编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018版高考数学一轮复习第十章统计与统计案例10.3 变量间的相关关系、统计案例真题演练集训理新人教A版)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018版高考数学一轮复习第十章统计与统计案例10.3 变量间的相关关系、统计案例真题演练集训理新人教A版的全部内容。
关系、统计案例真题演练集训理新人教A版1.[2015·福建卷]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8。
28.610.011。
311.9支出y(万元) 6.27。
58。
08.59.8根据上表可得回归直线方程y,=错误!x+错误!,其中错误!=0.76,错误!=错误!-错误!错误!。
据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11。
4万元 B.11.8万元C.12。
0万元 D.12。
2万元答案:B解析:由题意知,x=错误!=10,错误!=错误!=8,∴错误!=8-0。
76×10=0。
4,∴当x=15时,错误!=0。
76×15+0.4=11。
8(万元).2.[2016·新课标全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:错误!i=9.32,错误!i y i=40。
2018届高考数学第一轮知识点梳理复习教案5(第十章统计与统计案例)
第十章⎪⎪⎪统计与统计案例第一节 统 计突破点(一) 随机抽样1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.4.三种抽样方法的比较本节主要包括2个知识点: 1.随机抽样; 2.用样本估计总体.1.抽签法的步骤第一步,将总体中的N个个体编号;第二步,将这N个号码写在形状、大小相同的号签上;第三步,将号签放在同一不透明的箱中,并搅拌均匀;第四步,从箱中每次抽取1个号签,连续抽取k次;第五步,将总体中与抽取的号签的编号一致的k个个体取出.2.随机数法的步骤第一步,将个体编号;第二步,在随机数表中任选一个数开始;第三步,从选定的数开始,按照一定抽样规则在随机数表中选取数字,取足满足要求的数字就得到样本的号码.[例1](1)以下抽样方法是简单随机抽样的是()A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验(2)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A.08C.02 D.01[解析](1)选项A、B不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项C不是简单随机抽样,因为总体的个体有明显的层次;选项D是简单随机抽样.(2)由题意知前5个个体的编号为08,02,14,07,01.[答案](1)D(2)D系统抽样的步骤(1)先将总体的N个个体编号;(2)确定分段间隔k(k∈N*),对编号进行分段.当Nn(n是样本容量)是整数时,取k=Nn;(3)在第1段用简单随机抽样确定第1个个体编号l(l≤k);(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.[例2] (1)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14(2)中央电视台为了解观众对《中国好歌曲》的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.[解析] (1)由系统抽样定义可知,所分组距为84042=20,每组抽取一人,因为包含整数个组,所以抽取个体在区间[481,720]的数目为(720-480)÷20=12.(2)把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含50050=10个个体.所以需剔除2个个体,抽样间隔为10.[答案] (1)B (2)2 10 [易错提醒]用系统抽样法抽取样本,当Nn 不为整数时,取k =⎣⎢⎡⎦⎥⎤N n ,即先从总体中用简单随机抽样的方法剔除(N -nk )个个体,且剔除多余的个体不影响抽样的公平性.分层抽样进行分层抽样的相关计算时,常利用以下关系式巧解:(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.[例3] (1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )A .90B .100C .180D .300(2)(2016·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n 的样本,其中甲种产品有18件,则样本容量n =( )A .54B .90C .45D .126(3)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).高二151020学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.[解析](1)设该样本中的老年教师人数为x,由题意及分层抽样的特点得x 900=3201 600,故x=180.(2)依题意得33+5+7×n=18,解得n=90,即样本容量为90.(3)由题意知1245+15=3045+15+30+10+a+20,解得a=30.[答案](1)C(2)B(3)30[方法技巧]分层抽样的解题策略(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同.(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.(4)抽样比=样本容量总体容量=各层样本数量各层个体数量.能力练通抓应用体验的“得”与“失”1.[考点一]某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法①1,2,3, (100)②001,002, (100)③00,01,02, (99)④01,02,03, (100)其中正确的序号是()A.②③④B.③④C.②③D.①②解析:选C根据随机数法编号可知,①④编号位数不统一.2.[考点三]为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C学校中应抽取的人数为()A.10 B.12C.18 D.24解析:选A根据分层抽样的特征,从C学校中应抽取的人数为90180+270+90×60=10.3.[考点二]某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是()A.10 B.11C.12 D.16解析:选D从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.4.[考点三]某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C 三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人.解析:设A、B、C三所学校高三文科学生人数分别为x,y,z,由题知x,y,z 成等差数列,所以x+z=2y,又x+y+z=1 500,所以y=500,用分层抽样方法抽取B校学生人数为1201 500×500=40.答案:405.[考点二]为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.解析:由最小的两个编号为03,09可知,抽取时的分段间隔是6.即抽取10名同学,其编号构成首项为3,公差为6的等差数列,故最大编号为3+9×6=57.答案:57突破点(二)用样本估计总体1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(3)茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.2.样本的数字特征(1)众数、中位数、平均数标准差、方差①标准差:样本数据到平均数的一种平均距离,一般用s 表示,s = 1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. ②方差:标准差的平方s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x 是样本平均数.③方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.(3)平均数、方差公式的推广若数据x 1,x 2,…,x n 的平均数为x ,方差为s 2,则数据mx 1+a ,mx 2+a ,…,mx n +a 的平均数为m x +a ,方差为m 2s 2.[例1](1)(2016·山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56 B.60 C.120 D.140(2)某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.[解析](1)由频率分布直方图知200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.(2)月工资收入落在(30,35](百元)内的频率为1-(0.02+0.04+0.05+0.05+0.01)×5=1-0.85=0.15,所以(30,35](百元)月工资收入段应抽出100×0.15=15(人).[答案](1)D(2)15[方法技巧]1.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确; (2)频率分布直方图的纵坐标是频率组距,而不是频率.2.与频率分布直方图计算有关的两个关系式 (1)频率组距×组距=频率; (2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.茎叶图1(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一; (2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据. 2.茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.[例2] 某良种培育基地正在培育一小麦新品种A ,将其与原有的一个优良品种B 进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下.品种A :357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B :363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)作出数据的茎叶图;(2)通过观察茎叶图,对品种A 与B 的亩产量及其稳定性进行比较,写出统计结论.[解](1)画出茎叶图如图所示:(2)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.[方法技巧]茎叶图问题的求解策略(1)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表问题时,要充分对这个图表提供的样本数据进行相关的计算或者是对某些问题作出判断.(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图数据求出样本数据的数字特征,进一步估计总体情况.样本的数字特征1似.实际应用中,需先计算数据的平均数,分析平均水平,再计算方差(标准差),分析稳定情况.2.若给出图形,一方面可以由图形得到相应的样本数据,计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性比较方差(标准差)的大小.考法(一)与频率分布直方图交汇命题[例3](2016·北京高考)某市居民用水拟实行阶梯水价,每人月用水量中不超过w 立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图.(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.[解](1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:组号12345678分组[2,4](4,6](6,8](8,10](10,12](12,17](17,22](22,27]频率0.10.150.20.250.150.050.050.054×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).[方法技巧]频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考法(二) 与茎叶图交汇命题[例4] (1)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,乙组数据的平均数为17.4,则x ,y 的值分别为( )A.7,8 B .5,7 (2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:8 7 7 941x91则7个剩余分数的方差为________.[解析] (1)甲组数据的中位数为17, 故y =7,乙组数据的平均数为3×10+20+(9+6+6+x +9)5=17.4,解得x =7.(2)由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x =91×7,解得x =4.s 2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367.[答案] (1)D (2)367[易错提醒]在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.考法(三)与优化决策问题交汇[例5]甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲乙丙丁平均环数x8.38.88.88.7方差s2 3.5 3.6 2.2 5.4() A.甲B.乙C.丙D.丁[解析]由题目表格中数据可知,丙平均环数最高,且方差最小,说明成绩好,且技术稳定,选C.[答案] C[方法技巧]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.能力练通抓应用体验的“得”与“失”1.[考点一]在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为()A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x ,依题意有x 80=14⎝ ⎛⎭⎪⎫1-x 80,解得x =16.2.[考点二]在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.131415⎪⎪⎪⎪0 0 3 4 5 6 6 8 8 8 91 1 12 2 23 34 45 5 56 67 80 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A .3B .4C .5D .6解析:选B 35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在20÷5=4个小组中,每组取1人,共取4人.3.[考点一]某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x 的值等于( )A .0.12B .0.012C .0.18D .0.018解析:选D 依题意,0.054×10+10×x +0.01×10+0.006×10×3=1,解得 x =0.018.4.[考点三·考法(二)]如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )7 9 84 4 6 479 3A.84,4.84 B.84,1.6 C.85,1.6 D.85,4解析:选C依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.5.[考点三·考法(三)]甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):如果甲、乙两人中只有________.解析:x-甲=x-乙=9,s2甲=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25,s2乙=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s2甲,故甲更稳定.答案:甲6.[考点三·考法(一)](2016·四川高考)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得a=0.30.(2)由(1)知100位居民每人的月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x<3.由0.30×(x-2.5)=0.85-0.73,解得x=2.9.所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.7.[考点三·考法(二)]某车间20名工人年龄数据如下表:(1)求这20(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.解:(1)由题可知,这20名工人年龄的众数是30,极差是40-19=21. (2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均数为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=120∑20 i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.[全国卷5年真题集中演练——明规律] 1.(2016·全国丙卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A .各月的平均最低气温都在0 ℃以上B .七月的平均温差比一月的平均温差大C .三月和十一月的平均最高气温基本相同D .平均最高气温高于20 ℃的月份有5个解析:选D 由图形可得各月的平均最低气温都在0 ℃以上,A 正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B 正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C 正确;故D 错误.2.(2013·新课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样解析:选C由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B 和D.故选C.3.(2014·新课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?解:(1)如图所示:(2)质量指标值的样本平均数为x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.4.(2014·新课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解:(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.5.(2013·新课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A药的20位患者日平均增加的睡眠时间:0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.52.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4服用B药的20位患者日平均增加的睡眠时间:3.2 1.7 1.90.80.9 2.4 1.2 2.6 1.3 1.41.60.5 1.80.6 2.1 1.1 2.5 1.2 2.70.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?A药解:(1)设A药观测数据的平均数为x,B药观测数据的平均数为y-.由观测结果可得x-=120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y-=120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.由以上计算结果可得x->y-,因此可看出A药的疗效更好.(2)由观测结果可绘制如下茎叶图:3. 2从以上茎叶图可以看出,A药疗效的试验结果有710的叶集中在茎2,3上,而B药疗效的试验结果有710的叶集中在茎0,1上,由此可看出A药的疗效更好.[课时达标检测] 重点保分课时——一练小题夯双基,二练题点过高考[练基础小题——强化运算能力]1.某学校为了了解某年高考数学的考试成绩,在高考后对该校1 200名考生进行抽样调查,其中有400名文科考生,600名理科考生,200名艺术和体育类考生,从中抽取120名考生作为样本,记这项调查为①;从10名家长中随机抽取3名参加座谈会,记这项调查为②,则完成①,②这两项调查宜采用的抽样方法依次是() A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法解析:选B在①中,文科考生、理科考生、艺术和体育类考生会存在差异,采用分层抽样法较好;在②中,抽取的样本个数较少,宜采用简单随机抽样法.2.某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n=()A.660 B.720 C.780 D.800解析:选B由已知条件,抽样比为13780=160,从而35600+780+n=160,解得n=720.3.某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为() A.93 B.123 C.137 D.167解析:选C初中部的女教师人数为110×70%=77,高中部的女教师人数为150×(1-60%)=60,该校女教师的人数为77+60=137,故选C.4.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为()A.①③B.①④C.②③D.②④解析:选B∵x甲=26+28+29+31+315=29,。
2018高考数学大一轮复习 第十章 统计与统计案例 第一节 统计课件 理
2.系统抽样 在抽样时,将总体分成_均__衡_的几个部分,然后按照_事__先__确__定__ 的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽 样方法叫做系统抽样(也称为机械抽样). 3.分层抽样 在抽样时,将总体分成_互__不__交__叉_的层,然后按照一__定__的__比___例_, 从各层独立地抽取一定数量的个体,将各层取出的个体合在一起 作为样本,这种抽样方法是一种分层抽样.
①1,2,3,…,100; ②001,002,…,100;
③00,01,02,…,99; ④01,02,03,…,100.
其中正确的序号是
()
A.②③④ B.③④ C.②③
D.①②
解析:根据随机数法编号可知,①④编号位数不统一.
答案:C
2.[考点三]为了调查老师对微课堂的了解程度,某市拟采用分
层抽样的方法从 A,B,C 三所中学抽取 60 名教师进行调查,
系统抽样
系统抽样的步骤 (1)先将总体的 N 个个体编号; (2)确定分段间隔 k(k∈N*),对编号进行分段.当Nn(n 是样 本容量)是整数时,取 k=Nn; (3)在第 1 段用简单随机抽样确定第 1 个个体编号 l(l≤k);
(4)按照一定的规则抽取样本.通常是将 l 加上间隔 k 得到第 2 个个体编号(l+k),再加 k 得到第 3 个个体编号(l +2k),依次进行下去,直到获取整个样本.
[答案] 2 10
[易错提醒] 用系统抽样法抽取样本,当Nn不为整数时,取 k=Nn,
即先从总体中用简单随机抽样的方法剔除(N-nk)个个体,
且剔除多余的个体不影响抽样的公平性.
分层抽样 进行分层抽样的相关计算时,常利用以下关系式巧解: (1)总样体本的容个量数nN=该层该层 抽取的个 的个体数 体数; (2)总体中某两层的个体数之比=样本中这两层抽取的个 体数之比.
高三数学一轮精品复习学案:第十章 统计、统计案例
高三数学一轮精品复习学案:第十章统计、统计案例【知识特点】1.统计中所学的内容是数理统计中最基本的问题,通过这些内容主要来介绍相关的统计思想和方法,了解一些有关统计学的基本知识,并能够应用几个基本概念、基本公式来处理实际生活中的一些基本问题。
2.统计案例为新课标中新增内容,主要是通过案例体会运用统计方法解决实际问题的思想和方法。
增加了统计和统计案例后,使得高中数学的整个体系更加完善了,有利于开阔数学视野,丰富数学思想和方法。
【重点关注】1.从对新课标高考试题的分析可以发现,主要考查抽样方法、各种统计图表、样本数字特征等。
对这部分的考查主要以选择题和填空题的形式出现。
2.统计案例中的独立性检验和回归分析也会逐步在高考题中出现,难度不会太大,多数情况下是考查两种统计分析方法的简单知识,以选择题和填空题为主。
【地位与作用】《全国新课程标准高考数学考试大纲》中对考生能力要求明确界定为空间想象能力、抽象概括能力、推理论证能力、运算求解能力、数据处理能力以及应用意识和创新意识等六个方面,其中数据处理能力是首次提出的一个能力要求,这定义为:会收集数据、整理数据、分析数据,能从大量数据中抽取对研究问题有用的信息,并作出判断。
数据处理能力主要依据统计(高考考试大纲对知识点要求如下表所示)或统计案例中的方法对数据进行整理、分析,并解决给定的实际问题,对统计的要求已提升到能力的高度。
统计的思想方法广泛应用于自然科学和社会科学的研究中,统计的语言不仅是数学的语言,也是各学科经常引用的大众语言,统计知识是作为一个新时期公民所比备的知识。
统计学就是应用科学的方法收集、整理、分析、描述所要研究的数据资料,然后根据所得到的结果,进行推断或决策的一门实用性很强的科学。
统计这部分内容,在高中数学新课程中,主要分布在必修3第二章(约16课时)与选修2—3第三章(约9课时)。
相对于高中学生的认知水平和生活经历还相对不是很高,所以它只能属于非重点内容,所出的相关题目一般来说都相对比较简单。
高考数学一轮复习 第10章 统计、统计案例 第3讲 变量相关关系与统计案例课件
2.回归方程与回归分析 (1)线性相关关系与回归直线 如果散点图中点的分布从整体上看大致在 04 ___一__条__直__线____附近,就称 这两个变量之间具有线性相关关系,这条直线叫做回归直线. (2)回归方程 ①最小二乘法:求回归直线使得样本数据的点到回归直线的 05 __距__离___ __的__平__方__和___最小的方法叫做最小二乘法. ②回归方程:方程y^=b^ x+a^ 是两个具有线性相关关系的变量的一组数 据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^ ,b^ 是待定数.
12/11/2021
1.相关关系与函数关系的异同 共同点:二者都是指两个变量间的关系; 不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关 系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系. 2.从散点图看相关性 正相关:样本点分布在从左下角到右上角的区域内; 负相关:样本点分布在从左上角到右下角的区域内. 3.回归直线y^=b^ x+a^ 必过样本点的中心.
解析 答案
2.(2019·湖南衡阳联考)甲、乙、丙、丁四位同学各自对 A,B 两个变
量的线性相关性做了试验,并用回归分析方法分别求得相关系数 r 与残差
平方和 m,如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现的 A,B 两变量有更强的线性相关性( )
列联表.参照附表,能得到的正确结论是( )
男
女
总计
爱好
40
20
60
不爱好
20
2018届高考数学第十章算法初步统计与统计案例10.4变量间的相关关系统计案例课件文 新人教A版
-2-
考纲要求 1.会作两个有关联变量的数据 的散点图,会利用散点图认识 变量间的相关关系. 2.了解最小二乘法的思想,能 根据给出的线性回归方程系 数公式建立线性回归方程(线 性回归方程系数公式不要求 记忆). 3.了解独立性检验的基本思 想、方法及其简单应用. 4.了解回归分析的基本思想、 方法及其简单应用.
2 ������ 2
������
.
∑ (������������ -������) ∑ (������������ -������) ������=1 ������=1
当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关. r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对 值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常 当|r|大于0.75时,认为两个变量有很强的线性相关性.
五年考题统计 命题规律及趋势 1.通过对近五年 高考试卷的统计 2015 全国Ⅰ,文 分析可知,高考 对本节内容的考 19 2016 全国Ⅲ,文 查逐渐升温,已 经成为高考的热 18 2017 全国Ⅰ,文 点内容. 19 2.考查的重点是 2017 全国Ⅱ,文 回归分析和独立 19 性检验,并且以 解答题的形式呈 现.
-4知识梳理 考点自测
(4)非线性相关:若散点图上所有点看上去都在 某条曲线 附 近波动,则称此相关为非线性相关.此时,可以用 一条曲线 来 拟合. (5)不相关:如果所有的点在散点图中 没有显示任何关系 , 那么称变量间是不相关的.
-5知识梳理散点图上看,如果这些点从整体上看大致分布在通过散点图 中心的一条直线附近,称两个变量之间具有 线性相关关系,这条直 回归直线 线叫做 .
2018年高考数学一轮温习第十章算法初步统计统计案例课时达标67变量间的相关关系与统计案例理
2018年高考数学一轮温习 第十章 算法初步、统计、统计案例 课时达标67 变量间的相关关系与统计案例 理[解密考纲]本节内容在高考中,三种题型均有考查,文字量比较大,但题目较容易. 一、选择题1.登山族为了了解某山高y (km)与气温x (℃)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:由表中数据,取得线性回归方程y =-2x +a (a ∈R ),由此请估量出山高72(km)处气温的度数为( D ) A .-10 B .-8 C .-4D .-6解析:由题意可得:x =10,y =40, 因此a ^=y +2x =40+2×10=60.因此y ^=-2x +60,当y ^=72时,有-2x +60=72,解得x =-6,应选D .2.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8)其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,那么实数a ^的值是( B )A .116B .18C .14D .12解析:依题意可知样本中心点为⎝ ⎛⎭⎪⎫34,38,那么38=13×34+a ^,解得a ^=18,应选B . 3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,假设所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,那么这组样本数据的样本相关系数为( D )A .-1B .0C .12D .1解析:由题设可知这组样本中的数据完全正相关,又都在y =12x +1上,故相关系数为1,应选D .4.(2017·辽宁大连双基测试)关于以下表格所示五个散点,已知求得的线性回归方程为y ^=0.8x -155,那么实数m 的值为( A )A .8 C .8.4D .8.5解析:x =196+197+200+203+2045=200,y =1+3+6+7+m 5=17+m5,样本中心点为⎝ ⎛⎭⎪⎫200,17+m 5, 将样本中心点⎝⎛⎭⎪⎫200,17+m 5代入y ^=0.8x -155, 可得m =8,应选A .5.如表提供了某厂节能降耗技术改造后在生产A 产品进程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据,依照表提供的数据,求出y关于x 的线性回归方程为y ^=0.7x +0.35,那么以下结论错误的选项是( B )A B .t 的取值必然是3.15 C .回归直线必然过(4.5,3.5)D .A 产品每多生产1吨,那么相应的生产能耗约增加0.7吨 解析:由题意,x =3+4+5+64=4.5, 因为y ^=0.7x +0.35,因此y =0.7×4.5+0.35=3.5,因此t =4×3.5-2.5-4-4.5=3,应选B .6.(2017·福建泉州模拟)已知某产品持续4个月的广告费x 1(千元)与销售额y 1(万元),通过对这些数据的处置,取得如下数据信息:①∑i =44x i =18,∑i =44y i =14;②广告费用x 和销售额y 之间具有较强的线性相关关系; ③回归直线方程为y ^=b ^x +a ^中的b ^=0.8(用最小二乘法求得). 那么广告费用为6千元时,可预测销售额约为( B ) A .3.5万元 B .4.7万元 C .4.9万元D .6.5万元解析:因为∑i =14x i =18,∑i =14y i =14,因此x =92,y =72,因为回归直线方程为y ^=b ^x +a ^中的b ^=0.8, 因此72=0.8×92+a ^,因此a ^=-110,因此y ^=0.8x -110.故x =6时,可预测销售额约为4.7万元,应选B . 二、填空题7.已知x ,y 的取值如下表:从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ,那么实数a 的值为-0.61.解析:x =2+3+4+54=3.5,y =2.2+3.8+5.5+6.54=4.5,回归方程必过样本的中心点(x ,y ).把(3.5,4.5)代入回归方程,计算得a ^=-0.61.8.高三某班学生每周用于物理学习的时刻x (单位:小时)与物理成绩y (单位:分)之间有如下关系:13.5 (. 解析:由已知可得x =24+15+23+19+16+11+20+16+17+1310=17.4,y =92+79+97+89+64+47+83+68+71+5910=74.9.设回归直线方程为y ^=3.53x +a ^, 那么74.9=3.53×17.4+a ^解得a ^≈13.5. 9.以下四个命题:①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,如此的抽样是分层抽样;②两个随机变量相关性越强,那么相关系数的绝对值越接近于1;③在回归直线方程y ^=0.2x +12中,当说明变量x 每增加一个单位时,预报变量y ^平均增加0.2单位; ④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来讲,k 越小,“X 与Y 有关系”的把握程度越大. 其中所有正确的选项是②③.(填序号)解析:①是系统抽样;关于④,随机变量K 2的观测值k 越小,说明两个变量有关系的把握程度越小. 三、解答题10.下表是高三某位文科生持续5次月考的历史、政治的成绩,结果统计如下:月份 9 10 11 12 1 历史/x 分 79 81 83 85 87 政治/y 分7779798283(1)求该生5次月考历史成绩的平均分和政治成绩的方差;(2)一样来讲,学生的历史成绩与政治成绩有较强的线性相关关系,依照上表提供的数据,求两个变量x ,y 的线性回归方程y ^=b ^x +a ^.⎝⎛⎭⎪⎪⎫附:b ^=∑i =1n x i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x解析:(1)x =15×(79+81+83+85+87)=83,∵y =15(77+79+79+82+83)=80,∴s 2y =15[(77-80)2+(79-80)2+(79-80)2+(82-80)2+(83-80)2]=4.8.(2)∵∑i =15(x i -x )(y i -y )=30,∑i =15(x i -x )2=40,∴b ^=0.75,a ^=y -b ^x =17.75.那么所求的线性回归方程为y ^=0.75x +17.75.11.(2017·河北石家庄调研)某学校高中毕业班有男生900人,女生600人,学校为了对高三学生数学学习情形进行分析,从高三年级依照性别进行分层抽样,抽取200名学生成绩,统计数据如下表所示:分数段/分 [50,70) [70,90) [90,110) [110,130)[130,150)总计 频数2040705020200(2)若是样本数据中,有60名女生数学成绩合格,请完成如下数学成绩与性别的列联表,并判定是不是有90%的把握以为“该校学生的数学成绩与性别有关”.女生 男生 总计 及格人数 60 不及格人数 总计参考公式:K 2=n a +bc +d a +cb +d.P (K 2≥k0)0.10 0.050 0.010 k2.7063.8416.635解析:(1)高三学生数学平均成绩为1200(60×20+80×40+100×70+120×50+140×20)=101,估量高三学生数学平均成绩为101分,合格学生人数为70+50+20200×(900+600)=1 050.(2)女生 男生 总计 及格人数 60 80 140 不及格人数 20 40 60 总计80120200K 2的观测值k =200×60×40-20×80280×120×60×140=10063≈1.587<2.706, 因此没有90%的把握以为“该校学生的数学成绩与性别有关”.12.一家商场为了确信营销策略,进行了四次投入促销费用x 和商场实际销售额的实验,取得如下数据:投入促销费用x /万元 2 3 5 6 商场实际营销额y /万元100200300400(1)(2)求出x ,y 之间的回归直线方程y ^=b ^x +a ^;(3)假设该商场打算营销额不低于600万元,那么至少要投入多少万元的促销费用? 解析:(1)散点图,如下图,从图上能够看出两个变量具有较好的线性相关性.(2)x =2+3+5+64=4,y -=100+200+300+4004=250,∑i =14(x i -x )2=(2-4)2+(3-4)2+(5-4)2+(6-4)2=4+1+1+4=10,∑i =14(x 1-x )(y i -y -)=(-2)×(-150)+(-1)×(-50)+1×50+2×150=700.b ^=∑i =14x i -xy i -y-∑i =14x i -x2=70010=70, a ^=y --b ^x =250-70×4=-30.故所求的回归直线方程为y ^=70x -30. (3)令70x -30≥600,即x ≥600+3070=9(万元). 即该商场打算营销额不低于600万元,那么至少要投入9万元的促销费用.。
2018版高考数学复习第十章统计与统计案例10.3变量间的相关关系统计案例教师用书文新人教版
2018版高考数学大一轮复习 第十章 统计与统计案例 10.3 变量间的相关关系、统计案例教师用书 文 新人教版1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑n i =1x i -x y i-y∑ni =1 x i-x2=∑ni =1x i y i -n x y∑n i =1x 2i -n x2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=n ad -bc a +bc +d a +cb +d,其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. 【思考辨析】判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )(4)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( × )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( √ )(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( × )1.(2015·湖北)已知变量x 和y 满足关系y ^=-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 答案 C解析 因为y ^=-0.1x +1,-0.1<0,所以x 与y 负相关.又y 与z 正相关,故可设z ^=b ^y+a ^(b ^>0),所以z ^=-0.1b ^x +b ^+a ^,-0.1b ^<0,所以x 与z 负相关.故选C. 2.(教材改编)下面是2×2列联表:则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74 D .74,52答案 C解析 ∵a +21=73,∴a =52.又a +22=b ,∴b =74.3.(2017·重庆质检)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A 和B 中的直线方程进行检验,可以排除B ,故选A.4.(2017·湖南三校联考)某产品在某零售摊位的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得线性回归方程y ^=b ^x +a ^中的b ^=-4,据此模型预测零售价为15元时,每天的销售量为( )A .51个B .50个C .49个D .48个 答案 C解析 由题意知x =17.5,y =39,代入线性回归方程得a ^=109,109-15×4=49,故选C.5.(2016·玉溪一中月考)利用独立性检验来判断两个分类变量X 和Y 是否有关系,通过查阅下表来确定“X 和Y 有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查.经过计算得K 2≈3.855,那么就有________%的把握认为用电脑时间与视力下降有关系.答案 95解析 根据表格发现3.855>3.841,3.841对应的是0.05,所以根据独立性检验原理可知有95% 的把握认为用电脑时间与视力下降有关系.题型一 相关关系的判断例1 (1)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系; ②在该相关关系中,若用21e c xy c =拟合时的相关系数的平方为r 21,用y ^=b ^x +a ^拟合时的相关系数的平方为r 22,则r 21>r 22; ③x 、y 之间不能建立线性回归方程. 答案 (1)D (2)①②解析 (1)由线性回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.(2)①显然正确;由散点图知,用21ec xy c =拟合的效果比用y ^=b ^x +a ^拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确. 思维升华 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.(1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C.12D .1(2)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( ) A .r 2<r 1<0 B .0<r 2<r 1 C .r 2<0<r 1 D .r 2=r 1答案 (1)D (2)C解析 (1)所有点均在直线上,则样本相关系数最大,即为1,故选D.(2)对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,故选C.题型二 线性回归分析例2 (2016·全国丙卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码17分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解 (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55.∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32= 2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点的中心求系数.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.(2015·课标全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 题型三 独立性检验例3 (2016·福建厦门三中模拟)某大型企业人力资源部为了研究企业员工工作的积极性和对待企业改革的态度的关系,随机抽取了100名员工进行调查,其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的有15人. (1)根据以上数据建立一个2×2列联表;(2)对于人力资源部的研究项目,根据以上数据是否可以认为企业的全体员工对待企业改革的态度与其工作积极性有关系?参考公式:K2=n ad-bc2a +b c+d a+c b+d(其中n=a+b+c+d)解(1)根据题设条件,得2×2列联表如下:(2)提出假设:企业的全体员工对待企业改革的态度与其工作积极性无关.根据(1)中的数据,可以求得K2=-250×50×19×81≈7.862>6.635,所以有99%的把握认为抽样员工对待企业改革的态度与工作积极性有关,从而认为企业的全体员工对待企业改革的态度与其工作积极性有关.思维升华(1)比较几个分类变量有关联的可能性大小的方法①通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.②通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.(2)独立性检验的一般步骤①根据样本数据制成2×2列联表.②根据公式K2=n ad-bc2a +b a+c b+d c+d计算K2的观测值k.③比较k与临界值的大小关系,作统计推断.(2017·衡阳联考)2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名. (1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系? (2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率. 附:K 2=n ad -bc 2a+bc +d a +cb +d解 (1)由题意可得2×2列联表如下:根据2×2列联表中数据,得K 2的观测值为 k =800×-2160×640×200×600≈16.667>10.828.∴能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系. (2)设其他工作人员为丙和丁,4人分组的所有情况如下表.由表可知,分组的情况共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P =26=13.21.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y ^=b ^x +a ^; (2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.对处理的数据,容易算得x =0,y =3.2,[4分]b ^=--+--+2×19+4×29-5×0×3.2-2+-2+22+42-5×02=26040=6.5, a ^=y -b ^x =3.2.[6分]由上述计算结果,知所求线性回归方程为y ^-257=6.5(x -2010)+3.2,即y ^=6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).[12分]1.(2016·衡水质检)具有线性相关关系的变量x ,y 满足一组数据如下表所示.若y 与x 的线性回归方程为y ^=3x -32,则m 的值是( )A.4B.92 C .5 D .6答案 A解析 由已知得x =32,y =m4+2,又因为点(x ,y )在直线y ^=3x -32上,所以m 4+2=3×32-32,得m =4.2.(2016·湖南师大附中月考)已知x ,y 的取值如下表:从所得散点图中分析可知:y 与x 线性相关,且y ^=0.95x +a ^,则x =13时,y 等于( ) A .1.45 B .13.8 C .13 D .12.8 答案 B解析 由题意,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25,∵y 与x 线性相关,且y ^=0.95x +a ^,∴5.25=0.95×4+a ^,∴a ^=1.45, 从而当x =13时,有y =13.8.故选B.3.(2017·泰安月考)为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:附:参考公式及数据: (1)统计量:K 2=n ad -bc 2a +bc +d a +cb +d(n =a +b +c +d ).(2)独立性检验的临界值表:则下列说法正确的是( )A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关 答案 C 解析 因为K 2=-220×20×21×19≈4.912,3.841<K 2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关.4.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 ∵0.85>0,∴y 与x 正相关,∴A 正确; ∵回归直线经过样本点的中心(x ,y ),∴B 正确;∵Δy =0.85(x +1)-85.71-(0.85x -85.71)=0.85, ∴C 正确.故选D.5.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:附:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系” 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误. 根据列联表中的数据, 得到K 2=-255×50×30×75≈6.109>5.024,因此有97.5%的把握认为“成绩与班级有关系”.6.已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y ^=b ^x +a ^,则“(x 0,y 0)满足线性回归方程y ^=b ^x +a ^”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件答案 B解析 x 0,y 0为这10组数据的平均数,根据公式计算线性回归方程y ^=b ^x +a ^的b ^以后,再根据a ^=y -b ^x (x ,y 为样本平均数)求得a ^.因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点. 7.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,随机变量K 2的观测值k 越小,说明两个相关变量有关系的把握程度越小.8.(2016·郑州模拟)对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是________. 答案 18解析 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38, 则38=13×34+a ^ ,解得a ^=18. 9.某百货公司1~6月份的销售量x 与利润y 的统计数据如下表:(1)根据2~5月份的数据,画出散点图,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (2)若由线性回归方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的线性回归方程是理想的,试问所得线性回归方程是否理想? 解 (1)根据表中2~5月份的数据作出散点图,如图所示:计算得x =11,y =24,∑5i =2x i y i =11×25+13×29+12×26+8×16=1 092,∑5i =2x 2i =112+132+122+82=498, 则b ^=∑5i =2x i y i -4x y∑5i =2x 2i -4x 2=1 092-4×11×24498-4×112=187, a ^=y -b ^x =24-187×11=-307.故y 关于x 的线性回归方程为y ^=187x -307.(2)当x =10时,y ^=187×10-307=1507, 此时|1507-22|<2;当x =6时,y ^=187×6-307=787,此时|787-12|<2.故所得的线性回归方程是理想的.10.某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请列出每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n ad-bc2a +b c+d a+c b+d.解(1)300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.025+0.100)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表结合列联表可算得K2=-275×225×210×90=10021≈4.762>3.841.所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.。
第十章 统计与概率10-3变量间的相关关系与统计案例
(3)利用回归直线方程对总体进行估计 ^ ^ ^ 若回归直线方程为y=bx+a,则在x=x0处的估计值: ^0=bx0+a. ^ y ^ (4)线性相关强度的检验: 对于变量x与y随机取到的n对数据(xi,yi),用y与x间 x y xi--yi--
i=1 n
的相关系数r= x y xi--2· yi--2
i=1 4 ^
所以,由最小二乘法确定的回归直线方程的系数 为:
(3)由(2)的回归方程及技改前生产100吨甲产 品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).
(2010·山东枣庄模考)某单位为了了解用电 量y(度)与气温x(℃)之间的关系,随机统计 了某4天的用电量与当天气温,并制作了对 照表: 18 13 10 -1 气温(℃)
疱疹面积不 疱疹面积小 合计 小于 2 于70mm 70mm2 注射药物 A a= b=
注射药物 nad-bc2 c= d= 2 附:χ = B a+bc+da+cb+d 合计
n=
[解析]
(1)
可以看出注射药物A后的疱疹面积的中位数 在65至70之间,而注射药物B后的疱疹面积 的中位数在70至75之间,所以注射药物A后 疱疹面积的中位数小于注射药物B后疱疹面 积的中位数. (2)表3: 疱疹面积 疱疹面积不 合计 小于 小于 70mm2 70mm2 100 注射药物A a=70 b=30 100 注射药物B c=35 d=65 105 95 合计 n=200
关关系,这条直线叫做回归直线. 数为:
(2)回归直线方程的求法——最小二乘法.
n n y x y xiyi-n x · xi--yi-- i=1 i=1 ^ = b= n n 2 2 x xi -n x xi--2 i=1 i=1 a=--b x ^ y ^ 1 n 1 n 其中 - = x i, - = y i,( - , - )称作样本点的中 x y x y n i=1 n i=1 心. ^ ^ a , b 表示由观察值用最小二乘法求得的a,b的估计 值,叫回归系数.
2018届高考(新课标)数学(文)大一轮复习课件:第十章 统计与统计案例 10-3
x
16
17
18
19
y
50
34
41
31
^x+a ^中的b ^ =-4,据此模型预 由上表可得线性回归方程^ y =b 测零售价为 15 元时,每天的销售量为( A.51 个 C.49 个 B.50 个 D.48 个 )
^= 【解析】 由题意知 x=17.5, y=39, 代入线性回归方程得a 109,109-15×4=49,故选 C.
A.-1 1 C.2
(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y 是负相关关系; ②在该相关关系中, 若用 y=c1ec2x 拟合时的相关系数的平方
2 2 2 ^ ^ ^ 为 r2 1,用y =bx+a拟合时的相关系数的平方为 r2,则 r1>r2;
③x、y 之间不能建立线性回归方程.
y1 x1 x2 合计 a 22 b
y2 21 25 46
合计 73 47 120
A.94,72
B.52,50
C.52,74
D.74,52
【解析】 ∵a+21=73,∴a=52.又a+22=b,∴b=74. 【答案】 C
经过计算K2≈0.99,根据这一数据分析,下列说法正确的是( A.有99%的人认为该电视栏目优秀 B.有99%的人认为该电视栏目是否优秀与改革有关系 C.有99%的把握认为该电视栏目是否优秀与改革有关系
(5)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观 测值越大.( )
(6)由独立性检验可知, 有 99%的把握认为物理成绩优秀与数 学成绩有关 ,某人数学成绩优秀,则他有 99% 的可能物理优 秀.( )
【答案】 (1)× (2)√ (3)√ (4)× (5)√ (6)×
2018版高考数学全国人教B版理大一轮复习课件:第十章
2.回归分析
对具有 _________ 相关关系 的两个变量进行统计分析的方法叫回归分
回归直线方程; 析.其基本步骤是: (ⅰ) 画散点图; (ⅱ) 求 ____________ (ⅲ)用回归直线方程作预报. (1) 回归直线:如果散点图中点的分布从整体上看大致在 一条直线附近,就称这两个变量之间具有线性相关关系,这 ________
解析
对于A选项,由图知从2007年到2008年二氧化硫排放
量下降得最多,故A正确.对于B选项,由图知,由2006年到
2007年矩形高度明显下降,因此B正确.对于C选项,由图知
从2006年以后除2011年稍有上升外,其余年份都是逐年下降 的,所以C正确.由图知2006年以来我国二氧化硫年排放量与 年份负相关,D不正确. 答案 D
4. 为了评价某个电视栏目的改革效果,在改革前后分别从居民
点抽取了100位居民进行调查,经过计算χ2 ≈0.99,根据这一
数据分析,下列说法正确的是( A.有99%的人认为该电视栏目优秀 B.有99%的人认为该电视栏目是否优秀与改革有关系 C.有99%的把握认为该电视栏目是否优秀与改革有关系 )
D.没有理由认为该电视栏目是否优秀与改革有关系
解析 由正负相关性的定义知①④一定不正确. 答案 D
3.(2015· 全国Ⅱ 卷 ) 根据下面给出的 2004 年至2013 年我国二氧化硫 年排放量(单位:万吨)柱形图,以下结论不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势 D.2006年以来我国二氧化硫年排放量与年份正相关
3.独立性检验
(1)2×2列联表:
【小初高学习】课标通用2018年高考数学一轮复习第十章统计与统计案例10.3变量间的相关关系统计案例
§10.3 变量间的相关关系、统计案例考纲展示►1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. 4.了解回归分析的基本思想、方法及其简单应用.考点1 变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是________;与函数关系不同,________是一种非确定性关系.答案:相关关系 相关关系2.从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为________,点散布在左上角到右下角的区域内,两个变量的相关关系为________.答案:正相关 负相关对回归系数的理解:解释变量;预报变量.某工厂工人月工资y (元)依劳动产值x (万元)变化的回归直线方程为y ^=900x +600,下列判断正确的是__________.①劳动产值为10 000元时,工资为500元; ②劳动产值提高10 000元时,工资提高1 500元; ③劳动产值提高10 000元时,工资提高900元; ④劳动产值为10 000元时,工资为900元. 答案:③解析:回归系数b ^的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位.[典题1] (1)下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )A BC D[答案] D[解析] 观察散点图可知,只有D 选项的散点图表示的是变量x 与y 之间具有负的线性相关关系.(2)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ [答案] D[解析] 由回归方程y ^=b ^x +a ^知,当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.[点石成金] 相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.考点2 线性回归分析1.回归分析对具有________的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求________;(ⅲ)用回归直线方程作预报.答案:相关关系 回归直线方程 2.回归直线如果散点图中点的分布从整体上看大致在________附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.答案:一条直线3.回归直线方程的求法——最小二乘法设具有线性相关关系的两个变量x ,y 的一组观察值为(x i ,y i )(i =1,2,…,n ),则回归直线方程y ^=b ^x +a ^的系数为:⎩⎪⎨⎪⎧b ^=∑i =1nx i-x y i-y ∑i =1nx i-x2= ,a ^=y -b ^x ,其中x =1n ∑i =1n x i ,y =1n ∑i =1ny i ,(x ,y )称为样本点的________.答案:∑i =1nx i y i -n x y∑i =1nx 2i -n x 2中心4.相关系数当r >0时,表明两个变量________; 当r <0时,表明两个变量________.r 的绝对值越接近于1,表明两个变量的线性相关性________.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.答案:正相关 负相关 越强[教材习题改编]已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为__________.答案:y ^=1.23x +0.08解析:设回归直线方程为y ^=1.23x +a ^, 因为回归直线必过样本点的中心(x ,y ), 将点(4,5)代入回归直线方程得a ^=0.08, 所以所求方程为y ^=1.23x +0.08.变量的相关关系:散点图;回归直线过(x ,y ).某工厂经过技术改造后,生产某种产品的产量x (吨)与相应的生产能耗y (吨标准煤)有如下几组样本数据.0.7,那么当产量x =10吨时,估计相应的生产能耗为__________吨标准煤.答案:7.35解析:先求得x =4.5,y =3.5,由y ^=0.7x +a ^过点(x ,y ),得a ^=0.35, 所以回归直线方程是y ^=0.7x +0.35.当x =10吨时,y ^=7+0.35=7.35(吨标准煤).[典题2] (1)已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )A.3.25 C .2.2D .0[答案] B[解析] 由已知得x =2,y =4.5, 因为回归方程经过点(x ,y ), 所以a ^=4.5-0.95×2=2.6.(2)由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.①求所支出的维修费y 对使用年限x 的线性回归方程y ^=b ^x +a ^; ②(ⅰ)判断变量x 与y 之间是正相关还是负相关; (ⅱ)当使用年限为8年时,试估计支出的维修费是多少.附:在线性回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中x ,y 为样本平均值.[解] ①∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=112-5×4×590-5×42=1.2, a ^=y -b ^x =5-1.2×4=0.2.∴线性回归方程为y ^=1.2x +0.2. ②(ⅰ)由①知,b ^=1.2>0, ∴变量x 与y 之间是正相关.(ⅱ)由①知,当x =8时,y ^=9.8,即使用年限为8年时,支出维修费约是9.8万元. [点石成金] 1.正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.2.回归直线方程y ^=b ^x +a ^必过样本点的中心(x ,y ).3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:x =0,y =3.2,b ^=--+--+2×19+4×29-5×0×3.2-2+-2+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2. 由上述计算结果知,所求回归直线方程为 y ^-257=b ^(x -2 010)+a ^=6.5(x -2 010)+3.2, 即y ^=6.5×(x -2 010)+260.2.(2)利用(1)中所求回归直线方程,可预测2016年的粮食需求量为6.5×(2 016-2 010)+260.2=6.5×6+260.2=299.2(万吨).考点3 独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表:K2=(其中n=________为样本容量),则利用独立性a +b a+c b+d c+d检验判断表来判断“X与Y的关系”.答案:a+b+c+d(1)[教材习题改编]为调查中学生的近视情况,测得某校150名男生中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,最有说服力的方法是________.(填序号)①回归分析;②期望与方差;③独立性检验;④概率.答案:③解析:“近视”与“性别”是两个分类变量,其是否有关,应该用独立性检验来判断.(2)[教材习题改编]在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得出“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,有下列四种说法:①100个吸烟者中至少有99人患有肺癌;②1个人吸烟,那么这人有99%的概率患有肺癌;③在100个吸烟者中一定有患肺癌的人;④在100个吸烟者中可能一个患肺癌的人也没有.其中正确说法的序号是________.答案:④对独立性检验的理解:K2的计算;对P(K2≥k0)的解释.[2017·湖南张家界模拟]某高校教“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表:k=-223×27×20×30≈4.844.因为k>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________.附表:解析:∵k>3.841,查临界值表,得P(K2≥3.841)=0.05,故这种判断出错的可能性为5%.[典题3] (1)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表:已知PP(K2≥5.024)≈0.025.根据表中数据,得到K2=-223×27×20×30≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.[答案]5%[解析]由K2≈4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.(2)[2017·江西九江模拟]某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生的成绩分为6组,得到如下所示的频数分布表.数学成绩与性别是否有关;②规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.K2=.a +b c+d a+c b+d[解]①x男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.②由频数分布表可知,在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:≈1.79,可得K2=60×40×30×70因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.[点石成金] 1.独立性检验的关键是正确列出2×2列联表,并计算出K2的值.2.弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.[2017·广西玉林、贵港联考]某市地铁即将于2015年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下;“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填写下面的2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:K 2=a +bc +d a +c b +d. 解:x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:K 2=10×40×18×32≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.[方法技巧] 1.求回归方程,关键在于正确求出系数a ^,b ^,由于a ^,b ^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b ^,常数项为a ^,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.[易错防范] 1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量K 2的观测值k 的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.真题演练集训1.[2015·福建卷]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元 答案:B解析:由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴ a ^=8-0.76×10=0.4,∴ 当x =15时,y ^=0.76×15+0.4=11.8(万元).2.[2016·新课标全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=b ^t +a ^中斜率和截距的最小二乘估计公式分别为b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解:(1)由折线图中数据和附注中参考数据,得t =4,∑i =17 (t i -t )2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t)(y i -y )=∑i =17t i y i -t∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1),得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程,得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.3.[2015·新课标全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18x i .(1)根据散点图判断,y =a +bx 与y=c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+β u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.4.[2014·新课标全国卷Ⅱ]某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解:(1)由所给数据计算得t =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17t i -ty i -y∑i =17t i -t2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3.所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得 y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.课外拓展阅读 统计案例问题的规范答题[典例] [2013·福建卷]某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附:K 2=a +bc +d a +cb +d.[审题视角] 由频率分布直方图列举基本事件,结合古典概型,求概率.利用独立性检验公式计算K 2.[解] (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A 1,A 2,A 3;25周岁以下组工人有40×0.05=2(人),记为B 1,B 2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).故所求的概率P =710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:所以K 2=a +bc +d a +cb +d=-260×40×30×70=2514≈1.79. 因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”. [答题模板] 第1步:由分层抽样计算两组工人的数目; 第2步:由频率分布直方图计算两组不足60件的人数; 第3步:列举5人抽取2人的基本事件数; 第4步,由古典概型计算概率;第5步:统计生产能手与非生产能手,列2×2列联表; 第6步:由公式计算K 2,确定答案. 归纳总结(1)分层抽样比为100500=15,故25周岁以上有300×15=60(人),25周岁以下的200×15=40(人),然后再根据频率计算“不足60件”的人数,并设定符号.(2)列2×2列联表时,其中的数字应先由频率分布直方图算出后再列表.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2018版高考数学大一轮复习 第十章 统计与统计案例 10.3 变量间的相关关系、统计案例教师用书 文 北师大版1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是非线性相关的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. 2.线性回归方程 (1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (2)线性回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.⎩⎨⎧b =∑n i =1x i-x y i-y∑i =1x i-x2=∑ni =1x i y i -n x y∑i =1x 2i -n x2,a =y -b x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,(x ,y )称为样本点的中心. (3)相关系数①r =∑ni =1 x i -x y i -y∑n i =1x i -x2∑ni =1y i -y2=∑ni =1x i y i -n x y∑ni =1x 2i -n x 2∑ni =1y 2i -n y2;②当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关; 当r =0时,表明两个变量线性不相关.|r |值越接近于1,表明两个变量之间的线性相关程度越高. |r |值越接近于0,表明两个变量之间的线性相关程度越低. 4.独立性检验设A ,B 为两个变量,每一个变量都可以取两个值, 变量A :A 1,A 2=A 1;变量B :B 1,B 2=B 1.构造一个统计量 χ2=n ad -bc 2a +bc +d a +cb +d.利用统计量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的; 当χ2>2.706时,有90%的把握判定变量A ,B 有关联; 当χ2>3.841时,有95%的把握判定变量A ,B 有关联; 当χ2>6.635时,有99%的把握判定变量A ,B 有关联. 【思考辨析】判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ×)(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √)(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √)(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.( ×)(5)事件X,Y关系越密切,则由观测数据计算得到的χ2越大.( √)(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ×)1.(2015·湖北)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案 C解析因为y=-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设z=by +a(b>0),所以z=-0.1bx+b+a,-0.1b<0,所以x与z负相关.故选C.则表中a,b的值分别为( )A.94,72 B.52,50 C.52,74 D.74,52答案 C解析∵a+21=73,∴a=52.又a+22=b,∴b=74.3.(2017·重庆联考)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( )A.y=0.4x+2.3 B.y=2x-2.4C.y=-2x+9.5 D.y=-0.3x+4.4答案 A解析因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A和B中的直线方程进行检验,可以排除B,故选A.由上表可得线性回归方程y=bx+a中的b=-4,据此模型预测零售价为15元时,每天的销售量为( )A.51个 B.50个 C.49个 D.48个答案 C解析由题意知x=17.5,y=39,代入线性回归方程得5.(2016·玉溪一中月考)利用独立性检验来判断两个分类变量X和Y是否有关系,通过查阅下表来确定“X和Y有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查.经过计算得χ2≈3.855,那么就有________%的把握认为用电脑时间与视力下降有关系.答案95解析根据表格发现3.855>3.841,3.841对应的是0.05,所以根据独立性检验原理可知有95% 的把握认为用电脑时间与视力下降有关系.题型一相关关系的判断例1 (1)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论: ①y 与x 负相关且y =2.347x -6.423; ②y 与x 负相关且y =-3.476x +5.648; ③y 与x 正相关且y =5.437x +8.493; ④y 与x 正相关且y =-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =21e c xc 拟合时的相关系数的平方为r 21,用y =bx +a 拟合时的相关系数的平方为r 22,则r 21>r 22; ③x 、y 之间不能建立线性回归方程. 答案 (1)D (2)①②解析 (1)由线性回归方程y =bx +a 知当b >0时,y 与x 正相关,当b <0时,y 与x 负相关,∴①④一定错误.(2)①显然正确;由散点图知,用21e c xy c =拟合的效果比用y =bx +a 拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确. 思维升华 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:b >0时,正相关;b <0时,负相关.(1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C.12D .1(2)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( ) A .r 2<r 1<0 B .0<r 2<r 1 C .r 2<0<r 1 D .r 2=r 1答案 (1)D (2)C解析 (1)所有点均在直线上,则样本相关系数最大,即为1,故选D.(2)对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,故选C.题型二 线性回归分析注:年份代码17分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y =a +bt 中斜率和截距的最小二乘估计公式分别为:b =∑i =1nt i -ty i -y∑i =1nt i -t2,a =y -b t .解 (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55.∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b =∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a =y -b t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y =0.92+0.10t .将2016年对应的t =9代入回归方程得y =0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ,a .②待定系数法:利用回归直线过样本点的中心求系数. (2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b .(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β=∑i =1nu i -uv i -v∑i =1nu i -u2,α=v -βu .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d =∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68,c =y -d w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y =100.6+68w ,因此y 关于x 的回归方程为y =100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y =100.6+6849=576.6, 年利润z 的预报值z =576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z =0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 题型三 独立性检验例3 (2016·福建厦门三中模拟)某大型企业人力资源部为了研究企业员工工作的积极性和对待企业改革的态度的关系,随机抽取了100名员工进行调查,其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的有15人. (1)根据以上数据建立一个2×2列联表;(2)对于人力资源部的研究项目,根据以上数据是否可以认为企业的全体员工对待企业改革的态度与其工作积极性有关系? 参考公式:χ2=n ad -bc 2a +bc +d a +cb +d(其中n =a +b +c +d )解 (1)根据题设条件,得2×2列联表如下:(2)提出假设:企业的全体员工对待企业改革的态度与其工作积极性无关.根据(1)中的数据,可以求得χ2=-250×50×19×81≈7.862>6.635,所以有99%的把握认为抽样员工对待企业改革的态度与工作积极性有关,从而认为企业的全体员工对待企业改革的态度与其工作积极性有关.思维升华(1)比较几个分类变量有关联的可能性大小的方法①通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.②通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.(2)独立性检验的一般步骤①根据样本数据制成2×2列联表.②根据公式χ2=n ad-bc2a +b a+c b+d c+d计算χ2.③比较χ2与临界值的大小关系,作出统计推断.(1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系?(2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率.附:χ2=n ad-bc2a+b c+d a+c b+d解(1)由题意可得2×2列联表如下:根据2×2列联表中数据,得χ2=-100×2160×640×200×600≈16.667>10.828.∴能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系.(2)设其他工作人员为丙和丁,4人分组的所有情况如下表.由表可知,分组的情况共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P =26=13.21.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y =bx +a ; (2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组统计数据,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.对处理的数据,容易算得x =0,y =3.2,[4分]b =--+--+2×19+4×29-5×0×3.2-2+-2+22+42-5×02=26040=6.5, a =y -b x =3.2.[6分]由上述计算结果,知所求线性回归方程为y -257=6.5(x -2010)+3.2,即y =6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).[12分]1.(2016·衡水质检)具有线性相关关系的变量x ,y 满足一组数据如下表所示.若y 与x 的线性回归方程为y =3x -32,则m 的值是( )A.4B.92 C .5 D .6答案 A解析 由已知得x =32,y =m4+2,又因为点(x ,y )在直线y =3x -32上,所以m 4+2=3×32-32,得m =4.从所得散点图中分析可知:y 与x 线性相关,且y =0.95x +a ,则x =13时,y 等于( ) A .1.45 B .13.8 C .13 D .12.8 答案 B解析 由题意,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25,∵y 与x 线性相关,且y =0.95x +a , ∴5.25=0.95×4+a ,∴a =1.45, 从而当x =13时,有y =13.8.故选B.附:参考公式及数据:(1)统计量:χ2=n ad-bc2a +b c+d a+c b+d(n=a+b+c+d).则下列说法正确的是( )A.有99%的把握认为环保知识测试成绩与专业有关B.有99%的把握认为环保知识测试成绩与专业无关C.有95%的把握认为环保知识测试成绩与专业有关D.有95%的把握认为环保知识测试成绩与专业无关答案 C解析因为χ2=-220×20×21×19≈4.912,3.841<χ2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关.A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg答案 D解析∵0.85>0,∴y与x正相关,∴A正确;∵回归直线经过样本点的中心(x,y),∴B正确;∵Δy=0.85(x+1)-85.71-(0.85x-85.71)=0.85,∴C正确.故选D.附:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误. 根据列联表中的数据, 得到χ2=-255×50×30×75≈6.109>5.024,6.已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y =bx +a ,则“(x 0,y 0)满足线性回归方程y =bx +a ”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件答案 B解析 x 0,y 0为这10组数据的平均数,根据公式计算线性回归方程y =bx +a 的b 以后,再根据a =y -b x (x ,y 为样本平均数)求得a .因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点. 7.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y =0.2x +12中,当解释变量x 每增加一个单位时,预报变量y 平均增加0.2个单位;④对分类变量X 与Y 的统计量χ2来说,χ2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,统计量χ2越小,说明两个相关变量有关系的把握程度越小. 8.(2016·郑州模拟)对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y =13x +a ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a 的值是________.答案 18解析 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38, 则38=13×34+a ,解得a =18. 9.(2016·江西南昌二中模拟)为了研究某种细菌随时间x 变化的繁殖个数y ,收集数据如下:(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图,根据散点图判断y =a +bx 与y =c 12e c x 哪一个作为繁殖个数y 关于时间x 变化的回归方程类型为最佳;(给出判断即可,不必说明理由)(2)根据(1)中判断的最佳类型及表中的数据,建立y 关于x 的回归方程.其中z i =ln y i ,z =16∑6i =1z i .参考公式:b =∑6i =1x i -xy i -y∑i =1x i -x2,a =y -b x .解 (1)画散点图如下.由散点图看出样本点分布在一条类似指数函数图像的周围,于是先选择y =c 12e c x . (2)对y =c 12e c x 两边取对数,得ln y =c 2x +ln c 1. 令z =ln y ,c 2=b ,ln c 1=a ,则z =bx +a .由b =∑6i =1x i -xz i -z∑6i =1x i -x2=12.0917.5=0.691, a =z -b x ≈1.112,得z =0.691x +1.112, 所以y =e0.691x +1.112.(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请列出每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 附:χ2=n ad -bc 2a +bc +d a +c b +d.解 (1)300×4 50015 000=90,所以应收集90位女生的样本数据. (2)由频率分布直方图得 1-2×(0.025+0.100)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表结合列联表可算得χ2=-75×225×210×90=10021≈4.762>3.841.所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.。