高中数学选修2-3统计案例之线性回归方程习题课复习过程
高中数学选修2-3统计案例之线性回归方程习题课

1.相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.3.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则b^,a^其中,b 是回归方程的斜率,a是在y轴上的截距.4.样本相关系数r=∑i=1nx i-x y i-y∑i=1nx i-x2∑i=1ny i-y2,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.5.线性回归模型(1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.(2)相关指数用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.规律(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.注意(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.考向一相关关系的判断例1.下列选项中,两个变量具有相关关系的是( )A.正方形的面积与周长B.匀速行驶车辆的行驶路程与时间C.人的身高与体重D.人的身高与视力答案:C例2.对变量x、y有观测数据(x i,y i)(i =1,2,…,10),得散点图1;对变量u,v 有观测数据(u i,v i)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由题图1可知,各点整体呈递减趋势,x与y负相关,由题图2可知,各点整体呈递增趋势,u与v正相关.例3.下面哪些变量是相关关系( ).A.出租车车费与行驶的里程B.房屋面积与房屋价格C.身高与体重D.铁块的大小与质量解析A,B,D都是函数关系,其中A一般是分段函数,只有C是相关关系.答案C例4.如图所示,有5组(x,y)数据,去掉________组数据后,剩下的4组数据的线性相关性最大.解析:因为A、B、C、E四点分布在一条直线附近且贴近某一直线,D点离得远.答案:D例5.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i、v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( ).A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.答案C例6.下列关系属于线性负相关的是( )A.父母的身高与子女身高的关系B.球的体积与半径之间的关系C.汽车的重量与汽车每消耗1 L汽油所行驶的平均路程D.一个家庭的收入与支出解析:选C.A、D中的两个变量属于线性正相关,B中两个变量是函数关系.例7.山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):棉花产量y3334536540544545455(1)(2)判断是否具有相关关系.[审题视点] (1)用x轴表示化肥施用量,y轴表示棉花产量,逐一画点.(2)根据散点图,分析两个变量是否存在相关关系.解(1)散点图如图所示(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.例8. 根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).解析从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.答案否考向二线性回归方程例9.对有线性相关关系的两个变量建立的回归直线方程y^=a+bx中,回归系数b( )A.不能小于0 B.不能大于0C.不能等于0 D.只能小于0解析:选C.∵b=0时,r=0,这时不具有线性相关关系,但b能大于0也能小于0.例10.已知回归方程y^=4.4x+838.19,则可估计x与y的增长速度之比约为________.解析:x与y的增长速度之比即为回归方程的斜率的倒数14.4=1044=522.答案:5 22例11.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( ).A.y^=-10x+200 B.y^=10x+200 C.y^=-10x-200 D.y^=10x-200解析因为销量与价格负相关,由函数关系考虑为减函数,又因为x,y不能为负数,再排除C,故选A.答案A例12.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程.预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)[审题视点] (2)问利用公式求a^、b^,即可求出线性回归方程.(3)问将x=100代入回归直线方程即可.解(1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:∑i =14x 2i =86, x =3+4+5+64= 4.5(吨),y =2.5+3+4+4.54=3.5(吨). 已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b^=∑i=14x i y i-4x·y∑i=14x2i-4x2=66.5-4×4.5×3.586-4×4.52=0.7,a^=y-b^x=3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y^=0.7x+0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:90-(0.7×100+0.35)=19.65(吨标准煤).在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.例13.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y对x的线性回归方程为( ).A.y=x-1 B.y=x+1C.y=88+12x D.y=176解析由题意得x=174+176+176+176+1785=176(cm),y=175+175+176+177+1775=176(cm),由于(x,y)一定满足线性回归方程,经验证知选C.答案C例14.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)回归直线方程y^=bx+a;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:x=0,y=3.2,b=26040=6.5,a=y-b x=3.2.由上述计算结果,知所求回归直线方程为y -257=b(x-2 006)+a=6.5(x-2 006)+3.2,即y^=6.5(x-2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6.5(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).例15.下列有关回归直线方程y^=bx+a 的叙述正确的是( )①反映y^与x之间的函数关系;②反映y与x之间的函数关系;③表示y^与x之间的不确定关系;④表示最接近y与x之间真实关系的一条直线.A.①② B.②③C.③④ D.①④解析:选D.y^=bx+a表示y^与x之间的函数关系,而不是y与x之间的函数关系;但它反映的关系最接近y与x之间的真实关系,故选D.例16.设有一个回归方程y^=3-5x,变量x增加一个单位时( )A.y平均增加3个单位B.y平均减少5个单位C.y平均增加5个单位D.y平均减少3个单位解析:选B.∵-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.例17.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不.正确的是( ) A.由样本数据得到的回归方程y^=b^x+a^必过样本中心(x,y)B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r=-0.9362,则变量y 和x 之间具有线性相关关系解析:选C.C 中应为R 2越大拟合效果越好.例18.已知回归方程y ^=2x +1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )A .0.01B .0.02C .0.03D .0.04解析:选C.当x =2时,y ^=5,当x =3时,y ^=7,当x =4时,y ^=9.∴e ^1=4.9-5=-0.1,e ^2=7.1-7=0.1, e ^3=9.1-9=0.1.∴ i =13e ^i 2=(-0.1)2+(0.1)2+(0.1)2=0.03. 例19.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②回归方程y^=bx+a必过点(x,y);③曲线上的点与该点的坐标之间具有相关关系;④在一个2×2列联表中,由计算得K2=13.079,则其两个变量间有关系的可能性是90%.其中错误的是________.解析:①正确.由回归方程的定义及最小二乘法思想,知②正确.③④不正确.答案:③④例20.在2009年十一国庆8天黄金周期间,某市物价部门,对本市五个商场销售的某商品的一天销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:价格x 99.5110.511销售量y 1110865yx具有线性相关关系,则销售量y对商品的价格x的回归直线方程为________.解析:由数据表可得x=10,y=8,离差x-x:-1,-0.5,0,0.5,1;离差y-y:3,2,0,-2,-3.∴b^=-1×3-0.5×2-0.5×2-1×3 1+0.25+0+0.25+1=-3.2,a^=y-b^x=40,∴回归直线方程为y^=-3.2x+40.答案:y^=-3.2x+40例21.在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:身高(cm)14315615917216517117716116416体重(kg)41496179686974696854的身高和体重之间是否有相关关系.解:以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系,且为正相关.12.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:日期12月1日12月2日12月3日12月4日12月5日温差x(℃)101113128发芽数y(颗)2325302616组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程y^=b^x +a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解:(1)设抽到不相邻2组数据为事件A,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P(A)=1-410=35.(2)由数据求得,x=12,y=27,由公式求得.b^=52,a^=y-b^x=-3.所以y关于x的线性回归方程为y^=52x-3.(3)当x=10时,y^=52×10-3=22,|22-23|<2;当x=8时,y^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的.。
高中数学人教A版选修2-3课件:3.1回归分析的基本思想及其初步应用

问题导学
Байду номын сангаас
当堂检测
解:(1)由表画出散点图,如图所示.
问题导学
当堂检测
(2)从上图可看出,这些点基本上散布在一条直线附近,可以认为 x 和 y 线性相关关系显著,下面求其回归方程,首先列出下表.
序号 1 2 3 4 5 6 7 8 ∑ xi 5 .6 6 .0 6 .1 6 .4 7 .0 7 .5 8 .0 8 .2 54.8 yi 130 136 143 149 157 172 183 188 1 258 x2 i 31.36 36.00 37.21 40.96 49.00 56.25 64.00 67.24 382.02 y2 i 16 900 18 496 20 449 22 201 24 649 29 584 33 489 35 344 201 112 xiyi 728.0 816.0 872.3 953.6 1 099.0 1 290.0 1 464.0 1 541.6 8 764.5
例 1 某工厂 1~8 月份某种产品的产量与成本的统计数据见 下表:
月份 产量 (t) 成本 (万元) 1 5 .6 130 2 6 .0 136 3 6 .1 143 4 6 .4 149 5 7 .0 157 6 7 .5 172 7 8.0 183 8 8 .2 188
以产量为 x,成本为 y. (1)画出散点图; (2)y 与 x 是否具有线性相关关系?若有,求出其回归方程. 思路分析:画出散点图,观察图形的形状得 x 与 y 是否具有线性相关 关系.把数值代入回归系数公式求回归方程 . x
3.回归模型拟合效果的刻画
类 别 残差图法 残差点比较均匀地落在 特 点 水平的带状区域内,说明 选用的模型比较适合,这 样的带状区域的宽度越 窄,说明模型拟合精度越 高 残差平方和法 残差平方和
回归分析教学案例

《回归分析》教学案例山东省青州实验中学262500聂公民王垒适用人民教育出版教学选修2-3 第三章统计案例《回归分析》教学教学目标1、知识与技能(1)学生通过收集现实问题中两个变量的数据,会画出散点图,分析数据,认为判断两个变量的关系。
(2)能求出回归系数,确定回归方程,并根据回归方程作出数据预测。
(3)了解非线性回归问题,能找出解决一般问题的思路。
(4)通过相关检验,了解回归分析的思想与方法,例如用表格收集数据,画散点图分析数据等。
2、过程与方法(1)通过复习线性回归方程,探究相关性检验的基本方法与思想。
(2)通过收集数据,分析数据,培养学生类比、迁移、化归的能力,合情推理推理的能力,解决问题的能力。
3、情感态度与价值观培养学生合作探究、积极参与、大胆探索的精神,增强学生的数据分析意识。
教学重点与难点重点:回归分析的思想与方法难点:回归分析的应用教学方法:学生自主实践探究为主,教师指导为辅,形成完整的知识结构。
师生共同将知识深入探究,为增强直观性,采用多媒体辅助教学,注重计算机、计算机在数据分析中的应用,注意计算机、计算器的操作指导。
预备活动教师准备A.预备活动纸(见附件1),B.课上活动纸(见附件2),C.课后活动纸(见附件3),提前一天分发给学生,学生利用课余时间提前完成。
设计意图:帮助学生回顾复习必修3相关内容,为学习新知识作好准备。
并提出启发性问题,便于引入课题。
教学过程:一、复习引入学生回答“预备活动纸”。
教师总结由活动纸上问题“比较三组数据的相关性显著程度”引出相关检验,进入课题。
设计意图:为新知识讲授作铺垫。
二、举例精解教师分发课上活动纸。
例1(1)研究某灌溉渠道的水流速度y m/s与水深x m之间的关系,测得数据如下:表格 1预测当水深为1.50m时水流速度为多少?(2)为了解某地母亲身亲x与女儿身高y的相关关系,随机测得10对母女的身高数据如下:表格 2母亲身高为161cm,预测女儿身高为多少?课件展示。
人教a版数学【选修2-3】第3章《统计案例》归纳总结ppt课件

B.75% D.97.5%
第三章 章末归纳总结
成才之路 · 高中新课程 · 学习指导 · 人教A版 · 数学 · 选修2-3
[答案] D [解析] 有关系”. 查表可得K2>5.024.因此有97.5%的把握认为“x和y
第三章
章末归纳总结
成才之路 · 高中新课程 · 学习指导 · 人教A版 · 数学 · 选修2-3
算可得 k≈0.04145,而 0.04145<2.706,所以没有充分的证据表 明该药品对防治 A 疾病有效.
第三章
章末归纳总结
成才之路 · 高中新课程 · 学习指导 · 人教A版 · 数学 · 选修2-3
[点评]
利用独立性检验可以帮助我们定量地分析两个分
第三章
章末归纳总结
成才之路 · 高中新课程 · 学习指导 · 人教A版 · 数学 · 选修2-3
[解析] 将问题中的数据写成 2×2 列联表如下表: 患病 使用 不使用 总计 5 18 23 不患病 100 400 500 总计 105 418 523
2 n ad - bc 将上述数据代入公式 K2= 中,计 a+bc+da+cb+d
3.(2014· 唐山模拟)对具有线性相关关系的变量 x、y 有一 1 ^ 组观测数据(xi,yi)(i=1,2,„,8),其回归直线方程是:y=3x +a, 且 x1+x2+x3+„+x8=2(y1+y2+y3+„+y8)=6, 则实数 a 的值是( 1 A.16 1 C.4 [答案] B ) 1 B.8 1 D.2
成才之路 · 数学
人教A版 · 选修2-3
路漫漫其修远兮 吾将上下而求索
成才之路 · 高中新课程 · 学习指导 · 人教A版 · 数学 · 选修2-3
数学教案 人教a版选修2_3 同步练习-第3章统计案例跟踪训练含解析

回归分析的基本思想及其初步应用[A 组 学业达标]1.下列两个变量之间的关系不是函数关系的是( ) A .角度和它的余弦值 B .正方形的边长和面积 C .正n 边形的边数和内角度数和 D .人的年龄和身高解析:函数关系就是一种变量之间的确定性的关系.A ,B ,C 三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cos θ,g(a)=a 2,h(n)=nπ-2π.D 选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高.故选D.答案:D2.设一个线性回归方程为y ^=2-1.5x ,则变量x 增加一个单位时( ) A.y ^平均增加1.5个单位 B.y ^平均增加2个单位 C.y ^平均减少1.5个单位 D.y ^平均减少2个单位解析:由线性回归方程y ^=2-1.5x 中x 的系数为-1.5,知C 项正确. 答案:C 3.有下列数据:x 1 2 3 y35.9912.01A .y =3×2x -1B .y =log 2xC .y =3xD .y =x 2解析:当x =1,2,3时,分别代入求y 值,离y 最近的值模拟效果最好,可知A 模拟效果最好. 答案:A4.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=-2.756x +7.325.②y 与x 负相关且y ^=3.476x +5.648 ③y 与x 正相关且y ^=-1.226x -6.578 ④y 与x 正相关且y ^=8.967x +8.163 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④解析:根据题意,依次分析4个结论:对于①,y 与x 负相关且y ^=-2.756x +7.325,此结论正确,线性回归方程符合负相关的特征; 对于②,y 与x 负相关且y ^=3.476x +5.648,此结论错误,由线性回归方程知,此两变量的关系是正相关;对于③,y 与x 正相关且y ^=-1.226x -6.578,此结论错误,由线性回归方程知,此两变量的关系是负相关;对于④,y 与x 正相关且y ^=8.967x +8.163,此结论正确,线性回归方程符合正相关的特征;故②③一定错误.答案:B5.对具有线性相关关系的变量x ,y ,测得一组数据如下表:x 2 4 5 6 8 y2040607080根据上表,利用最小二乘法得它们的回归直线方程为y ^=10.5x +a ^,据此模型来预测当x =20时,y 的估计值为________.解析:由已知得x -=5,y -=54,则(5,54)满足回归直线方程y ^=10.5x +a ^,解得a ^=1.5,因此y ^=10.5x +1.5,当x =20时y ^=10.5×20+1.5=211.5.答案:211.56.如图是x 和y 的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.解析:去掉D(3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.答案:D(3,10)7.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =ebx +a的周围,令z =ln y ,求得回归直线方程为z ^=0.25x -2.58,则该模型的回归方程为____________________.解析:由z =ln y ,z ^=0.25x -2.58, 得ln y ^=0.25x -2.58,∴y ^=e 0.25x -2.58. 故该模型的回归方程为y ^=e 0.25x -2.58. 答案:y ^=e 0.25x -2.588.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,求社区一户年收入为15万元的家庭的年支出.解析:由题意可得x -=15×(8.2+8.6+10.0+11.3+11.9)=10,y -=15×(6.2+7.5+8.0+8.5+9.8)=8,可得a ^=8-0.76×10=0.4. ∴回归直线方程为y ^=0.76x +0.4.把x =15代入可得y ^=0.76×15+0.4=11.8.故社区一户年收入为15万元的家庭的年支出为11.8万元.9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求线性回归方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解析:(1)x -=8+8.2+8.4+8.6+8.8+96=8.5,y -=16(90+84+83+80+75+68)=80,∵b ^=-20,a ^=y --b ^ x -, ∴a ^=80+20×8.5=250, ∴线性回归方程y ^=-20x +250;(2)设工厂获得的利润为L 元,则L =x(-20x +250)-4(-20x +250)=-20⎝⎛⎭⎪⎫x -3342+361.25,∴该产品的单价应定为8.25元,工厂获得的利润最大.[B 组 能力提升]10.对于给定的样本点所建立的模型A 和模型B ,它们的残差平方和分别是a 1,a 2,R 2的值分别为b 1,b 2,下列说法正确的是( )A .若a 1<a 2,则b 1<b 2,A 的拟合效果更好B .若a 1<a 2,则b 1<b 2,B 的拟合效果更好C .若a 1<a 2,则b 1>b 2,A 的拟合效果更好D .若a 1<a 2,则b 1>b 2,B 的拟合效果更好解析:由残差平方和以及R 2的定义式可得若a 1<a 2,则b 1>b 2,A 的拟合效果更好. 答案:C11.近10年来,某市社会商品零售总额与职工工资总额(单位:亿元)数据如下:A.y ^=2.799 1x -27.248 552 B.y ^=2.799 1x -23.548 452 C.y ^=2.699 2x -23.749 352 D.y ^=2.899 2x -23.749 452解析:x -=41.72,y -=93.23,代入验证可知B 选项正确. 答案:B12.已知方程y ^=0.85x -82.71是根据女大学生的身高预报她的体重的回归方程,其中x 的单位是cm ,y ^的单位是kg ,那么针对某个体(160,53)的残差是________.解析:将x =160代入y ^=0.85x -82.71,得y ^=0.85×160-82.71=53.29, 所以残差e ^=y -y ^=53-53.29=-0.29.答案:-0.2913.已知一个线性回归方程为y ^=1.5x +45,x ∈{1,5,7,13,19},则y -=________. 解析:∵x -=1+5+7+13+195=9,且y ^=1.5x +45, ∴y -=1.5×9+45=58.5. 答案:58.514.假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如表统计资料:x 2 3 4 5 6 y2.23.85.56.57.0已知∑i =15x 2i=90,∑i =15x i y i =112.3.b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2,a =y --b ^ x -. (1)求x -,y -.(2)x 与y 具有线性相关关系,求出线性回归方程. (3)估计使用年限为10年时,维修费用约是多少? 解析:(1)x -=4,y -=5.(2)b ^=∑i =15x i y i -5x - y-∑i =15x 2i -5x -2=1.23,a ^=y --b ^ x -=5-1.23×4=0.08.所以线性回归方程为y ^=1.23x +0.08.(3)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即估计使用年限为10年时,维修费用约为12.38万元.15.菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但采集上市时蔬菜仍存有少量的残留农药,食用时需要用清水清洗干净,下表是用清水x(单位:千克)清洗该蔬菜1千克后,蔬菜上残留的农药y(单位:微克)的统计表:x1 2 3 4 5y 58 54 39 29 10(1)令w =x 2,利用给出的参考数据求出y 关于w 的回归方程y ^=b ^w +a ^.(a ^,b ^精确到0.1)参考数据:∑i =15w i =55,∑i =15(w i -w -)(y i -y -)=-751,∑i =15(w i -w -)2=374,其中w i =x 2i ,w -=15∑i =15w i .(2)对于某种残留在蔬菜上的农药,当它的残留量不高于20微克时对人体无害,为了放心食用该蔬菜,请估计至少需要用多少千克的清水清洗1千克蔬菜?(精确到0.1,参考数据5≈2.24)附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -u-v i -v-∑i =1nu i -u-2,α^=v --β^ u -.解析:(1)由题意得,w -=11,y -=38.b ^=∑i =15w i -w-y i -y-∑i =15w i -w-2=-751374≈-2.0,a ^=y --b ^w =60.0,所以y ^=-2.0w +60.0. (2)由(1)得,y ^=-2.0w +60.0, 所以y ^=-2.0x 2+60.0,当y ^≤20时,即-2.0x 2+60.0≤20,解得x≥25≈4.5,所以为了放心食用该蔬菜,估计需要用4.5千克的清水清洗1千克蔬菜.独立性检验的基本思想及其初步应用[A组学业达标]1.在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是( )A.频率分布直方图B.回归分析C.独立性检验D.用样本估计总体解析:根据题意,结合题目中的数据,列出2×2列联表,求出K2观测值,对照数表可得出概率结论,这种分析数据的方法是独立性检验.答案:C2.观察下列各图,其中两个分类变量x,y之间关系最强的是( )解析:观察等高条形图发现x1x1+y1和x2x2+y2相差越大,就判断两个分类变量之间关系越强.答案:D3.如表是一个2×2列联表:则表中a,b的值分别为( )y1y2总计x1 a 21 73x222 25 47总计 b 46 120A.94,72C.52,74 D.74,52解析:a=73-21=52,b=a+22=74,故选C.答案:C4.利用独立性检验来考虑两个分类变量X与Y是否有关系时,通过查阅下表来确定“X和Y有关系”的可信度.如果K2的观测值k>5.024,那么在犯错误的概率不超过________的前提下认为“X与Y有关系”()P(K2≥k 0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.87910.828A.0.25 B .0.05 C .0.1D .0.025解析:因为K 2的观测值k >5.024,而在临界值表中对应于5.024的是0.025,所以可以在犯错误的概率不超过0.025的前提下认为“X 和Y 有关系”.答案:D5.分类变量X 和Y 的列表如下,则下列说法判断正确的是( )y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +dA.ad -bc 越小,说明X 与Y 的关系越弱 B .ad -bc 越大,说明X 与Y 的关系越强 C .(ad -bc)2越大,说明X 与Y 的关系越强 D .(ad -bc)2越接近于0,说明X 与Y 的关系越强解析:列联表可以较为准确地判断两个变量之间的相关关系程度, 由K 2=a +b +c +dad -bc2a +b a +cb +dc +d,当(ad -bc)2越大,K 2越大,表明X 与Y 的关系越强.(ad -bc)2越接近0,说明两个分类变量X 和Y 无关的可能性越大. 即所给说法判断正确的是C. 答案:C6.某部门通过随机调查89名工作人员的休闲方式,了解读书和健身的人数,得到的数据如表:读书 健身 总计 女 24 31 55 男 8 26 34 总计325789在犯错误的概率不超过________的前提下认为性别与休闲方式有关系. 解析:由列联表中的数据,得K 2的观测值为k =89×24×26-31×8255×34×32×57≈3.689>2.706,因此,在犯错误的概率不超过0.10的前提下认为性别与休闲方式有关系.答案:0.107.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天的结果如下表所示:死亡 存活 总计 第一种剂量 14 11 25 第二种剂量 6 19 25 总计203050进行统计分析的统计假设是________,K 2=________,说明两种电离辐射剂量对小白鼠的致死作用________.(填“相同”或“不相同”)参考公式:K 2=n ad -bc2a +bc +d a +cb +d解析:统计假设是“小白鼠的死亡与使用的电离辐射剂量无关”,由列联表中数据得K 2=5.33>3.841,所以在犯错误的概率不超过0.05的前提下认为小白鼠的死亡与使用的电离辐射剂量有关.所以两种电离辐射剂量对小白鼠的致死作用不相同.答案:小白鼠的死亡与使用的电离辐射剂量无关 5.33 不相同 8.下表是关于男婴与女婴出生时间调查的列联表:晚上 白天 总计 男婴 45 A B 女婴 E 35 C 总计98D180那么,A =________,B =E =________. 解析:由列联表知识得⎩⎪⎨⎪⎧ 45+E =98,98+D =180,A +35=D ,E +35=C ,B +C =180,解得⎩⎪⎨⎪⎧A =47,B =92,C =88,D =82,E =53.答案:47 92 88 82 539.网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?解析:根据题目所给的数据得到如下2×2列联表:经常上网 不经常上网总计 不及格80120200及格 120 680 800 总计2008001 000得出等高条形图如图所示:比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.10.随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n 个人,其中男性占调查人数的25.已知男性中有一半的人的休闲方式是运动,而女性中只有13的人的休闲方式是运动.(1)完成下列2×2列联表:运动 非运动总计 男性 女性 总计n(2)数至少有多少?(3)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动? 解析:(1)补全2×2列联表如下:运动 非运动 总计 男性 15n 15n 25n 女性 15n 25n 35n 总计25n 35n n(2)则P(K 2≥k 0)=3.841. 由于K 2的观测值k =n ⎝ ⎛⎭⎪⎫n 5·2n 5-n 5·n 522n 5·3n 5·2n 5·3n 5=n 36,故n36≥3.841,即n≥138.276. 又由15n ∈Z ,故n≥140.故若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的至少有140人.(3)根据(2)的结论,本次被调查的人中,至少有25×140=56(人)的休闲方式是运动.[B 组 能力提升]11.某卫生机构对366人进行健康体检,其中某项检测指标阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,故在犯错误的概率不超过________的前提下认为糖尿病患者与遗传有关系.( )A .0.001B .0.005C .0.01D .0.025解析:可以先作出如下列联表(单位:人): 糖尿病患者与遗传列联表糖尿病发病糖尿病不发病总计 阳性家族史 16 93 109 阴性家族史17 240 257 总计33333366根据列联表中的数据,得到K 2的观测值为 k =366×16×240-17×932109×257×33×333≈6.067>5.024.故在犯错误的概率不超过0.025的前提下认为糖尿病患者与遗传有关系. 答案:D12.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________(填序号). ①若K 2的观测值k =6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.解析:K 2的观测值是支持确定有多大把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.答案:③13.根据下表计算:不看电视 看电视 男 37 85 女35143K 2的观测值k≈________(保留3位小数). 解析:k =300×37×143-85×352122×178×72×228≈4.514.答案:4.51414.某学校为了解该校高三年级学生在市一练考试的数学成绩情况,随机从该校高三文科与理科各抽取50名学生的数学成绩,作出频率分布直方图如图,规定考试成绩在[120,150]内为优秀.(1)由以上频率分布直方图填写下列2×2列联表.若按是否优秀来判断,是否有99%的把握认为该校的文理科数学成绩有差异.文科 理科 总计 优秀 非优秀 总计5050100(2)某高校派出2140分以上的学生进行自主招生面试,每位教授至少面试一人,每位学生只能被一位教授面试.若甲教授面试的学生人数为ξ,求ξ的分布列和均值.解析:(1)由频率分布直方图知,该校文科学生中数学成绩优秀的人数为(0.010+0.004+0.002)×10×50=8,故非优秀人数为50-8=42.该校理科学生中数学成绩优秀的人数为(0.020+0.014+0.006)×10×50=20,故非优秀人数为50-20=30.则2×2列联表如下:文科 理科 总计 优秀 8 20 28 非优秀 42 30 72 总计5050100∴K 2的观测值k =100×8×30-42×20250×50×28×72≈7.143>6.635,故有99%的把握认为该校文理科数学成绩有差异.(2)由(1)知,该校随机抽取的学生成绩中一练数学成绩在140分以上的学生为4人,ξ的可能取值为1,2,3.将4人分给两名教授每名教授至少1名学生的不同分法种数为⎝⎛⎭⎪⎫C 34+C 24C 22A 22A 22=14,则P(ξ=1)=C 1414=27,P(ξ=2)=C 2414=37,P(ξ=3)=C 3414=27.∴ξ的分布列为:ξ 1 2 3 P273727∴E(ξ)=1×27+2×37+3×27=2.15.某校为了了解学生对消防知识的了解情况,从高一年级和高二年级各选取100名同学进行消防知识竞赛.图(1)和图(2)分别是对高一年级和高二年级参加竞赛的学生成绩按[40,50),[50,60),[60,70),[70,80]分组,得到的频率分布直方图.(1)请计算高一年级和高二年级成绩小于60分的人数.(2)完成2×2列联表,并回答:在犯错误的概率不超过多少的前提下认为“学生所在的年级与消防常识的了解存在相关性”?成绩小于60分人数成绩不小于60分人数总计高一 高二 总计附:临界值表及参考公式: K 2=n ad -bc 2a +bc +d a +cb +d ,n =a +b +c +d. P(K 2≥k 0)0.15 0.100.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828解析:(1)高一年级成绩低于60分的人数为:(0.03+0.04)×10×100=70; 高二年级成绩低于60分的人数为: (0.035+0.015)×10×100=50. (2)2×2列联表如下:成绩小于60分人数成绩不小于60分人数总计 高一 70 30 100 高二 50 50 100 总计12080200由于K 2的观测值k =200×50×70-50×302100×100×120×80≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为“学生所在的年级与消防知识的了解存在相关性”.。
3.1_回归分析(三)

xi2 1660, yi2 327, xi yi 620,
i 1 i 1 i 1
ˆ b
x y 5x y
i 1 5
x
i 1
2 i
5x
2
620 5 18 7.4 1.15. 2 1660 5 18
ˆ a 7.4 1.15 18 28.1.
残差图的制作及作用 几点说明: 1、坐标纵轴为残差变量,横轴可以有不同的选择; 第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为 2、若模型选择的正确,残差图中的点应该分布在以横 的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数 据;如果数据采集没有错误,则需要寻找其他的原因。 轴为心的带形区域; 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这 样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。 3、对于远离横轴的点,要特别注意。
x
6 9 12 15 18 21 24 27 30 33 36 39
郑平正 制作
最好的模型是哪个?
400 300
400 300 200 100 0
0 5 10 15 20 25 30 35 40
产卵数
产卵数
200 100 0 -100
450 400 350 300 250
产卵数
-40
-30
-20
-10 0 -100 -200
2013-6-13
郑平正 制作
复习回顾
1、线性回归模型: y=bx+a+e, (3)
y=bx+a+e,
E(e)=0,D(e)=
高三数学a版教材教材分析课件人教版选修2-3

四、对教学的几个建议
1.准确把握教学要求 • 与“大纲”比较,“课标”不要求掌握
“组合数的两个性质”(组合数恒等式题用 二项式证)。 • “课标”对本章内容的定位是:用计数原理、 排列与组合概念解决“简单的实际问题”。 所以,教学中一定要把握好这种定位,避免 在技巧和难度上做文章(排列组合的求值化 简证明题难度要控制,要重点做应用题)。
(如第10页.教材更实际实用了贴近高考要求) 5.组合数性质要求有变化 . 6.文科不学本章内容.
计数原理的课程设置意图
必修3概率 计数原理 选修2-3概率
1.必修3强调概率思想,避免复杂的组合计 算干扰学生对概率思想的领悟
2.本章为进一步研究概率做准备 3.本章学习,提供思想和工具
计数问题是数学中的重要研究对象之一, 计数原理为解决很多实际问题提供思想和 工具(分类分步思想不仅仅是解计数问题)
本章内容涉及分类、化归、从特殊到 一般、多元联系表示等众多数学思想方 法。 3.强调对基本概念的本质的理解。
4.加强用两个计数原理解决问题的基本 思想方法
案例1:二项式定理的 猜想与证明 过程
(1)在“探究”中提出如何利用两个计数原理得出 n =2,3,4的展开式的问题;
(2)详细写出用多项式乘法法则得到n=2展开式的 过程,并从两个计数原理的角度对展开过程进行 分析,概括出项数以及项的形式;
二、课时安排及说明
1.本章有三节内容,共14课时
具体分配如下(供参考):
1.1 两个计数原理
25-3.1回归分析的基本思想及其初步应用(1)

3.1回归分析的基本思想及其应用教材分析本节内容是数学选修2-3 第三章 统计案例 的起始课,是在《数学③(必修)》之后,学生已经学习了两个变量之间的相关关系,包括画散点图,最小二乘法求回归直线方程等内容.在这一节中进一步介绍回归分析的基本思想及其初步应用.这部分内容《教师用书》共计4课时,第一课时:介绍线性回归模型的数学表达式,解释随机误差项产生的原因,使学生能正确理解回归方程的预报结果,并能从残差分析角度讨论回归模型的拟合效果;第二课时:从相关系数、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;第三课时:介绍两个变量非线性相关关系;第四课时:回归分析的应用. 本节课是第一课时的内容.本节课的重点是回归分析的基本方法、随机误差e 的认识、残差,难点是回归分析的基本方法.课时分配本节内容用1课时的时间完成,主要介绍线性回归模型的数学表达式,解释随机误差项产生的原因,使学生能正确理解回归方程的预报结果,并能从残差分析角度讨论回归模型的拟合效果.教学目标重点: 回归分析的基本方法、随机误差e 的认识、残差. 难点:回归分析的基本方法.知识点:回归分析的基本方法、随机误差e 、残差.能力点:如何探寻回归分析的基本方法,数形结合的数学思想的运用.教育点:经历由特殊到一般的研究数学问题的过程,体会探究的乐趣,激发学生的学习热情. 自主探究点:如何运用最小二乘法求回归直线方程.考试点:求解线性回归方程,从残差的角度讨论回归模型的拟合效果. 易错易混点:随机误差e 与残差之间的区别与联系.拓展点:从相关系数、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤.教具准备 多媒体课件 课堂模式 学案导学 一、引入新课对于一组具有线性相关关系的数据112233(,),(,),(,),,(,).n n x y x y x y x y 其回归直线方程的截距和斜率的最小二乘法估计公式分别为:a y bx =- 121()()()niii nii x x y y b x x ==--=-∑∑11n i i x x n ==∑ 11ni i y y n ==∑ (,)x y 称为样本点的中心. 如何推导这两个计算公式?【设计意图】由学生所熟悉的最小二乘法引入新课,消除了学生对新知的恐惧感,引出最小二乘法的中的系数,a b ∧∧的计算公式的推导过程.二、探究新知从已经学过的知识,截距a 和斜率b 分别是使21(,)()niii Q y x αββα==--∑取最小值时,αβ的值,由于212212211(,)[((]{[(2[([(][(]}[(2[([(](ni i i ni i i i i nni i i i i i Q y x y x y x y x y x y x y x y x y x y x y x y x y x y x n y x αββββαβββββαβαβββββαβα=====-----=---+---⋅--+--=---+---⋅--+--∑∑∑∑)+))])])))])]))因为1111[((([(([(]([(]0,nniiiii i n ni i i i y x y x y x y x y x y x y x y x n y x y x ny n x n y x βββαβαβββαβββαββ====-----=-----=-----=-----=∑∑∑∑)])))]))))所以2212222111222221122111[([(]()2()()()(()()[()()](()[]()()()ni i i n n ni i ii i i i nniii i ni i i i nni i iii i Q y x y x n y x x x x x y y y y n y x x x y y x x y y n y x x x y y x x x x αββββαβββαβαβ==========---+--=----+-+------=--+---+---∑∑∑∑∑∑∑∑∑(,))])))1n=∑在上式中,后两项和,αβ无关,而前两项为非负数,因此要使Q 取得最小值,当且仅当前两项的值均为0.,既有121()()()niii nii x x y y x x β==--=-∑∑y x αβ=-通过上式推导,可以训练学生的计算能力,观察分析能力,能够很好训练学生数学能力,必须在老师引导下让学生自己推出.所以:a y bx =- 121()()()niii nii x x y y b x x ==--=-∑∑这正是我们所要推导的公式.三、理解新知准确理解最小二乘法中系数,a b ∧∧的计算公式,以及回归方程的求解过程. 【设计意图】为准确地运用新知,作必要的铺垫.四、运用新知例1、 从某大学中随机选取8名女大学生,其身高和体重的数据如图所示:(1) 画出以身高为自变量x,体重为因变量y 的散点图;(2) 求根据女大学生的身高预报体重的回归方程;(3) 求预报一名身高为172cm 的女大学生的体重. 解:(1)由于问题中要求根据身高预报体重,因此选取身高为自变量x ,体重为因变量y 作散点图:(2)0.849,85.712:0.84985.712.b a y x ==-∴=-回归方程(3)对于身高172cm 的女大学生,由回归方程可以预报体重为:0.84917285.71260.316()y kg =⨯-=ˆ0.849b=是斜率的估计值,说明身高x 每增加1个单位时,体重y 就增加0.849 个单位,这表明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱?【设计意图】通过具体例子让学生感受回归分析思想的应用.最后的问题为接下来引入残差做了铺垫.在必修 3 中,我们介绍了用相关系数;来衡量两个变量之间线性相关关系的方法.本相关系数的具体计算公式为()()niix x y y r --=∑当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常,当r 的绝对值大于0. 75 时认为两个变量有很强的线性相关关系.165在本例中,可以计算出r =0. 798.这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的.显然,身高172cm 的女大学生的体重不一定是60. 316 kg ,但一般可以认为她的体重接近于60 . 316 kg .图3 . 1- 2 中的样本点和回归直线的相互位置说明了这一点.由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用下面的线性回归模型来表示:y bx a e =++, ( 3 )这里a 和b 为模型的未知参数,e 是y 与y bx a =+之间的误差.通常e 为随机变量,称为随机误差,它的均值 E (e )=0,方差D (e )=2()D e σ=>0 .这样线性回归模型的完整表达式为:2,()0,().y bx a e E e D e σ=++⎧⎨==⎩ (4) 在线性回归模型(4)中,随机误差e 的方差越小,通过回归直线y bx a =+ (5)预报真实值y 的精度越高.随机误差是引起预报值y 与真实值y 之间的误差的原因之一,大小取决于随机误差的方差.另一方面,由于公式(1)和(2)中a 和b 为截距和斜率的估计值,它们与真实值a 和b 之间也存在误差,这种误差是引起预报值y 与真实值y 之间误差的另一个原因.【设计意图】引入随机误差e 后,将回归方程推广到回归模型. 思考:产生随机误差项e 的原因是什么?一个人的体重值除了受身高的影响外,还受许多其他因素的影响.例如饮食习惯、是否喜欢运动、度量误差等.事实上,我们无法知道身高和体重之间的确切关系是什么,这里只是利用线性回归方程来近似这种关系.这种近似以及上面提到的影响因素都是产生随机误差 e 的原因.因为随机误差是随机变量,所以可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为0,因此可以用方差2σ来衡量随机误差的大小.为了衡量预报的精度,需要估计护的值.一个自然的想法是通过样本方差来估计总体方差.如何得到随机变量e 的样本呢?由于模型(3)或(4)中的e 隐含在预报变量y 中,我们无法精确地把它从y 中分离出来,因此也就无法得到随机变量e 的样本.解决问题的途径是通过样本的估计值来估计2σ.根据截距和斜率的估计公式(1)和(2 ) , 可以建立回归方程y bx a =+,因此y 是(5)中y 的估计量.由于随机误差e y y =-,所以e y y =-是e 的估计量.对于样本点(11,x y ) , (22,x y ) ,…, (,n n x y ) 而言,相应于它们的随机误差为,1,2,,i i i i i e y y y bx a i n =-=--=,其估计值为,1,2,,i i i i i e y y y b x a i n ∧∧∧∧=-=--=,i e ∧称为相应于点(,)i i x y 的残差(residual ).类比样本方差估计总体方差的思想,可以用22111(,)(2)22n i i e Q a b n n n σ∧∧∧∧===>--∑ 作为2σ的估计量, 其中a 和b 由公式(1) (2)给出,Q (a ,b )称为残差平方和(residual sum of squares ).可以用2σ∧衡量回归方程的预报精度.通常,2σ∧越小,预报精度越高.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差12,,,n e e e ∧∧∧来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析. 【设计意图】引入残差的概念,使学生会运用残差分析的思想分析模型的拟合效果. 表3- 2 列出了女大学生身高和体重的原始数据以及相应的残差数据.e -6.373 的估计值等,这样作出的图形称为残差图.【设计意图】通过例1的具体数据让学生感受残差分析的应用. 【变式练习】观察两相关变量得如下数据:求两个变量的回归方程. 解:10102110,0,110,110,i i i i i x y x x y ======∑∑10110221101101001,000.11010010i ii i i x y x yb a y b x b x x∧∧∧∧==--⨯∴====-=-⋅=-⨯-∑∑ 所以所求回归直线方程为y x =【设计意图】让学生自己动手解决求回归方程的问题,加深对回归分析思想的印象.五、课堂小结教师提问:本节课我们学习了哪些知识,涉及到哪些数学思想方法? 学生作答:1.回归直线方程,随机误差及残差.2.思想:回归分析的思想、数形结合的思想、残差分析的思想.教师总结: 公式的证明过程用到了前面两章学过的知识,提醒学生: 在学习新知时,也要经常复习前面学过的内容,“温故而知新”.在应用中增强对知识(如本节的随机误差和残差)的理解,及时查缺补漏,从而更好地运用知识,解题要有目的性,加强对数学知识、思想方法的认识与自觉运用. 【设计意图】 加强对学生学习方法的指导,做到“授人以渔”.六、布置作业1.阅读教材P80—84;2.书面作业 P89 习题3.1 1.(1)、(2)、(4).3.课外思考:如何运用回归分析的思想对未知量进行预报轨迹呢?【设计意图】设计作业1,2,是引导学生先复习,再作业,培养学生良好的学习习惯.书面作业的布置,是为了让学生能够运用回归分析的思想,解决简单的数学问题;课外思考的安排,是让学生理解回归分析的思想,从而让学生深刻地体会随机误差,残差分析的思想,培养学生回归分析的基本思想,起到承上启下的作用.七、教后反思1.由于各校的情况不同,建议教师在使用本教案时灵活掌握,但必须在公式的证明思路的探寻上下足功夫.2.本节课的弱项是由于整堂课课堂容量较大,在课堂上没有充分暴露学生的思维过程,并给予针对性地诊断与分析.八、板书设计1i nb ==∑bx。
2019人教版高中数学选修2-3学案第3章3.1第2课时线性回归分析含解析

第三章统计案例3.1 回归分析的基本思想及其初步应用第2课时线性回归分析A级基础巩固一、选择题1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做实验,并用回归分析方法分别求得相关系数r与残差平方和m如下表所示:()A.甲B.乙C.丙D.丁解析:r越接近1,相关性越强,残差平方和m越小,相关性越强,所以选D正确.答案:D2.已知回归方程y^=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是()A.0.01 B.0.02 C.0.03 D.0.04解析:因为残差e^i=y i-y^i,所以残差的平方和为(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.答案:C3.若某地财政收入x与支出y满足线性回归模型y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过()A.10亿元B.9亿元C.10.5亿元D.9.5亿元解析:x=10时,y^=0.8×10+2=10.因为|e|<0.5,所以年支出预计不会超过10.5亿元.答案:C4.下列说法中正确的是()①相关系数r用来衡量两个变量之间线性关系的强弱,|r|越接近于1,相关性越弱;②回归直线y^=b^x+a^一定经过样本点的中心(x,y);③随机误差e满足E(e)=0,其方差D(e)的大小用来衡量预报的精确度;④相关指数R2用来刻画回归的效果,R2越小,说明模型的拟合效果越好.A.①②B.③④C.①④D.②③解析:①线性相关关系r是衡量两个变量之间线性关系强弱的量,|r|越接近于1,这两个变量线性相关关系越强,|r|越接近于0,线性相关关系越弱,①错误;②回归直线y^=b^x+a^一定通过样本点的中心(x,y),②正确;③随机误差e是衡量预报精确度的一个量,它满足E(e)=0,③正确;④用相关指数R 2用来刻画回归的效果,R 2越大,说明模型的拟合效果越好,④错误.答案:D5.如图所示,5个(x ,y )数据,去掉D (3,10)后,下列说法错误的是( )A .相关系数r 变大B .残差平方和变大C .相关指数R 2变大D .解释变量x 与预报变量y 的相关性变强解析:由散点图知,去掉D 后,x 与y 的相关性变强,且为正相关,所以r 变大,R 2变大,残差平方和变小.答案:B二、填空题6.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.解析:由e i 恒为0,知y i =y ^i ,即y i -y ^i =0,答案:17.根据如下样本数据得到的回归方程为y ^=b ^x +a ^,若a ^=5.4,则x 每增加1个单位,估计y ________个单位.解析:由题意可得,x=5,y=15(4+2.5-0.5+0.5-2)=0.9,因为回归方程为y^=b^x+a^,若a^=5.4,且回归直线过点(5,0.9),所以0.9=5b^+5.4,解得b^=-0.9,所以x每增加一个单位,估计y减少0.9个单位.答案:减少0.98.已知方程y^=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,y^的单位是kg,那么针对某个体(160,53)的残差是________.解析:将x=160代入y^=0.85x-82.71,得y^=0.85×160-82.71=53.29,所以残差e^=y-y^=53-53.29=-0.29.答案:-0.29三、解答题9.(2018·全国卷Ⅱ)下图是某地区2000年到2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:方法一从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.方法二从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.10.关于x与y有以下数据:已知x 与y 线性相关,由最小二乘法得b =6.5.(1)求y 与x 的线性回归方程;(2)现有第二个线性模型:y ^=7x +17,且R 2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.解:(1)依题意设y 与x 的线性回归方程为y ^=6.5x +a ^.— x =2+4+5+6+85=5,— y =30+40+60+50+705=50,因为y ^=6.5x +a ^经过(— x ,— y ),所以y 与x 的线性回归方程为y ^=6.5x +17.5 .所以50=6.5×5+a ^.所以a ^=17.5.(2)由(1)的线性模型得y i -y i 与y i -— y的关系如下表所示:由于R 21=0.845,R 2=0.82知R 21>R 2,所以(1)的线性模型拟合效果比较好.B 级 能力提升1.根据如下样本数据:得到的回归方程为y =bx +a ,若a =7.9,则x 每增加 1个单位,y 就( )A .增加1.4个单位B .减少1.4个单位C .增加1.2个单位D .减少1.2个单位 解析:易知x —=15×(3+4+5+6+7)=5, y —=15×(4+2.5-0.5+0.5-2)=0.9, 所以样本点中心为(5,0.9),所以0.9=5b +7.9,所以b =-1.4,所以x 每增加1个单位,y 就减少1.4个单位.故选B.答案:B2.若某函数型相对一组数据的残差平方和为89,其相关指数为0.95,则总偏差平方和为________,回归平方和为________.解析:因为R 2=1-残差平方和总偏差平方和, 0.95=1-89总偏差平方和,所以总偏差平方和为1 780;回归平方和=总偏差平方和-残差平方和=1 780-89=1 691.答案:1 780 1 6913.某运动员训练次数与成绩之间的数据关系如下:(1)(2)求出回归方程;(3)作出残差图;(4)计算相关指数R 2; (5)试预测该运动员训练47次及55次的成绩.解:(1)作出该运动员训练次数(x )与成绩(y )之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)— x =39.25,— y =40.875,=13 180,a ^=— y -b ^— x =-0.003 88.所以回归方程为y ^=1.0415x -0.003 88.(3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)计算得相关指数R 2=0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.(5)由上述分析可知,我们可用回归方程y ^=1.041 5x -0.003 88作为该运动员成绩的预报值.将x =47和x =55分别代入该方程可得y ≈49和y ≈57.故预测该运动员训练47次和55次的成绩分别为49和57.。
(压轴题)高中数学高中数学选修2-3第三章《统计案例》测试(包含答案解析)(3)

一、选择题1.已知x 与y 之间的几组数据如下表: x 1 2 3 4 y1mn4参考公式:线性回归方程y bx a =+,其中()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-;相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑.上表数据中y 的平均值为2.5,若某同学对m 赋了三个值分别为1.5,2,2.5得到三条线性回归直线方程分别为11y b x a =+,22y b x a =+,33y b x a =+,对应的相关系数分别为1r ,2r ,3r ,下列结论中错误..的是( ) A .三条回归直线有共同交点 B .相关系数中,2r 最大 C .12b b >D .12a a >2.以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,其变换后得到线性回归方程0.53z x =+,则c =( ) A .3B .3eC .0.5D .0.5e3.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是A .10200ˆyx =-+ B .10200ˆyx =+ C .10200ˆyx =-- D .10200ˆyx =- 4.设导弹发射的事故率为0.01,若发射10次,其出事故的次数为ξ,则下列结论正确的是 ( ) A .0.1E ξ=B .•01D ξ=C .10()0.01?0.99k k P k ξ-==D .1010()0.99?0.01k k kP k C ξ-==5.某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:附表:经计算2K 的观测值10k =,则下列选项正确的是( ) A .有99.5%的把握认为使用智能手机对学习有影响 B .有99.5%的把握认为使用智能手机对学习无影响 C .有99.9%的把握认为使用智能手机对学习有影响 D .有99.9%的把握认为使用智能手机对学习无影响 6.下列命题中正确命题的个数是(1)对分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握越大;(2)若将一组样本数据中的每个数据都加上同一个常数后,则样本的方差不变; (3)在残差图,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高; (4)设随机变量ξ服从正态分布()0,1N ; 若()1P p ξ>=,则()1102P p ξ-<<=-( ) A .4B .3C .2D .17.在独立性检验中,统计量2χ有三个临界值:2.706、3.841和6.635,在一项打鼾与患心脏病的调查中,共调查了1000人,经计算的2χ=18.87,根据这一数据分析,认为打鼾与患心脏病之间 ( )A .有95%的把握认为两者无关B .约有95%的打鼾者患心脏病C .有99%的把握认为两者有关D .约有99%的打鼾者患心脏病8.对于独立性检验,下列说法正确的是( ) A .K 2>3.841时,有95%的把握说事件A 与B 无关 B .K 2>6.635时,有99%的把握说事件A 与B 有关 C .K 2≤3.841时,有95%的把握说事件A 与B 有关 D .K 2>6.635时,有99%的把握说事件A 与B 无关9.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅临界值表来确定推断“X 与Y 有关系”的可信度,如果k >5.024,那么就推断“X 和Y 有关系”,这种推断犯错误的概率不超过( ) A .0.25 B .0.75 C .0.025 D .0.97510.已知,x y 的取值如下表:( )x0 1, 2 3 4 y11.33.25.68.9若依据表中数据所画的散点图中,所有样本点()(,)1,2,3,4,5i i x y i =都在曲线212y x a =+附近波动,则a =( ) A .1B .12C .13D .12-11.通过随机询问2016名性别不同的大学生是否爱好某项运动,得到2 6.023K =,则根据这一数据查阅表,则有把握认为“爱好该项运动与性别有关”的可信程度是( )A .90%B .95%C .97.5%D .99.5%12.下列说法:①将一组数据中的每个数据都乘以同一个非零常数a 后,标准差也变为原来的a 倍; ②设有一个回归方程35y x =-,变量x 增加1个单位时,y 平均减少5个单位; ③线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;④在某项测量中,测量结果ξ服从正态分布()()21,0N σσ>,若ξ位于区域()0,1的概率为0.4,则ξ位于区域()1,+∞内的概率为0.6⑤利用统计量2χ来判断“两个事件,X Y 的关系”时,算出的2χ值越大,判断“X 与Y 有关”的把握就越大 其中正确的个数是 A .1B .2C .3D .4二、填空题13.在一次独立试验中,有200人按性别和是否色弱分类如下表(单位:人)你能在犯错误的概率不超过_____的前提下认为“是否色弱与性别有关”?14.某中学为了调研学生的数学成绩和物理成绩是否有关系,随机抽取了189名学生进行调查,调查结果如下:在数学成绩较好的94名学生中,有54名学生的物理成绩较好,有40名学生的物理成绩较差;在成绩较差的95名学生中,有32名学生的物理成绩较好,有63名学生的物理成绩较差.根据以上的调查结果,利用独立性检验的方法可知,约有________的把握认为“学生的数学成绩和物理成绩有关系”.15.为了解适龄公务员对放开生育二胎政策的态度,某部门随机调查了200位30~40岁之间的公务员,得到的情况如下表:男公务员 女公务员 生二胎 80 40 不生二胎4040则________(填“有”或“没有”)99%以上的把握认为“生二胎与性别有关”. 附:K 2=. P (K 2≥k 0) 0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.82816.为了解某班学生喜爱打篮球是否与性别有关,对该班50名 学生进行了问卷调查, 得到了如下22⨯ 列联表喜爱打篮球 不喜爱打篮球 合计男生20 525 女生 10 1525合计30 2050则至少有_____的把握认为喜爱打篮球与性别有关(请用百分数表示). 17.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程0.110ˆyx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是___________.18.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温(如表),并求得线性回归方程为^=-2x +60.不小心丢失表中数据c ,d ,那么由现有数据知2c+d=______. x c 13 10 -1 y243438d19.下列4个命题:①为了了解800名学生对学校某项教改试验的意见,打算从中抽取一个容量为40的样本,考虑用系统抽样,则分段的间隔为40;②四边形ABCD 为长方形,2AB =,1BC =,O 为AB 中点,在长方形ABCD 内随机取一点P ,取得的P 点到O 的距离大于1的概率为12π-; ③把函数3sin 23y x π⎛⎫=+⎪⎝⎭的图象向右平移6π个单位,可得到3sin 2y x =的图象; ④已知回归直线的斜率的估计值为1.23,样本点的中心为()4,5,则回归直线方程为1.230.08y x =+.其中正确的命题有__________.(填上所有正确命题的编号)20.2018年春季,世界各地相继出现流感疫情,这已经成为全球性的公共卫生问题.为了考察某种流感疫苗的效果,某实验室随机抽取100只健康小鼠进行试验,得到如下列联表:关系.(参考公式:()()()()()22n ad bc K a b c d a c b d -=++++.)三、解答题21.第十八届中国国际农产品交易会于11月27日在重庆国际博览中心开幕,我市全面推广“遂宁红薯”及“遂宁鲜”农产品区域公用品牌,并组织了100家企业、1000个产品进行展示展销,扩大优质特色农产品市场的占有率和影响力,提升遂宁特色农产品的社会认知度和美誉度,让来自世界各地的与会者和消费者更深入了解遂宁,某记者对本次农交会进行了跟踪报道和实际调查,对某特产的最满意度()%x 和对应的销售额y (万元)进行了调查得到以下数据:关系数r 的绝对值在0.95以上(含0.95)是线性相关性较强;否则,线性相关性较弱.请你对线性相关性强弱作出判断,并给出理由;(2)如果没有达到较强线性相关,则采取“末位淘汰”制(即销售额最少的那一天不作为计算数据),并求在剔除“末位淘汰”的那一天后的销量额y 关于最满意度x 的线性回归方程(系数精确到0.1). 参考数据:24x =,81y =,52215146ii x x =-=∑, 52215176i i y y =-=∑,515151i ii x y xy =-=∑13.27≈≈.附:对于一组数据()()()1122,,,,,,n n x y x y x y ⋅⋅⋅.其回归直线方程 ˆˆˆy bx a =+的斜率和截距的最小二乘法估计公式分别为:1221ˆ·ni ii ni i x y nx y bx nx ==-=-∑∑,ˆa y bx=-,线性相关系数·ni ix y nx y r -=∑22.为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:质量监督员甲在生产现场时,990件产品中合格品有982件,次品有8件;甲不在生产现场时,510件产品中合格品有493件,次品有17件,试分别用列联表、独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响?23.2020年初,新型冠状病毒(2019-nCoV )肆虐,全民开启防疫防控.新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是40岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对200个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为7.1,方差为22.25.如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:(1)是否有95%的把握认为“长期潜伏”与年龄有关;(2)假设潜伏期X 服从正态分布()2,N μσ,其中μ近似为样本平均数x ,2σ近似为样本方差2s .(ⅰ)现在很多省份对入境旅客一律要求隔离14天,请用概率的知识解释其合理性;(ⅱ)以题目中的样本频率估计概率,设1000个病例中恰有()*k k ∈N 个属于“长期潜伏”的概率是()g k ,当k 为何值时,()g k 取得最大值. 附:()()()()()22n ad bc a b c d a c b d χ-=++++若()2,N ξμσ则()0.6862P μσξμσ-<<+=.()220.9544P μσξμσ-<<+=,()330.9974P μσξμσ-<<+=.24.某地一所妇产科医院为了解婴儿性别与出生时间(白天或晚上)之间的联系,从该医院最近出生的200名婴儿获知如下数据:这200名婴儿中男婴的比例为55%,晚上出生的男婴比白天出生的男婴多75%,晚上出生的女婴人数与白天出生的男婴人数恰好相等. (1)根据题意,完成下列2×2列联表;(2)根据列联表,判断能否有99%的把握认为婴儿的性别与出生时间有关,说明你的理由.附:22()()()()()n ad bcKa b c d a c b d-=++++(n=a+b+c+d),参考数据:221999≈0.0368.25.在第十五次全国国民阅读调查中,某地区调查组获得一个容量为200的样本,其中城镇居民150人,农村居民50人,在这些居民中,经常阅读的城镇居民100人,农村居民24人.(1)完成上面2×2列联表,并判断是否有95%的把握认为经常阅读与居民居住地有关?(2)从该地区居民城镇的居民中,随机抽取5位居民参加一次阅读交流活动,记这5位居民中经常阅读的人数为X,若用样本的频率作为概率,求随机变量X的分布列和期望.附:K2=2()()()()()n ad bca b c d a c b d-++++,其中n=a+b+c+d.26.“微粒贷”是腾讯旗下2015年9月开发上市的微众银行网货产品.腾讯公司为了了解“微粒贷”上市以来在C市的使用情况,统计了C市2015年至2019年使用了“微粒货”贷款的累计人数,统计数据如表所示:(1)已知变量x ,y 具有线性相关关系,求累计人数y (万人)关于年份代号x 的线性回归方程y bx a =+;并预测2020年使用“微粒贷“贷款的累计人数;(2)“微粒贷”用户拥有的贷款额度是根据用户的账户信用资质判定的,额度范围在500元至30万元不等,腾讯公司在统计使用人数的同时,对他们所拥有的贷款额度也作了相应的统计.我们把拥有货款额度在500元至5万元(不包括5万元)的人群称为“低额度贷款人群”,简称“A 类人群”;把拥有贷款额度在5万元及以上的人群称为“高额度贷款人群”,简称“B 类人群”.根据统计结果,随机抽取6人,其中A 类人群4人,B 类人群2人.现从这6人中任取3人,记随机变量ξ为A 类人群的人数,求ξ的分布列及其期望.参考公式:1122211()()()()nni iiii i nniii i x y nx y x x y y b xn x x x ====---==--∑∑∑∑, a y bx =-参考数据:5162i ii x y=≈∑【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【分析】由题意可得5m n +=,分别取m 与n 的值,由公式计算出1122123,,,,,,b a b a r r r 的值,逐一分析四个选项,即可得到答案. 【详解】由题意,1410m n +++=,即5m n +=. 若 1.5m =,则 3.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 1.5 2.53 2.5 3.5 2.54 2.54 2.5 5.5iii x x y y =--=--+--+--+--=∑ ,()()()42222211.50.50.5 1.55i i x x =-=-+-++=∑ ,()()()42222211.511 1.5 6.5i i y y =-=-+-++=∑.则1 5.51.15b ==,1 2.5 1.1 2.50.25a =-⨯=- ,1r =≈; 若2m =,则3n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.52 2.53 2.53 2.54 2.54 2.55iii x x y y =--=--+--+--+--=∑,()4215ii x x =-=∑,()()()42222211.50.50.5 1.55i i y y =-=-+-++=∑.2515b ==,2 2.51 2.50a =-⨯=,21r ==; 若 2.5m =,则 2.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 2.5 2.53 2.5 2.5 2.54 2.54 2.5 4.5iii x x y y =--=--+--+--+--=∑,()4215i i x x =-=∑,()()422211.5 1.5 4.5i i y y =-=-+=∑,3r ==由样本点的中心相同,故A 正确;由以上计算可得,相关系数中,2r 最大,12b b >,12a a <,故B ,C 正确,D 错误. 故选:D . 【点睛】本题考查线性回归方程与相关系数的求法,考查计算能力,是中档题.2.B解析:B 【分析】根据指对数互化求解即可. 【详解】解:因为0.53z x =+,ln z y =,所以0.53ln x y +=,所以0.5330.5x x y e e e +==⨯,故3c e =.故选:B. 【点睛】本题考查非线性回归问题的转化,是基础题.3.A解析:A 【解析】试题分析:因为商品销售量x 与销售价格ˆy负相关,所以排除B ,D 选项, 将0x =代入10200ˆyx =--可得2000ˆy =-<,不符合实际.故A 正确. 考点:线性回归方程.【方法点睛】本题主要考查线性回归方程,属容易题.线性回归方程ˆˆˆy bx a =+当ˆ0b<时ˆ,x y 负相关;当ˆ0b >时ˆ,x y 正相关. 4.A解析:A 【解析】 【分析】由题意知本题是在相同的条件下发生的试验,发射的事故率都为0.01,实验的结果只有发生和不发生两种结果,故本题符合独立重复试验,由独立重复试验的期望公式得到结果. 【详解】由题意知本题是在相同的条件下发生的试验,发射的事故率都为0.01,故本题符合独立重复试验,即ξ~(10,0.01)B . ∴100.010.1E ξ=⨯= 故选A . 【点睛】解决离散型随机变量分布列和期望问题时,主要依据概率的有关概念和运算,同时还要注意题目中离散型随机变量服从什么分布,若服从特殊的分布则运算要简单的多.5.A解析:A 【解析】 【分析】由题意结合2K 的观测值k 由独立性检验的数学思想给出正确的结论即可. 【详解】由于2K 的观测值10k =7.879>,其对应的值0.0050.5%=,据此结合独立性检验的思想可知:有99.5%的把握认为使用智能手机对学习有影响. 本题选择A 选项. 【点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.6.B解析:B 【解析】 【分析】根据独立性检验的定义可判断(1);根据方差的性质可判断(2);根据残差的性质可判断(3);根据正态分布的对称性可判断(4).【详解】(1)对分类变量X 与Y 的随机变量2K 的观测值K 来说,K 越大,判断“X 与Y 有关系”的把握越大,故(1)错误;(2)若将一组样本数据中的每个数据都加上同一个常数后,数据的离散程度不变,则样本的方差不变,故(2)正确;(3)根据残差的定义可知,在残差图,残差点分布的带状区域的宽度越狭窄,预测值与实际值越接近,其模型拟合的精度越高,(3)正确;(4)设随机变量ξ服从正态分布()0,1N ,若()1P p ζ>=,则()1P p ζ<-=,则()1112P p ζ-<<=-,则()1102P p ζ-<<=-,故(4)正确, 故正确的命题的个数为3个,故选B. 【点睛】本题主要通过对多个命题真假的判断,主要综合考查独立性检验的定义、方差的性质、残差的性质以及正态分布的对称性,属于中档题. 这种题型综合性较强,也是高考的命题热点,同学们往往因为某一处知识点掌握不好而导致“全盘皆输”,因此做这类题目更要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的自己已经掌握的知识点入手,然后集中精力突破较难的命题.7.C解析:C 【解析】因为统计量2χ有三个临界值:2.706、3.841和6.635,而2χ=18.87>6.635,所以有99%的把握认为两者有关,选C.8.B解析:B【解析】由独立性检验的知识知:K 2>3.841时,有95%的把握认为“变量X 与Y 有关系”;K 2>6.635时,有99%的把握认为“变量X 与Y 有关系”.故选项B 正确.9.C解析:C【解析】∵P (k >5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X 和Y 有关系”. 考点:独立性检验.10.A解析:A 【解析】 设2t x = ,则11(014916)6,(1 1.3 3.2 5.68.9)455t y =++++==++++=,所以点(6,4)在直线12y t a =+上,求出1a =,选A.点睛:本题主要考查了散点图,属于基础题.样本点的中心(),x y 一定在直线回归直线上,本题关键是将原曲线变形为12y t a =+,将点(6,4)代入,求出值. 11.C解析:C 【解析】因为2 6.023K =,且5.024 6.023 6.635≤≤,所以有把握认为“爱好该项运动与性别有关”的可信度P 满足10.02510.010P -≤≤-,即0.9750.99P ≤≤,应选答案C 。
2019人教版高中数学选修2-3学案第3章3.1第1课时线性回归模型含解析

第三章统计案例3.1 回归分析的基本思想及其初步应用第1课时线性回归模型A级基础巩固一、选择题1.散点图在回归分析过程中的作用是()A.查找个体个数B.比较个体数据大小关系C.探究个体分类D.粗略判断变量是否线性相关解析:散点图在回归分析过程中的作用是粗略判断变量是否线性相关.答案:D2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有() A.b与r的符号相同B.a与r的符号相同C.b与r的符号相反D.a与r的符号相反解析:因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.答案:A3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=b ^x +18,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数b ^的值是( )A.116B.14C.13D.12解析:因为x 1+x 2+x 3+…+x 8=6,y 1+y 2+y 3+…+y 8=3,所以x —=34,y —=38, 所以样本点的中心坐标为⎝⎛⎭⎪⎫34,38,代入回归直线方程得38=b ^×34+18,解得b ^=13.答案:C4.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(— x ,—y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 解析:回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,A 正确;由回归方程系数的意义可知回归直线过样本点的中心— x ,—y ,B 正确;依据回归方程中y 的含义可知,x 每变化1个单位,y 相应变化约0.85个单位,C 正确;用回归方程对总体进行估计不能得到肯定的结论,故D 错误.答案:D5.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b ^— x ,. 据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元D .12.2万元解析:由已知得—x =8.2+8.6+10.0+11.3+11.95=10(万元),—y =6.2+7.5+8.0+8.5+9.85=8(万元), 故a ^=8-0.76×10=0.4.所以回归直线方程为y ^=0.76x +0.4,社区一户年收入为15万元家庭年支出为y ^=0.76x +0.4,社区一户年收入为15万元家庭支出为y ^=0.76×15+0.4=11.8(万元).答案:B 二、填空题6.某市居民2014—2018年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如表:,家庭年平均收入与年平均支出有________(填“正”或“负”)线性相关关系.解析:把2014—2018年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.5,15,因此中位数为13(万元),由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.答案:13 正7.已知x ,y 的取值如表所示:若从散点图分析,y 与x 线性相关,且y =0.95x +a ^,则a ^的值等于________.解析:x —=14(0+1+3+4)=2,y —=2.2+4.3+4.8+6.74=4.5,而回归直线方程过样本点的中心(2,4.5),所以a ^=y —-0.95x —=4.5-0.95×2=2.6.答案:2.68.已知一个线性回归方程为y ^=1.5x +45,其中x 的取值依次为1,7,5,13,19,则—y =________.解析:—x =1+7+5+13+195=9,因为回归直线方程过点(— x ,—y ),所以—y =1.5x +45=1.5×9+45=58.5.答案:58.5 三、解答题9.假设关于某种设备的使用年限x (年)与所支出的维修费用y (万元)有如下表:(1)求x —,y —.(2)x 与y 具有线性相关关系,求出线性回归方程. 解:(1)由统计图表知x —=4,y —=5.10.某个服装店经营某种服装,在某周内获纯利y (元)与该周每天销售这种服装件数x 之间的一组数据关系表:(1)求x -,y -;(2)已知纯利y 与每天销售件数x 线性相关,试求出其回归方程. 解:(1)x -=3+4+5+6+7+8+97=6,y -=66+69+73+81+89+90+917=5597.(2)因为y 与x 有线性相关关系,a ^=5597-6×4.75=71914≈51.36.故回归方程为y ^=4.75x +51.36.B 级 能力提升1.某学生四次模拟考试中,其英语作文的减分情况如下表:则其线性回归方程为( )A .y =0.7x +5.25B .y =-0.6x +5.25C .y =-0.7x +6.25D .y =-0.7x +5.25解析:由题意可知,所减分数y 与模拟考试次数x 之间为负相关,所以排除A.考试次数的平均数为x =14(1+2+3+4)=2.5,所减分数的平均数为y =14(4.5+4+3+2.5)=3.5,即直线应该过点(2.5,3.5),代入验证可知直线y =-0.7x +5.25成立,故选D.答案:D2.已知x ,y 的取值如下表所示:若y 与x 线性相关,且y ^=0.95x +a ^,则a ^=________.解析:由表格得x —=14(0+1+3+4)=2,y —=14(2.2+4.3+4.8+6.7)=4.5,因为线性回归直线过样本点的中心(2,4.5), 所以4.5=0.95×2+a ^,所以a ^=2.6. 答案:2.63.某市垃圾处理厂的垃圾年处理量(单位:千万吨)与资金投入量x (单位:千万元)有如下统计数据:年不低于8.0 千万吨的概率;(2)由表中数据求得线性回归方程为y ^=4x +a ^,该垃圾处理厂计划2017年的垃圾处理量不低于9.0千万吨,现由垃圾处理厂决策部门获悉2017年的资金投入量约为1.8千万元,请你预测2017年能否完成垃圾处理任务,若不能,缺口约为多少千万吨?解:(1)从统计的5年垃圾处理量中任取2年的基本事件共10个:(7.4,7.0),(7.4,9.2),(7.4,7.9),(7.4,10.0),(7.0,9.2),(7.0,7.9),(7.0,10.0),(9.2,7.9),(9.2,10.0),(7.9,10.0),其中垃圾处理量至少有一年不低于8.0千万吨的基本事件有6个:(7.4,9.2),(7.4,10.0),(7.0,9.2),(7.0,10.0),(9.2,7.9),(9.2,10.0).所以,这2年的垃圾处理量至少有一年不低于8.0千万吨的概率为P =610=35.(2)—x =1.5+1.4+1.9+1.6+2.15=1.7,— y =7.4+7.0+9.2+7.9+10.05=8.3, 因为直线y ^=4x +a ^过样本中心点(— x ,—y ), 所以8.3=4×1.7+a ^,解得a ^=1.5. 所以y ^=4x +1.5.当x =1.8时,y ^=4×1.8+1.5=8.7<9.0,所以不能完成垃圾处理任务,缺口约为0.3千万吨.。
高中数学选修2-3统计案例之线性回归方程习题课

1.相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.3.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则b^,a^其中,b是回归方程的斜率,a是在y轴上的截距.4.样本相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.5.线性回归模型(1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.(2)相关指数用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.规律(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.注意(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.考向一相关关系的判断例1.下列选项中,两个变量具有相关关系的是( )A.正方形的面积与周长B.匀速行驶车辆的行驶路程与时间C.人的身高与体重D.人的身高与视力答案:C例2.对变量x、y有观测数据(x i,y i)(i =1,2,…,10),得散点图1;对变量u,v 有观测数据(u i,v i)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由题图1可知,各点整体呈递减趋势,x与y负相关,由题图2可知,各点整体呈递增趋势,u与v正相关.例3.下面哪些变量是相关关系().A.出租车车费与行驶的里程B.房屋面积与房屋价格C.身高与体重D.铁块的大小与质量解析A,B,D都是函数关系,其中A一般是分段函数,只有C是相关关系.答案 C例4.如图所示,有5组(x,y)数据,去掉________组数据后,剩下的4组数据的线性相关性最大.解析:因为A、B、C、E四点分布在一条直线附近且贴近某一直线,D点离得远.答案:D例5.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v 有观测数据(u i、v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断().A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.答案 C例6.下列关系属于线性负相关的是( )A.父母的身高与子女身高的关系B.球的体积与半径之间的关系C.汽车的重量与汽车每消耗1 L汽油所行驶的平均路程D.一个家庭的收入与支出解析:选C.A、D中的两个变量属于线性正相关,B中两个变量是函数关系.例7.山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):(1)画出散点图;(2)判断是否具有相关关系.[审题视点] (1)用x 轴表示化肥施用量,y 轴表示棉花产量,逐一画点.(2)根据散点图,分析两个变量是否存在相关关系.解 (1)散点图如图所示(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.例8. 根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).解析从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.答案否考向二线性回归方程例9.对有线性相关关系的两个变量建立的回归直线方程y^=a+bx中,回归系数b( )A.不能小于0 B.不能大于0C.不能等于0 D.只能小于0解析:选C.∵b=0时,r=0,这时不具有线性相关关系,但b能大于0也能小于0.例10.已知回归方程y^=4.4x+838.19,则可估计x与y的增长速度之比约为________.解析:x与y的增长速度之比即为回归方程的斜率的倒数14.4=1044=522.答案:5 22例11.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是().A.y^=-10x+200 B.y^=10x+200 C.y^=-10x-200 D.y^=10x-200 解析因为销量与价格负相关,由函数关系考虑为减函数,又因为x,y不能为负数,再排除C,故选A.答案 A例12.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程.预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)[审题视点] (2)问利用公式求a ^、b ^,即可求出线性回归方程.(3)问将x =100代入回归直线方程即可. 解 (1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:i =14x 2i =86,x =3+4+5+64= 4.5(吨),y =2.5+3+4+4.54=3.5(吨). 已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i =14x i y i -4x ·y ∑i =14x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:90-(0.7×100+0.35)=19.65(吨标准煤).在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.例13.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y对x的线性回归方程为().A.y=x-1 B.y=x+1C.y=88+12x D.y=176解析由题意得x=174+176+176+176+1785=176(cm),y=175+175+176+177+1775=176(cm),由于(x,y)一定满足线性回归方程,经验证知选C.答案 C例14.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y^=bx+a;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:对预处理后的数据,容易算得,x=0,y=3.2,b=26040=6.5,a=y-b x=3.2.由上述计算结果,知所求回归直线方程为y -257=b(x-2 006)+a=6.5(x-2 006)+3.2,即y^=6.5(x-2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6.5(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).例15.下列有关回归直线方程y^=bx+a 的叙述正确的是( )①反映y^与x之间的函数关系;②反映y与x之间的函数关系;③表示y^与x之间的不确定关系;④表示最接近y与x之间真实关系的一条直线.A.①② B.②③C.③④ D.①④解析:选D.y^=bx+a表示y^与x之间的函数关系,而不是y与x之间的函数关系;但它反映的关系最接近y与x之间的真实关系,故选D.例16.设有一个回归方程y^=3-5x,变量x增加一个单位时( )A.y平均增加3个单位B.y平均减少5个单位C.y平均增加5个单位D.y平均减少3个单位解析:选B.∵-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.例17.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不.正确的是( ) A.由样本数据得到的回归方程y^=b^x+a^必过样本中心(x,y)B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r =-0.9362,则变量y和x之间具有线性相关关系解析:选C.C中应为R2越大拟合效果越好.例18.已知回归方程y^=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )A .0.01B .0.02C .0.03D .0.04解析:选C.当x =2时,y ^=5, 当x =3时,y ^=7,当x =4时,y ^=9.∴e ^1=4.9-5=-0.1,e ^2=7.1-7=0.1, e ^3=9.1-9=0.1.∴ i =13e ^i 2=(-0.1)2+(0.1)2+(0.1)2=0.03.例19.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②回归方程y ^=bx +a 必过点(x ,y ); ③曲线上的点与该点的坐标之间具有相关关系;④在一个2×2列联表中,由计算得K2=13.079,则其两个变量间有关系的可能性是 90%.其中错误的是________.解析:①正确.由回归方程的定义及最小二乘法思想,知②正确.③④不正确.答案:③④例20.在2009年十一国庆8天黄金周期间,某市物价部门,对本市五个商场销售的某商品的一天销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:9通过分析,发现销售量对商品的价格x具有线性相关关系,则销售量y对商品的价格x的回归直线方程为________.解析:由数据表可得x=10,y=8,离差x-x:-1,-0.5,0,0.5,1;离差y-y:3,2,0,-2,-3.∴b^=-1×3-0.5×2-0.5×2-1×3 1+0.25+0+0.25+1=-3.2,a ^=y -b ^x =40,∴回归直线方程为y ^=-3.2x +40. 答案:y ^=-3.2x +40例21.在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.解:以x 轴表示身高,y 轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系,且为正相关.12.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:该农科所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程y^=b^ x+a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解:(1)设抽到不相邻2组数据为事件A,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P(A)=1-410=35.(2)由数据求得,x=12,y=27,由公式求得.b^=52,a^=y-b^x=-3.所以y关于x的线性回归方程为y^=5 2 x-3.(3)当x=10时,y^=52×10-3=22,|22-23|<2;当x=8时,y^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的.。
3.1回归分析的基本思想及其初步应用(二)

n
★其中:(1)|r|≤1; (2)|r|越接近于1,相关程度越强, |r|越接近于0,相关程度越弱; (3) b 与 r 同号。
3
温故知新
3、线性回归模型:
y bx a e 2 E (e ) 0, D(e )
其中:e是随机误差,均值E(e)=0,方差D(e)=σ2>0 当随机误差e恒等于0时,线性回归模型就变成一 次函数模型。即:一次函数模型是线性回归模型的特
例2、一只红铃虫的产卵数y和温度x有关,现收集了7 组观测数据列于下表,试建立y与x之间的回归方程. 温度x/0C 产卵数y/个 21 7 23 11 25 21 27 24 29 66 32 35
115 325
解:收集数据作散点图:
350 300 250
产卵数
200 150 100 50 0 0 10 20 温度 30 40
(x X i
i 1
i 1
nn
2
i
)x X n
2 2
2
温故知新
2、我们通常用相关系数r来描述两个变量之间 线性相关关系的强弱。
r
x y n xy
i i i1 n 2 2 n 2 2 xi n x yi n y i1 i1
由条件R2分别为0.98和0.80
故指数函数模型的拟合效果比二次函数的模拟效果好.
15
习题3.1
A组 1、3
16
殊形式。
4、相关系数r与随机误差e一般有什么关系?
量
ˆ y y ˆ e
样本点: ( x1 , y1 ),( x2 , y2 ), ... ,( xn , yn )
高中数学选修2-3知识点、考点、附典型例题

高中数学 选修2-3知识点第一章 计数原理知识点:1、分类加法计数原理:做一件事情,完成它有N 类办法,在第一类办法中有M 1种不同的方法,在第二类办法中有M 2种不同的方法,……,在第N 类办法中有M N 种不同的方法,那么完成这件事情共有M 1+M 2+……+M N 种不同的方法。
2、分步乘法计数原理:做一件事,完成它需要分成N 个步骤,做第一 步有m1种不同的方法,做第二步有M 2不同的方法,……,做第N 步有M N 不同的方法.那么完成这件事共有 N=M 1M 2...M N 种不同的方法。
3、排列:从n 个不同的元素中任取m(m ≤n )个元素,按照一定顺序......排成一列,叫做从n 个不同元素中取出m 个元素的一个排列4、排列数:从n 个不同元素中取出m (m≤n )个元素排成一列,称为从n 个不同元素中取出m 个元素的一个排列. 从n 个不同元素中取出m 个元素的一个排列数,用符号m n A 表示。
),,()!(!)1()1(N m n n m m n n m n n n A m ∈≤-=+--= 5、公式:11--=m n m n nA A6、组合:从n 个不同的元素中任取m (m ≤n )个元素并成一组,叫做从n 个不同元素中取出m 个元素的一个组合。
7、公式:)!(!!!)1()1(m n m n C m m n n n A A C m nm mm n mn-=+--== )!(!!!)1()1(m n m n C m m n n n A A C m n m m m n m n -=+--==;mn n m n C C -=m n m n m n C C C 11+-=+8、二项式定理:()a b C a C a b C a b C a b C b n n n n n n n n r n r r n n n+=++++++---011222…… 9、二项式通项公式展开式的通项公式:,……T C a b r n r nr n r r+-==101() 考点:1、排列组合的运用2、二项式定理的应用m n A第二章 随机变量及其分布知识点:1、随机变量:如果随机试验可能出现的结果可以用一个变量X 来表示,并且X 是随着试验的结果的不同而变化,那么这样的变量叫做随机变量. 随机变量常用大写字母X 、Y 等或希腊字母 ξ、η等表示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高中数学选修2-3统计案例之线性回归方程习题课1.相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.3.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则b^,a^其中,b是回归方程的斜率,a是在y轴上的截距.4.样本相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.5.线性回归模型(1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.(2)相关指数用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.规律(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.注意(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.考向一相关关系的判断例1.下列选项中,两个变量具有相关关系的是( )A.正方形的面积与周长B.匀速行驶车辆的行驶路程与时间C.人的身高与体重D.人的身高与视力答案:C例2.对变量x、y有观测数据(x i,y i)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由题图1可知,各点整体呈递减趋势,x与y负相关,由题图2可知,各点整体呈递增趋势,u与v正相关.例3.下面哪些变量是相关关系().A.出租车车费与行驶的里程B.房屋面积与房屋价格C.身高与体重 D.铁块的大小与质量解析A,B,D都是函数关系,其中A一般是分段函数,只有C是相关关系.答案 C例4.如图所示,有5组(x,y)数据,去掉________组数据后,剩下的4组数据的线性相关性最大.解析:因为A、B、C、E四点分布在一条直线附近且贴近某一直线,D点离得远.答案:D例5.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v 有观测数据(u i、v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断().A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.答案 C例6.下列关系属于线性负相关的是( )A.父母的身高与子女身高的关系B.球的体积与半径之间的关系C.汽车的重量与汽车每消耗1 L汽油所行驶的平均路程D.一个家庭的收入与支出解析:选C.A、D中的两个变量属于线性正相关,B中两个变量是函数关系.例7.山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):产量y055550 5(1)画出散点图;(2)判断是否具有相关关系.[审题视点] (1)用x轴表示化肥施用量,y轴表示棉花产量,逐一画点.(2)根据散点图,分析两个变量是否存在相关关系.解(1)散点图如图所示(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y 具有线性相关关系.利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.例8. 根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).解析从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.答案否考向二线性回归方程例9.对有线性相关关系的两个变量建立的回归直线方程y^=a+bx中,回归系数b( )A.不能小于0 B.不能大于0C.不能等于0 D.只能小于0解析:选C.∵b=0时,r=0,这时不具有线性相关关系,但b能大于0也能小于0.例10.已知回归方程y^=4.4x+838.19,则可估计x与y的增长速度之比约为________.解析:x与y的增长速度之比即为回归方程的斜率的倒数14.4=1044=522.答案:5 22例11.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是().A.y^=-10x+200 B.y^=10x+200 C.y^=-10x-200 D.y^=10x-200 解析因为销量与价格负相关,由函数关系考虑为减函数,又因为x,y不能为负数,再排除C,故选A.答案 A例12.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程.预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)[审题视点] (2)问利用公式求a^、b^,即可求出线性回归方程.(3)问将x=100代入回归直线方程即可.解(1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:∑i=14x2i=86,x=3+4+5+64= 4.5(吨),y=2.5+3+4+4.54=3.5(吨).已知∑i=14x i y i=66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i=14x i y i-4x·y∑i=14x2i-4x2=66.5-4×4.5×3.586-4×4.52=0.7,a^=y-b^x=3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y^=0.7x+0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:90-(0.7×100+0.35)=19.65(吨标准煤).在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.例13.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y对x的线性回归方程为().A.y=x-1 B.y=x+1C.y=88+12x D.y=176解析由题意得x=174+176+176+176+1785=176(cm),y=175+175+176+177+1775=176(cm),由于(x,y)一定满足线性回归方程,经验证知选C.答案 C例14.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y^=bx+a;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:对预处理后的数据,容易算得,x=0,y=3.2,b=26040=6.5,a=y-b x=3.2.由上述计算结果,知所求回归直线方程为y-257=b(x-2 006)+a=6.5(x-2 006)+3.2,即y^=6.5(x-2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6.5(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).例15.下列有关回归直线方程y^=bx+a的叙述正确的是( )①反映y^与x之间的函数关系;②反映y与x之间的函数关系;③表示y^与x之间的不确定关系;④表示最接近y与x之间真实关系的一条直线.A.①② B.②③C.③④ D.①④解析:选D.y^=bx+a表示y^与x之间的函数关系,而不是y与x之间的函数关系;但它反映的关系最接近y与x之间的真实关系,故选D.例16.设有一个回归方程y^=3-5x,变量x增加一个单位时( )A.y平均增加3个单位B.y平均减少5个单位C.y平均增加5个单位D.y平均减少3个单位解析:选 B.∵-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.例17.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不.正确的是( )A.由样本数据得到的回归方程y^=b^x +a^必过样本中心(x,y)B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r =-0.9362,则变量y和x之间具有线性相关关系解析:选C.C中应为R2越大拟合效果越好.例18.已知回归方程y^=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )A.0.01 B.0.02C.0.03 D.0.04解析:选C.当x=2时,y^=5,当x =3时,y ^=7,当x =4时,y ^=9.∴e ^1=4.9-5=-0.1,e ^2=7.1-7=0.1, e ^3=9.1-9=0.1.∴ i =13e ^i 2=(-0.1)2+(0.1)2+(0.1)2=0.03.例19.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②回归方程y ^=bx +a 必过点(x ,y );③曲线上的点与该点的坐标之间具有相关关系;④在一个2×2列联表中,由计算得K2=13.079,则其两个变量间有关系的可能性是 90%.其中错误的是________.解析:①正确.由回归方程的定义及最小二乘法思想,知②正确.③④不正确.答案:③④例20.在2009年十一国庆8天黄金周期间,某市物价部门,对本市五个商场销售的某商品的一天销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:价格x 99.5110.511销售量y 11186 5通过分析,发现销售量对商品的价格x具有线性相关关系,则销售量y对商品的价格x的回归直线方程为________.解析:由数据表可得x=10,y=8,离差x-x:-1,-0.5,0,0.5,1;离差y-y:3,2,0,-2,-3.∴b^=-1×3-0.5×2-0.5×2-1×3 1+0.25+0+0.25+1=-3.2,a^=y-b^x=40,∴回归直线方程为y^=-3.2x+40.答案:y^=-3.2x+40例21.在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:身高(cm)14315615917216517117716116416体重(kg)41496179686974696854 根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.解:以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系,且为正相关.12.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:该农科所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程y^=b^x+a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解:(1)设抽到不相邻2组数据为事件A,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P(A)=1-410=35.(2)由数据求得,x=12,y=27,由公式求得.b^=52,a^=y-b^x=-3.所以y关于x的线性回归方程为y^=5 2 x-3.(3)当x=10时,y^=52×10-3=22,|22-23|<2;当x=8时,y^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的.。