高中数学第一章统计案例1.1回归分析的基本思想及其初步应用课时作业新人教版
【创新设计】2015-2016学年高中数学 第一章 统计案例 1.1回归分析的基本思想及其初步应用(一)课时作业
第一章 统计案例 1.1回归分析的基本思想及其初步应用(一)课时作业 新人教A 版选修1-2明目标、知重点 1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤.1.线性回归模型(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系. (2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(3)对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线y =bx +a的斜率和截距的最小二乘估计公式分别为b ^=∑ni =1(x i -x )(y i -y )∑n i =1 (x i -x )2=∑ni =1x i y i -n x y ∑ni =1x 2i -n x 2,a ^=y -b ^x ,其中(x ,y )称为样本点的中心.(4)线性回归模型y =bx +a +e ,其中a 和b 是模型的未知参数,e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量. 2.残差的概念对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.3.刻画回归效果的方式 (1)残差图法作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)残差平方和法残差平方和∑ni =1 (y i -y ^i )2越小,模型拟合效果越好. (3)利用R 2刻画回归效果R 2=1-∑ni =1 (y i -y ^i )2∑n i =1(y i -y )2,R 2表示解释变量对于预报变量变化的贡献率.R 2越接近于1,表示回归的效果越好.[情境导学]“名师出高徒”这句谚语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关? 探究点一 线性回归方程思考1 两个变量之间的关系分几类? 答 分两类:①函数关系,②相关关系.函数关系是一种确定性关系,而相关关系是一种非确定性关系. 上面所提的“名师”与“高徒”之间的关系就是相关关系. 思考2 什么叫回归分析?答 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. 思考3 对具有线性相关关系的两个变量进行回归分析有哪几个步骤? 答 基本步骤为画散点图,求线性回归方程,用线性回归方程进行预报. 例 1 若从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:解 (1)画散点图选取身高为自变量x ,体重为因变量y ,画出散点图,展示两个变量之间的关系,并判断二者是否具有线性关系.由散点图可以发现,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用回归直线y =bx +a 来近似刻画它们之间的关系. (2)建立回归方程由计算器可得b ^=0.849,a ^=-85.712.于是得到回归方程为y ^=0.849x -85.712.(3)预报和决策当x =172时,y ^=0.849×172-85.712=60.316(kg). 即一名身高为172 cm 的女大学生的体重预报值为60.316 kg. 反思与感悟 在使用回归方程进行预报时要注意: (1)回归方程只适用于我们所研究的样本的总体; (2)我们所建立的回归方程一般都有时间性; (3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值. 跟踪训练1 某班5名学生的数学和物理成绩如表:(1)画出散点图;(2)求物理成绩y 对数学成绩x 的回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩. 解 (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2.y =15×(78+65+71+64+61)=67.8.∑5i =1x i y i =88×78+76×65+73×71+66×64+63×61=25 054.∑5i =1x 2i =882+762+732+662+632=27 174.∴b ^=∑5i =1x i y i -5x ·y∑5i =1x 2i -5x2≈0.625.∴a ^=y -b ^x =67.8-0.625×73.2=22.05.∴y 对x 的回归方程是y ^=0.625x +22.05.(3)当x =96时,y ^=0.625×96+22.05≈82. 所以,可以预测他的物理成绩是82. 探究点二 线性回归分析思考1 利用求得的回归方程进行预报,为什么得到的预报值和实际值并不相同?答 解释变量和预报变量之间的关系是相关关系而非函数关系,由回归方程得到的是预报值而非实际值.思考2 给出两个变量的回归方程,怎样判断拟合效果的好坏?答 一般有三种方法来判断拟合效果:①残差平方和法:残差平方和越小,拟合效果越好;②残差图中的点分布的带形区域宽度越窄,拟合精度越高;③相关指数法:相关指数R 2越接近于1,模型的拟合效果越好. 思考3 如果R 2≈0.64,表示什么意义?答 表示“解释变量对于预报变量的贡献率为64%.”思考4 回归分析中,利用线性回归方程求出的函数值一定是真实值吗?答 不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食习惯,是否喜欢运动等.例2某运动员训练次数与成绩之间的数据关系如下:(1)(2)求出回归方程; (3)作出残差图; (4)计算相关指数R 2;(5)试预测该运动员训练47次及55次的成绩.解 (1)作出该运动员训练次数(x )与成绩(y )之间的散点图,如下图所示,由散点图可知,它们之间具有线性相关关系.(2)列表计算:由上表可求得x =39.25,y =40.875,∑i =1x 2i =12 656, ∑8i =1y 2i =13 731,∑8i =1x i y i =13 180, ∴b ^=∑8i =1x i y i -8x y∑8i =1x 2i -8x2≈1.041 5,a ^=y -b ^x ≈-0.003 88,∴回归方程为y ^=1.041 5x -0.003 88. (3)残差分析作残差图如下图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)计算相关指数R 2计算相关指数R 2≈0.985 5.说明了该运动员的成绩的差异有98.55%是由训练次数引起的. (5)做出预报由上述分析可知,我们可用回归方程y ^=1.041 5x -0.003 88作为该运动员成绩的预报值. 将x =47和x =55分别代入该方程可得y =49和y =57.故预测该运动员训练47次和55次的成绩分别为49和57.反思与感悟 解答本类题目应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.跟踪训练2 假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求相关指数R 2,并说明残差变量对有效穗的影响占百分之几? 解 (1)散点图如下.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,x =30.36,y =43.5,∑5i =1x 2i =5 101.56,∑5i =1y 2i =9 511.43. x y =1 320.66,y 2=1 892.25,x 2=921.729 6,∑5i =1x i y i =6 746.76.由b ^=∑5i =1x i y i -5x y∑5i =1x 2i -5x2≈0.29,a ^=y -b ^x =43.5-0.29×30.36≈34.70.故所求的线性回归方程为y ^=34.70+0.29x .当x =56.7时,y ^=34.70+0.29×56.7=51.143. 估计成熟期有效穗为51.143. (3)由于y =bx +a +e ,可以算得e ^i =y i -y ^i 分别为e ^1=0.35,e ^2=0.718,e ^3=-0.5,e ^4=-2.214,e ^5=1.624,残差平方和:∑5i =1e ^2i ≈8.43.(4)可得:∑5i =1 (y i -y )2=50.18,∴R 2=1-8.4350.18≈0.832. 所以解释变量小麦基本苗数对有效穗约贡献了83.2%.残差变量贡献了约1-83.2%=16.8%.1.下列各组变量之间具有线性相关关系的是( ) A .出租车费与行驶的里程 B .学习成绩与学生身高 C .身高与体重 D .铁的体积与质量 答案 C2.若劳动生产率x (千元)与月工资y (元)之间的线性回归方程为y ^=50+80x ,则下列判断正确的是( )A .劳动生产率为1 000元时,月工资为130元B .劳动生产率提高1 000元时,月工资平均提高80元C .劳动生产率提高1 000元时,月工资平均提高130元D .月工资为210元时,劳动生产率为2 000元 答案 B3.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( )A.y ^=-10x +200 B.y ^=10x +200C.y ^=-10x -200 D.y ^=10x -200答案 A解析 由于销售量y 与销售价格x 成负相关,故排除B 、D.又当x =10时,A 中y =100,而C 中y =-300,C 不符合题意,故选A.4.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加______万元. 答案 0.254解析 由题意知[]0.254(x +1)+0.321-(0.254x +0.321)=0.254. [呈重点、现规律] 回归分析的步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y ^=b ^x +a ^); (4)按一定规则估计回归方程中的参数;(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.一、基础过关1.在下列各量之间,存在相关关系的是( ) ①正方体的体积与棱长之间的关系; ②一块农田的水稻产量与施肥量之间的关系; ③人的身高与年龄之间的关系; ④家庭的支出与收入之间的关系; ⑤某户家庭用电量与电价之间的关系. A .②③ B .③④ C .④⑤ D .②③④ 答案 D2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由回归方程为y ^=0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系;由最小二乘法建立回归方程的过程知y ^=b ^x +a ^=b ^x +y -b ^x (a ^=y -b ^x ),所以回归直线过样本点的中心(x ,y );利用回归方程可以估计总体,所以D 不正确.3.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元 答案 B 解析 ∵x =4+2+3+54=72, y =49+26+39+544=42,又y ^=b ^x +a ^必过(x ,y ),∴42=72×9.4+a ^,∴a ^=9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6(万元)时,y ^=9.4×6+9.1=65.5(万元).4.甲、乙、丙、丁四位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑ni =1(y i -y ^i )2如下表A .甲B .乙C .丙D .丁 答案 D5.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈________,表明“气温解释了85%的热茶销售杯数变化”或者说“热茶销售杯数差异有85%是由气温引起的”. 答案 0.856.对具有线性相关关系的变量x 和y ,由测得的一组数据已求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.答案 y ^=-10+6.5x解析 由题意知x =2,y =3,b ^=6.5,所以a ^=y -b ^x =3-6.5×2=-10,即回归直线的方程为y ^=-10+6.5x .7.某个服装店经营某种服装,在某周内纯获利y (元)与该周每天销售这种服装件数x 之间的一组数据如下表:(1)求样本中心点;(2)画出散点图;(3)求纯获利y 与每天销售件数x 之间的回归方程. 解 (1)x =6,y ≈79.86,中心点(6,79.86). (2)散点图如下:(3)因为b ^=∑i =17(x i -x )(y i -y)∑i =17(x i -x)2≈4.75,a ^=y -b ^x ≈51.36,所以y ^=4.75x +51.36. 二、能力提升8.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′C.b ^ <b ′,a ^ >a ′D.b ^ <b ′,a ^<a ′ 答案 C解析 b ′=2,a ′=-2,由公式b ^=∑i =16(x i -x )(y i -y)∑i =16(x i -x)2求得.b ^=57,a ^ =y -b ^x =136-57×72=-13,∴b ^<b ′,a ^>a ′.选C.9.下表是x 和y 之间的一组数据,则y 关于x 的回归方程必过( )A.点(2,3) B .点(1.5,4) C .点(2.5,4) D .点(2.5,5) 答案 C解析 回归方程必过样本点的中心(x ,y ),即(2.5,4).10.如图是x 和y 的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.答案 D (3,10)解析 经计算,去掉D (3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.11.某车间为了规定工时定额,需确定加工零件所花费的时间,为此做了4次试验,得到的数据如下:若加工时间y (1)求加工时间与零件个数的回归方程; (2)试预报加工10个零件需要的时间.解 (1)由表中数据得x =72,y =72,∑4i =1x 2i =54,∑4i =1x i y i =52.5,从而得b ^=0.7,a ^=y -b ^x =1.05,因此,所求的回归方程为y ^=0.7x +1.05. (2)将x =10代入回归方程,得y ^=0.7×10+1.05=8.05(小时),即加工10个零件的预报时间为8.05小时.12.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 解 (1)x =8+8.2+8.4+8.6+8.8+96=8.5,y =16(90+84+83+80+75+68)=80.∵b ^=-20,a ^=y -b ^x ,∴a ^=80+20×8.5=250,∴回归直线方程y ^=-20x +250. (2)设工厂获得的利润为L 元,则L =x (-20x +250)-4(-20x +250)=-20(x -334)2+361.25,∴该产品的单价应定为334元,工厂获得的利润最大.三、探究与拓展13.关于x 与y 有如下数据:有如下的两个线性模型:①y ^=6.5x +17.5;②y ^=7x +17. 试比较哪一个模型拟合的效果更好.解 由①可得y i -y ^i 与y i -y 的关系如下表:所以∑5i =1(y i -y ^i )2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155, ∑5i =1(y i -y )2=(-20)2+(-10)2+102+02+202=1 000. 所以R 21=1-∑5i =1 (y i -y ^i )2∑5i =1(y i -y )2=1-1551 000=0.845.由②可得y i -y ^i 与y i -y 的关系如下表:所以∑5i =1(y i -y ^i )2=(-1)2+(-5)2+82+(-9)2+(-3)2=180, ∑5i =1(y i -y )2=(-20)2+(-10)2+102+02+202=1 000. 所以R 22=1-∑5i =1 (y i -y ^i )2∑5i =1(y i -y )2=1-1801 000=0.82.由于R 21=0.845,R 22=0.82,0.845>0.82,所以R 21>R 22. 故①的拟合效果好于②的拟合效果.。
高中数学第一章统计案例1.1回归分析的基本思想及其初步应用课时跟踪训练含解析新人教A版选修1_
学习资料回归分析的基本思想及其初步应用[A组学业达标]1.关于回归分析,下列说法错误的是()A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B.线性相关系数可以是正的也可以是负的C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关D.样本相关系数r∈(-1,1)解析:样本的相关系数应满足-1≤r≤1.答案:D2.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是()解析:用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.答案:A3.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如表:甲乙丙丁R20。
980。
780.500。
85A.甲B.乙C.丙D.丁解析:相关指数R2越大,表示回归模型的效果越好.答案:A4.某产品的广告费用x与销售额y的统计数据如表:根据上表可得回归方程y=错误!x+错误!中的错误!为9.4,据此模型预报广告费用为6万元时销售额为()A.63.6万元B.65。
5万元C.67。
7万元D.72。
0万元解析:样本点的中心是(3.5,42),则a,^=错误!-错误!错误!=42-9。
4×3。
5=9.1,所以回归直线方程是错误!=9.4x+9.1,把x=6代入得错误!=65。
5。
答案:B5.如果散点图中的所有的点都在一条斜率不为0的直线上,则残差为________,相关指数R2=________。
解析:由题意知y i=错误!i∴相应的残差错误!i=y i-错误!i=0.相关指数R2=1-错误!=1.答案:0 16.在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈0。
85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.解析:由相关指数R2的意义可知,R2≈0。
高中数学选修1-2第一章课后习题解答
新课程标准数学选修1—2第一章课后习题解答第一章统计案例1.1回归分析的基本思想及其初步应用练习(P8)1、画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.说明:学生在对常用的函数图象比较了解的情况下,通过观察散点图可以判断两个变量的关系更近似于哪种函数.2、分析残差可以帮助我们解决以下两个问题:(1)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错.(2)分析残差图可以发现模型选择是否合适.说明:分析残差是回归诊断的一部分,可以帮助我们发现样本数据中的错误,分析模型选择是否合适,是否有其他变量需要加入到模型中,模型的假设是否正确等. 本题只要求学生能回答上面两点即可,主要让学生体会残差和残差图可以用于判断模型的拟合效果.3、(1)解释变量和预报变量的关系式线性函数关系.R=.(2)21说明:如果所有的样本点都在一条直线上,建立的线性回归模型一定是该直线,所以每个=+,没有随机误差项,是严样本点的残差均为0,残差平方和也为0,即此时的模型为y bx aR=.格的一次函数关系. 通过计算可得21习题1.1 (P9)1、(1)由表中数据制作的散点图如下:从散点图中可以看出GDP值与年份近似呈线性关系.y表示GDP值,t表示年份. 根据截距和斜率的最小二乘计算公式,得(2)用tˆ14292537.729a≈-,ˆ7191.969b≈从而得线性回归方程ˆ7191.96914292537.729=-.y t残差计算结果见下表.GDP 值与年份线性拟合残差表(年实际GDP 值为117251.9,所以预报与实际相差4275.540-.(4)上面建立的回归方程的20.974R =,说明年份能够解释约97%的GDP 值变化,因此所建立的模型能够很好地刻画GDP 和年份的关系.说明:关于2003年的GDP 值的来源,不同的渠道可能会有所不同.2、说明:本题的结果与具体的数据有关,所以答案不唯一.3、由表中数据得散点图如下:从散点图中可以看出,震级x 与大于或等于该震级的地震数N 之间不呈线性相关关系,随着x 的减少,所考察的地震数N 近似地以指数形式增长. 做变换lg y N =,得到的数据如下表所示.x 和y 的散点图如下:从这个散点图中可以看出x 和y 之间有很强的线性相关性,因此可以用线性回归模型拟合它们之间的关系. 根据截距和斜率的最小二乘计算公式,得ˆ 6.704a≈,ˆ0.741b ≈-, 故线性回归方程为 ˆ0.741 6.704y x =-+. 20.997R ≈,说明x 可以解释y 的99.7%的变化.因此,可以用回归方程 0.741 6.704ˆ10x N-+= 描述x 和N 之间的关系. 1.2独立性检验的基本思想及其初步应用练习(P15)列联表的条形图如图所示.由图及表直观判断,好像“成绩优秀与班级有关系”. 因为2K 的观测值0.653 6.635k ≈<,由教科书中表1-11克重,在犯错误的概率不超过0.01的前提下,不能认为“成绩与班级有关系”.说明:(1)教师应要求学生画出等高条形图后,从图形上判断两个分类变量之间是否有关系. 这里通过图形的直观感觉的结果可能会出错.(2)本题与例题不同,本题计算得到的2K 的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”. 这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立. 在独立性检验中,没有推出小概率事件发生类似于反证法中没有推出矛盾.习题1.2 (P16)1、假设“服药与患病之间没有关系”,则2K 的值应该比较小;如果2K 的值很大,则说明很可能“服药与患病之间没有关系”. 由列联表中数据可得2K 的观测值 6.110 5.024k ≈>,而由教科书表1-11,得2( 5.024)0.025P K ≥≈,所以在犯错误的概率不超过0.025的前提下可以认为“服药与患病之间有关系”. 又因为服药群体中患病的频率0.182小于没有服药群体中患病的频率0.400,所以“服药与患病之间关系”可以解释为药物对于疾病有预防作用. 因此在犯错误的概率不超过0.025的前提下,可以认为药物有效.说明:仿照例1,学生很容易完成此题,但希望学生能理解独立性检验在这里的具体含义,即“服药与患病之间关系”可以解释为“药物对于疾病有预防作用”.2、如果“性别与读营养说明之间没有关系”,由题目中所给数据计算,得2K 的观测值为8.416k ≈,而由教科书中表1-11知2(7.879)0.005P K ≥≈,所以在犯错误的概率不超过0.005的前提下认为“性别与读营养说明之间有关系”.3、说明:需要收集数据,所有没有统一答案. 第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.4、说明:需要从媒体上收集数据,学生关心的问题不同,收集的数据会不同. 第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.第一章 复习参考题A 组(P19)根据散点图,可以认为中国人口总数与年份呈现很强的线性相关关系,因此选用线性回归模型建立回归方程.由最小二乘法的计算公式,得 2095141.503a ≈-,1110.903b ≈,则线性回归方程为 ˆ1110.9032095141.503yx =-. 由2R 的计算公式,得 20.994R ≈,明线性回归模型对数据的拟合效果很好.根据回归方程,,预计2003年末中国人口总数约为129997万人,而实际情况为129227万人,预测误差为770万人;预计2004年末中国人口总数约为131108万人,而实际情况为129988万人,预测误差为1120万人.说明:数据来源为《中国统计年鉴》(2003). 由于人数为整数,所以预测的数据经过四舍五入的取整运算.2、(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:由于散点图中的样本点基本上在一个带形区域内分布,猜想销售总额与利润之间呈现线性相关关系.(2)由最小二乘法的计算公式,得 ˆ1334.5a≈,ˆ0.026b ≈, 则线性回归方程为 ˆ0.0261334.5yx =+ 其残差值计算结果见下表:(3)对于(2)中所建立的线性回归方程,20.457R ≈,说明在线性回归模型中销售总额只能解释利润变化的46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系. 说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理,就算正确.3、由所给数据计算得2K 的观测值为 3.689k ≈,而由教科书中表1-11知2( 2.706)0.10P K ≥=所以在犯错误的概率不超过0.10的前提下认为“婴儿的性别与出生的时间有关系”.第一章 复习参考题B 组(P19)1、因为 21(,)()ni i i Q a b y a bx ==--∑21(()())n i i i y bx y bx a y bx ==--+--+∑ 2211()()n n i i i i y bx y bx a y bx ===--++-+∑∑12()()ni i i y bx y bx a y bx =---+-+∑ 并且221()()n i a y bx n a y bx =-+=-+∑,12()()n i i i y bx y bx a y bx =--+-+∑ 1()(())ni i i a y bx y bx ny nbx ==-+--+∑ ()()0a y b x n y n b xn y n b x=-+--+= 所以 221(,)()()ni i i Q a b y bx y bx n a y bx ==--++-+∑.考察上面的等式,等号右边的求和号中不包含a ,而另外一项非负,所以ˆa和ˆb 必然使得等号右边的最后一项达到最小值,即 ˆˆ0ay bx -+=, 即ˆˆy a bx =+. 2、总偏差平方和21()n i i y y =-∑表示总的效应,即因变量的变化效应;残差平方和21ˆ()ni i y y =-∑表示随机误差的效应,即随机误差的变化效应;回归平方和21ˆ()ni yy =-∑表示表示变量的效应,即自变量的变化效应. 等式 222111ˆˆ()()()n n n i ii i i y y y y y y ===-=-+-∑∑∑ 表示因变量的变化总效应等于随机误差的变化效应与自变量的变化效应之和.3、说明:该题主要是考察学生应用回归分析模型解决实际问题的能力,解答应该包括如何获取数据,如何根据散点图寻找合适的模型去拟合数据,以及所得结果的解释三方面的内容.。
高中数学第一章统计案例1.1回归分析的基本思想及其初步应用课件新人教A版选修1-2
[知识提炼·梳理]
1.回归分析 回归分析是对具有相关关系的两个变量进行统计分 析的一种常用方法,回归分析的基本步骤是画出两个变 量的散点图,求回归方程,并用回归方程进行预报.
2.线性回归模型
(2)线性回归模型 y=bx+a+e,其中 e 称为随机误差, 自变量 x 称为解释变量,因变量 y 称为预报变量.
[变式训练] 某个服装店经营某种服装,在某周内获 纯利 y(元)与该周每天销售这种服装件数 x 之间的一组数 据关系见表:
x3 4 5 6 7 8 9 y 66 69 73 81 89 90 91
类型 2 线性回归分析(互动探究) [典例 2] 为研究重量 x(单位:克)对弹簧长度 y(单位: 厘米)的影响,对不同重量的 6 个物体进行测量,数据如 下表所示:
试建立 y 与 x 之间的回归方程.
解:作出变量 y 与 x 之间的散点图如图所示.
由图可知变量 y 与 x 近似地呈反比例函数关系. 设 y=kx,令 t=1x,则 y=kt.由 y 与 x 的数据表可得 y 与 t 的数据表:
t 4 2 1 0.5 0.25
y 16 12 5 2
1
作出 y 与 t 的散点图如图所示.
B.y=a+bln x
h D.y=a·ex
1.对线性回归方程的理解: (1)从参数计算公式^a=-y -^b-x 中,我们可以看出, 回归直线方程^y=^bx+^a一定经过点(-x ,-y ).我们把(-x , -y )称为样本点的中心.
年份 2007 2008 2009 2010 2011 2012 2013
年份代号t 1 2 3 4 5 6 7
人均纯收入 y
2.9
3.3
3.6
高中数学 第一章 统计案例 1.1 回归分析的基本思想及其初步应用课件2 新人教A版选修1-2
另外, 我们还可以用相关指数R2来刻画回归的效果,
n
yi yˆi 2
其计算公式是 : R2
1
i 1 n
.
yi y 2
i 1
显然, R 2取值越大,意味着残差平方和越小,也就
我们可以利用图形来分析残差特性.作图时纵 坐标为残差, 横坐标可以选为样本编号,或身高数据,或 体重估计值等,这样作出的图形为残差图.下图 是以 样本编号为横坐标的残差图.
残差
编号
图1.14
从图1.1-4中可以看出,第1个样本点和第6个样本 点的残差比较大,需要确认在采集这两个样本点的过程 中是否有人为的错误.如果数据采集有错误,就予以纠 正,然后再重新利用线性回归模型拟合数据;如果数据 采集没有错误,则需要寻找其他的原因.另外,残差点 比较均匀地落在水平的带状区域中,说明选用的模型比 较合适.这样的带状区域的宽度越窄,说明模型拟合精 度越高,回归方程的预报精度越高.
从图1.1 - 1中可以看出,
样本点呈条状分布 ,身高和体
·
体重/kg
重有比 较好的线性相关关系 ,
因此可以用回归直线y = bx + a
来近似刻画它们之间的关系.
身高/cm 图1.11
未知参数b和a的最小二乘估计分别为bˆ 和aˆ,
其计算公式如下:
n
xi x yi y
bˆ i1 n
,
xi x 2
随机
思考:在线性回归模型中,e是用bx + a预报真实值y的 随机误差,它是一个不可观测的量,那么应该怎样研究 随机误差呢?
在实际应用中,我们用回归方程yˆ bˆx aˆ中 的yˆ估计(1)中的bx a.由于随机误差e y (bx a), 所以eˆ y yˆ是e的估计量.对于样本点
高中数学第一章统计案例1.1回归分析的基本思想及其初步应用检测新人教A版选修1-2(2021年整理)
2018-2019学年高中数学第一章统计案例1.1 回归分析的基本思想及其初步应用检测新人教A版选修1-2编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018-2019学年高中数学第一章统计案例1.1 回归分析的基本思想及其初步应用检测新人教A版选修1-2)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018-2019学年高中数学第一章统计案例1.1 回归分析的基本思想及其初步应用检测新人教A版选修1-2的全部内容。
1.1 回归分析的基本思想及其初步应用A级基础巩固一、选择题1.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是()A.①②B.①③C.②③D.③④解析:图①,③中的点大致在一条直线附近,适合用线性回归模型拟合.答案:B2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且错误!=2。
347x-6.423;②y与x负相关且错误!=-3。
476x-5.648;③y与x正相关且错误!=5.437x+8。
493;④y与x正相关且错误!=-4.326x-4.578。
其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④解析:①中y与x负相关而斜率为正,不正确;④中y与x正相关而斜率为负,不正确.答案:D3.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如表:甲乙丙丁A.甲B.乙C.丙D.丁解析:相关指数R2越大,表示回归模型的效果越好.答案:A4.已知x与y之间的一组数据如下表:已求得y关于x错误!m的值为()A.1 B.0.85C.0.7 D.0。
高中数学 第一章 统计案例 1.1 回归分析的基本思想及其初步应用课堂探究 新人教A版选修12
高中数学 第一章 统计案例 1.1 回归分析的基本思想及其初步应用课堂探究 新人教A 版选修1-2探究一 求回归直线方程 求回归直线方程的一般方法是:(1)作出散点图,将问题所给的数据在平面直角坐标系中描点,这样表示出的具有相关关系的两个变量的一组数据的图形就是散点图.从散点图中我们可以看出样本点是否呈条状分布,从而判断两个量是否具有线性相关关系.(2)求回归系数a ^,b ^,其计算公式如下:b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2;a ^=y -b ^x .其中x =∑i =1nx in,y =∑i =1ny in,(x ,y )称为样本点的中心.(3)写出回归直线方程y ^=b ^x +a ^,并用回归直线方程进行预测说明:当x 取x 0时,由线性回归方程可得y 0^的值,从而可进行相应的判断.【典型例题1】某班5名学生的数学和物理成绩如下表:(1)画出散点图;(2)求物理成绩y 对数学成绩x 的回归直线方程; (3)一名学生的数学成绩是96,试预测他的物理成绩.思路分析:先画散点图,分析物理与数学成绩是否有线性相关关系,若相关,再利用公式求线性回归模型.解:(1)如图所示.(2)因为x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8,∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25 054,∑i =15x 2i =882+762+732+662+632=27 174. 所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=25 054-5×73.2×67.827 174-5×73.22≈0.625, a ^=y -b ^x ≈67.8-0.625×73.2=22.05.所以y 对x 的回归直线方程是y ^=0.625x +22.05.(3)x =96,则y ^=0.625×96+22.05≈82, 即可以预测他的物理成绩是82. 探究二 残差分析1.利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差e 1^,e 2^,…,e n ^来判断模型拟合的效果.2.若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.【典型例题2】假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x (2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求R 2,并说明残差变量对有效穗的影响占百分之几?思路分析:求出参数b ^与a ^,然后求出回归直线方程,再检验模型拟合效果,计算出残差,得出结论.解:(1)散点图如下.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,x =30.36,y =43.5,∑i =15x i 2=5 101.56,∑i =15y i 2=9 511.43.x y =1 320.66,x 2=921.729 6,∑i =15x i y i =6 746.76.由b ^=51522155i ii ii x yx y xx ==--∑∑≈0.29,a ^ =y -b ^x ≈34.70,故所求的回归直线方程为y ^=34.70+0.29x.当x =56.7时,y ^=34.70+0.29×56.7=51.143. 估计成熟期有效穗为51.143.(3)由于y i ^=b ^ x i +a ^ ,可以算得e i ^=y i -y i ^分别为e 1^=0.35,e 2^=0.718,e 3^=-0.5,e 4^=-2.214,e 5^=1.624,残差平方和:¶521ii e=∑≈8.43.(4)可得:∑i =15(y i -y )2=50.18,∴R 2=1-8.4350.18≈0.832.所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约1-83.2%=16.8%.探究三 非线性回归分析在解决实际问题时,研究的两个变量不一定都呈线性相关关系.对于这类问题,常采用适当的变量代换,把问题转化为线性回归问题,求出线性回归模型后,再通过相应的变换,得到非线性回归方程.【典型例题3】某地区六年来轻工业产品利润总额y 与年次x 的试验数据如下表所示:0b 均为正数,求y 关于x 的回归方程.思路分析:解答此题可根据散点图选择恰当的拟合函数,而本题已经给出,只需将其转化为线性函数,利用最小二乘法求得回归直线方程,再将其还原为非线性回归方程即可.解:对y =ab xe 0两边取自然对数,得ln y =ln ae 0+x ln b ,令z =ln y ,则z 与x 的数据如下表:由z =ln ae 0ln b ≈0.047 7,ln ae 0=2.378,即z ^=2.378+0.047 7x ,所以y ^=10.8×1.05x. 规律小结 非线性回归方程的求法探究四 易错辨析易错点 求回归方程时忽略相关性检验致误【典型例题4】在一化学反应过程中,某化学物质的反应速度y (g/min)与一种催化剂的量x (g)有关,现收集了如下表所示的8组数据,试建立y 与x 之间的回归方程.错解:由表中数据可得x =25.5,y =95.125,∑i =18x i 2=5 580,∑i =18x i y i =24 297,所以b ^=81822188i ii ii x yx yxx ==--∑∑=24 297-19 405.55 580-5 202≈12.94,a ^ =y -b ^x ≈95.125-12.94×25.5=-234.845,所以y 与x 之间的回归方程为y ^=12.94x -234.845.错因分析:解题前没有审好题,原题求的是回归方程,并不是回归直线方程,故应先进行相关性检验,再求回归方程,不能盲目地求回归直线方程.正解:根据收集的数据作散点图,如图所示.根据样本点的分布情况,可选用指数型函数模型y =c 12e c x(c 1,c 2为待定的参数),令z =ln y ,则z =c 2x +ln c 1,即变换后样本点应该分布在直线z =bx +a (a =ln c 1,b =c 2)的周围,由y 与x 的数据表得z 与x 的数据表如下:所以可用线性回归方程来拟合.由表中数据可得b ^≈0.181 2,a ^≈-0.848 5,故z ^=0.181 2x -0.848 5,所以y ^=e0.181 2x -0.848 5,因此该化学物质的反应速度与催化剂的量的非线性回归方程为y ^=e0.181 2x -0.848 5.。
高中数学 第一章 统计案例 1.1 回归分析的基本思想及其初步应用课件 新人教A版选修1-2
【解题策略】
残差分析的思路
(1)要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来
拟合数据.
(2)通过残差
eˆ
,
1
,e…ˆ 2 ,
来判eˆ 断n 模型拟合的效果,判断原始数据中是否存在可
疑数据,这种分析工作称为残差分析,可以借助残差图来进行观察.
【跟踪训练】 假设关于某设备的使用年限x(单位:年)和支出的维修费用y(单位:万元),有如表的 统计资料:
5
(yi- )2yˆ =i 0.651.
i 1
5
(4)R2=1- i 1 ( y i yˆ=i ) 12 5 (yi y)2 i1
≈0 0. 6 .591 58 7,模型的拟合效果较好,使用年限解
1 5 .7 8
释了95.87%的维修费用支出.
类型三 非线性回归分析(数据分析、数学运算) 【典例】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位: 千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和 年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
,aybx,
i1
i1
其中 xn 1i n1xi,yn 1i n1yi( , x,y) 称为变量样本点的中心,回归直线过样本点的中
心.
(2)线性回归模型y=bx+a+e,其中e称为随机误差,自变量x称为解释变量,因变量
y称为预报变量.
【思考】 (1)预报值y与真实值y之间误差大了好还是小了好? 提示:越小越好. (2)随机误差产生的原因是什么? 提示:主要有:所用的拟合函数不恰当;忽略了某些因素的影响;存在观测误差等.
【配套K12】高中数学 第一章 统计案例 1.1回归分析的基本思想及其初步应用(二)课时作业 新人教
第一章统计案例 1.1回归分析的基本思想及其初步应用(二)课时作业新人教A版选修1-2明目标、知重点 1.进一步体会回归分析的基本思想.2.通过非线性回归分析,判断几种不同模型的拟合程度.1.如果两个变量不呈现线性相关关系,常见的两个变量间的关系还有指数函数关系、二次函数关系.2.两个变量间的非线性关系可以通过对解释变量的变换(对数变换、平方变换等)转化为另外两个变量的线性关系.3.比较不同模型的拟合效果,可以通过残差平方和的大小,相关指数的大小来判断.探究点一非线性回归模型思考1 有些变量间的关系并不是线性相关,怎样确定回归模型?答首先要作出散点图,如果散点图中的样本点并没有分布在某个带状区域内,则两个变量不呈现线性相关关系,不能直接利用回归方程来建立两个变量之间的关系,这时可以根据已有的函数知识,观察样本点是否呈指数函数关系或二次函数关系,选定适当的回归模型.思考2 如果两个变量呈现非线性相关关系,怎样求出回归方程?答可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程.例1某地区不同身高的未成年男性的体重平均值如下表:试建立y解根据表中数据画出散点图如图所示.由图看出,样本点分布在某条指数函数曲线y=c1e c2x的周围,于是令z=ln y.由表中数据可得z与x之间的线性回归方程:=0.663+0.020x,则有=e0.663+0.020x.反思与感悟根据已有的函数知识,可以发现样本分布在某一条指数型函数曲线y=c1e c2x的周围,其中c1和c2是待定参数;可以通过对x进行对数变换,转化为线性相关关系.跟踪训练1 在彩色显影中,由经验知:形成染料光学密度y与析出银的光学密度x由公式y =A (b<0)表示.现测得试验数据如下:试求y对x解 由题给的公式y =A ,两边取自然对数,便得ln y =ln A +b x,与线性回归方程相对照,只要取u =1x,v =ln y ,a =ln A .就有v =a +bu .题给数据经变量置换u =1x,v =ln y 变成如下表所示的数据:可得ln =0.548-x,即 =e =e0.548·≈1.73,这就是y 对x 的回归方程. 探究点二 非线性回归分析思考1 对于两个变量间的相关关系,是否只有唯一一种回归模型来拟合它们间的相关关系? 答 不一定.我们可以根据已知数据的散点图,把它与幂函数、指数函数、对数函数、二次函数图象进行比较,挑选一种拟合比较好的函数,作为回归模型.思考2 对同一个问题建立的两种不同回归模型,怎样比较它们的拟合效果?答 有两种比较方法:(1)计算残差平方和,残差平方和小的模型拟合效果好;(2)计算相关指数R 2,R 2越接近于1的模型拟合效果越好.例 2 为了研究某种细菌随时间x 变化时,繁殖个数y 的变化,收集数据如下:(1)用天数x (2)描述解释变量x 与预报变量y 之间的关系; (3)计算相关指数.解 (1)所作散点图如图所示.(2)由散点图看出样本点分布在一条指数函数y =c 1e c 2x 的周围,于是令z =ln y ,则由计算器得: =(3)∑ni =1 2i =∑ni =1 (y i - i )2=4.816 1,∑i =1(y i -y )2=24 642.8, R 2=1-4.816 124 642.8≈0.999 8,即解释变量天数对预报变量繁殖细菌个数解释了99.98%.反思与感悟 研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后通过图形来分析残差特性,用残差 1, 2,…, n 来判断原始数据中是否存在可疑数据,用R 2来刻画模型拟合的效果.跟踪训练2 对两个变量x ,y 取得4组数据(1,1),(2,1.2),(3,1.3),(4,1.37),甲、乙、丙三人分别求得数学模型如下:甲y =0.1x +1,乙y =-0.05x 2+0.35x +0.7,丙y =-0.8·0.5x+1.4,试判断三人谁的数学模型更接近于客观实际.解 对甲模型:残差平方和∑4i =1(y i - i )2=0.010 9; 对乙模型:残差平方和∑4i =1(y i - i )2=0.004 9; 对丙模型:残差平方和∑4i =1(y i - i )2=0.000 4. 显然丙的残差平方和最小,故丙模型更接近于客观实际.1.散点图在回归分析中的作用是( ) A .查找个体个数 B .比较个体数据大小关系C.探究个体分类D.粗略判断变量是否相关答案 D2.变量x与y之间的回归方程表示( )A.x与y之间的函数关系B.x与y之间的不确定性关系C.x与y之间的真实关系形式D.x与y之间的真实关系达到最大限度的吻合答案 D3.变量x,y的散点图如图所示,那么x,y之间的样本相关系数r最接近的值为( ) A.1 B.-0.5C.0 D.0.5答案 C4.非线性回归分析的解题思路是________.答案通过变量置换转化为线性回归分析[呈重点、现规律]非线性回归问题的处理方法(1)指数函数型y=e bx+a①函数y=e bx+a的图象:②处理方法:两边取对数得ln y=ln e bx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出b,a.(2)对数曲线型y=b ln x+a①函数y=b ln x+a的图象:②处理方法:设x′=ln x,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.(3)y =bx 2+a 型处理方法:设x ′=x 2,原方程可化为y =bx ′+a ,再根据线性回归模型的方法求出a ,b .一、基础过关1.下列说法正确的是( )①线性回归方程适用于一切样本和总体; ②线性回归方程一般都有时间性;③样本的取值范围会影响线性回归方程的适用范围; ④根据线性回归方程得到的预测值是预测变量的精确值. A .①③④ B .②③ C .①② D .③④ 答案 B2.某地财政收入x 与支出y 满足回归方程y =x ++e (单位:亿元),其中=0.8,=2,|e |<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( ) A .10亿 B .9亿 C .10.5亿 D .9.5亿 答案 C解析 代入数据 =10+e ,因为|e |<0.5, 所以| |<10.5,故不会超过10.5亿.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0C.12 D .1答案 D4.某学校开展研究性学习活动,某同学获得一组实验数据如下表:A .y =2x -2B .y =(12)xC .y =log 2xD .y =12(x 2-1)答案 D解析 可以代入检验,当x 取相应的值时,所求y 与已知y 相差最小的便是拟合程度最高的. 5.如果散点图的所有点都在一条直线上,则残差均为________,残差平方和为________,相关指数为________. 答案 0 0 16.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =ebx +a的周围,令z =ln y ,求得线性回归方程为 =0.25x -2.58,则该模型的回归方程为________. 答案 =e0.25x -2.58解析 ∵ =0.25x -2.58,z =ln y ,∴ =e 0.25x -2.58.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1)求年推销金额y (2)若第6名推销员的工作年限为11年,试估计他的年推销金额. 解 (1)设所求的线性回归方程为 = x + ,则 =∑i =15(x i -x)(y i -y )∑i =15(x i -x)2=1020=0.5, =y - x =0.4. ∴年推销金额y 关于工作年限x 的线性回归方程为 =0.5x +0.4. (2)当x =11时, =0.5x +0.4=0.5×11+0.4=5.9(万元). ∴可以估计第6名推销员的年推销金额为5.9万元. 二、能力提升 8.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ②相关指数R 2来刻画回归的效果,R 2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是( ) A .0 B .1C .2D .3 答案 D解析 ①选用的模型是否合适与残差点的分布有关;对于②③,R 2的值越大,说明残差平方和越小,随机误差越小,则模型的拟合效果越好.9.为了考察两个变量x 和y 之间的线性相关性,甲、乙两个同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2.已知在两个人的试验中发现对变量x 的观测数据的平均值恰好相等,都为s ,对变量y 的观测数据的平均值也恰好相等,都为t .那么下列说法正确的是( )A .直线l 1和l 2有交点(s ,t )B .直线l 1和l 2相交,但是交点未必是点(s ,t )C .直线l 1和l 2由于斜率相等,所以必定平行D .直线l 1和l 2必定重合 答案 A解析 由于回归直线一定过(x ,y ), ∴直线l 1和l 2都过(s ,t )点.10.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得:∑8i =1x i =52,∑8i =1y i =228,∑8i =1x 2i =478,∑8i =1x i y i =1 849,则y 与x 的线性回归方程是________. 答案 =11.47+2.62x11.某种产品的广告费支出x (单位:百万元)与销售额y (单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求y 关于x 的线性回归方程. 解 (1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算.于是可得 =∑i =1x i y i -5x y∑5i =1x 2i -5x 2=1 380-5×5×50145-5×52=6.5, =y - x =50-6.5×5=17.5. 于是所求的线性回归方程是 =6.5x +17.5.12.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)(2)利用(1)中所求出的线性回归方程预测该地2012年的粮食需求量.解 (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求线性回归方程,先将数据预处理如下:由预处理后的数据,容易算得x =0,y =3.2, =(-4)×(-21)+(-2)×(-11)+2×19+4×2942+22+22+42=26040=6.5, =y - x =3.2.由上述计算结果,知所求线性回归方程为 -257= (x -2 006)+ =6.5(x -2 006)+3.2.即 =6.5(x -2 006)+260.2.(2)利用所求得的线性回归方程,可预测2012年的粮食需求量为6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨)≈300(万吨). 三、探究与拓展13.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 解 (1)由题意知n =10,x =1n ∑i =1nx i =8010=8, y =1n ∑i =1n y i =2010=2,又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b =l xy l xx =2480=0.3, a =y -b x =2-0.3×8=-0.4,故所求线性回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元).。
高中数学 第一章 统计案例 1.1 回归分析的基本思想及其初步应用课时提升作业1 新人教A版选修1-
高中数学第一章统计案例1.1 回归分析的基本思想及其初步应用课时提升作业1 新人教A版选修1-2编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(高中数学第一章统计案例1.1 回归分析的基本思想及其初步应用课时提升作业1 新人教A版选修1-2)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为高中数学第一章统计案例1.1 回归分析的基本思想及其初步应用课时提升作业1 新人教A 版选修1-2的全部内容。
回归分析的基本思想及其初步应用(25分钟60分)一、选择题(每小题5分,共25分)1。
下列三个说法:(1)残差平方和越小的模型,拟合的效果越好;(2)用R2来刻画回归的效果时,R2的值越小,说明模型拟合的效果越好;(3)直线y=b x+a和各点(x1,y1),(x2,y2),…,(x n,y n)的偏差[y i—(b x i+a)]2是该坐标平面上所有直线中与这些点的偏差最小的直线。
其中正确的个数为( )A.1个B.2个C.3个 D。
4个【解析】选B.由R2的定义可知:R2越接近于1,表明两个随机变量线性相关性越强,所以(2)不正确,其余说法正确.2.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温x(℃)181310—1用电量y(度)24343864由表中数据得回归直线方程y=b x+a中b≈—2,预测当气温为-4℃时,用电量的度数约为( )A.68℃B.67℃ C。
66℃ D。
65℃【解析】选A。
由表格得(,)为(10,40),又(,)在回归方程y=b x+a上且b≈—2,所以40=10×(—2)+ a,解得: a=60,所以y=-2x+60.当x=-4时, y=—2×(—4)+60=68.3。
高中数学 第一章 统计案例 1.1 回归分析的基本思想及初步应用(1)练习(含解析)新人教A版选修1
高中数学第一章统计案例1.1 回归分析的基本思想及初步应用(1)练习(含解析)新人教A版选修1-2编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(高中数学第一章统计案例1.1 回归分析的基本思想及初步应用(1)练习(含解析)新人教A版选修1-2)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为高中数学第一章统计案例1.1 回归分析的基本思想及初步应用(1)练习(含解析)新人教A版选修1-2的全部内容。
回归分析的基本思想及其初步应用(一)班级:姓名:_____________1.下列命题中正确的是().①任何两个变量都具有相关关系②圆的周长与圆的半径具有相关关系③某商品的需求量与该商品的价格是一种非确定性关系④根据散点图求得的线性回归方程可能是没有意义的⑤两个变量的线性相关关系可以通过线性回归方程,把非确定性问题转化为确定性问题进行研究A.①③④B.②④⑤C.③④⑤D.②③⑤解析显然①是错误的,而②中圆的周长与圆的半径的关系为:C=2πR,是一种确定性的函数关系,故应选C.答案C2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有( ).A.b与r的符号相同B.a与r的符号相同C.b与r的符号相反D.a与r的符号相反解析因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.答案A3.下面4 个散点图中,不适合用线性回归模型拟合其中两个变量的是( )A. B.C. D.答案A4.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是().A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合解析都过样本中心点(s,t),但斜率不确定.答案A5.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得错误!=0。
高中数学 第一章 统计案例 1.1 回归分析的基本思想及其初步应用教材习题点拨 新人教A版选修1-2
点拨新人教A版选修1-2编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(高中数学第一章统计案例1.1 回归分析的基本思想及其初步应用教材习题点拨新人教A版选修1-2)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为高中数学第一章统计案例1.1 回归分析的基本思想及其初步应用教材习题点拨新人教A 版选修1-2的全部内容。
习题点拨新人教A版选修1—2练习1.解:作散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.2.解:分析残差可以帮助我们解决以下几个问题:①寻找异常点,就是残差特别大的样本点,考察相应的样本数据是否有错;②分析残差图可以发现模型选择是否合适.点拨:分析残差是回归分析的一部分内容,可以帮助发现样本数据中的错误,分析模型选择是否合适,是否有其他变量需要加入到模型中,模型的假设是否正确等.3.解:(1)解释变量与预报变量的关系是线性函数关系,残差平方和等于0.(2)解释变量和预报变量之间的相关指数是1.点拨:如果所有的样本点都在一条直线上,建立的线性回归模型一定是这条直线,所以每个样本点的残差均为0,所以残差平方和也为0,即此时的模型为y=bx+a,没有随机误差项,所以是严格的一次函数关系.通过计算可以证明解释变量和预报变量之间的相关指数是1.习题1.11.解:(1)从表中数据制作的散点图如下:从散点图中可以看出GDP值与年份近似呈现线性关系.(2)用y t表示GDP值,t表示年份.根据截距和斜率的最小二乘计算公式得错误!≈-14 292 537.729 089 9,错误!≈7 191。
2016_2017学年高中数学第一章统计案例1.1回归分析的基本思想及其初步应用课件新人教A版选修1_2
解析:
5
yi-∧yi2
i=1
∵R2甲=1-
5
=1-1105050=0.845,
yi- y 2
i=1
(3)残差分析 作残差图如下图所示,由图可知,残差点比较均匀地分布 在水平带状区域中,说明选用的模型比较合适.
(4)计算相关指数 R2 计算相关指数 R2≈0.985 5.说明了该运动员的成绩的差异 有 98.55%是由训练次数引起的. (5)做出预报 由上述分析可知,我们可用回归方程∧y=1.041 5x-0.003 875 作为该运动员成绩的预报值. 将 x=47 和 x=55 分别代入该方程可得∧y=49 和∧y=57. 故预测该运动员训练 47 次和 55 次的成绩分别为 49 和 57.
(1)画出散点图; (2)求物理成绩y对数学成绩x的回归直线方程; (3)一名学生的数学成绩是96,试预测他的物理成绩.
[思路点拨]
(1)散点图如图.
(2) x =15×(88+76+73+66+63)=73.2, y =15×(78+65+71+64+61)=67.8.
5
x iyi = 88×78 + 76×65 + 73×71 + 66×64 + 63×61 = 25
5
yi-∧yi2
i=1
R2乙=1-
5
=1-1108000=0.82,
yi- y 2
i=1
∵84.5%>82%,∴甲模型拟合的效果更好.
合作探究•课堂互动
线性回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章 统计案例
课时作业
31
一、选择题
1.[2013·北京通州一模]对两个变量y 和x 进行回归分析,得到一组样本数据:(x 1,
y 1),(x 2,y 2),…,(x n ,y n ),则下列说法中不正确的是( )
A .由样本数据得到的回归方程y ^
=b ^
x +a ^
必过样本点的中心(x ,y ) B .残差平方和越小的模型,拟合的效果越好
C .用相关指数R 2
来刻画回归效果,R 2
的值越小,说明模型的拟合效果越好
D .若变量y 和x 之间的相关系数r =-0.9362,则变量y 与x 之间具有线性相关关系 解析:R 2
的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选C. 答案:C
2.[2014·烟台高二检测]甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:
A .甲
B .乙
C .丙
D .丁
解析:由表可知,丁同学的相关系数r 最大且残差平方和m 最小,故丁同学的试验结果体现A 、B 两变量更强的线性相关性.
答案:D
3.甲、乙、丙、丁
4位同学各自对A 、B 两变量做回归分析,分别得到散点图与残差平
方和 i =1
n
(y i -y ^
i )2
,如下表:
A .甲
B .乙
C .丙
D .丁
解析:根据线性相关知识知,散点图中各样本点条状分布越均匀,同时保持残差平方
和越小(对于已经获取的样本数据,R 2
表达式中∑i =1
n
(y i -y )2
为确定的数,则残差平方和越
小,R 2
越大),由回归分析建立的线性回归模型的拟合效果就越好,由试验结果知丁要好些.
答案:D
4.某产品的广告费用x 与销售额y 的统计数据如下表
根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )
A .63.6万元
B .65.5万元
C .67.7万元
D .72.0万元
解析:由表可计算x =
4+2+3+54=72,y =49+26+39+544=42,因为点(7
2
,42)在回归直线y ^
=b ^
x +a ^
上,且b ^
为9.4,所以42=9.4×72+a ^
,解得a ^
=9.1,故回归方程
为y ^
=9.4x +9.1,令x =6得y ^
=65.5,选B.
答案:B 二、填空题
5.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本的资料进
行线性回归分析,结果如下:x =72,y =71,∑i =16x 2
i =79,∑i =1
6
x i y i =1481.
b ^
=1481-6×7
2
×7179-
72
2
≈-1.8182,
a ^
=71-(-1.8182)×72
≈77.36,则销量每增加1000箱,单位成本下降__________
元.
解析:由上表可得,y ^
=-1.8182x +77.36,销量每增加1千箱,则单位成本下降1.8182元.
答案:1.8182
6.已知回归直线的斜率的估计值为 1.23.样本点的中心为(4,5),则回归直线方程是________.
解析:由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y ^
-5=1.23(x -4),
即y ^
=1.23x +0.08.
答案:y ^
=1.23x +0.08
7.[2014·宁夏吴忠模拟]某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:
由表中数据得线性回归方程y =b x +a 中b =-2,预测当气温为-4℃时,用电量的度数约为________.
解析:x =10,y =40,回归方程过点(x ,y ),∴40=-2×10+a ^
.
∴a ^
=60.∴y ^
=-2x +60.
令x =-4,∴y ^
=(-2)×(-4)+60=68. 答案:68 三、解答题
8.某地最近十年粮食需求量逐年上升,下表是部分统计数据:
(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.
解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,先将数据预处理如下:
x =0,y =3.2,b ^
=6.5,
a ^
=y -b ^
x =3.2.由上述计算结果知,所求回归直线方程为
y ^
-257=b ^
(x -2006)+a ^
=6.5(x -2006)+3.2.
即y ^
=6.5(x -2006)+260.2.
(2)利用所求得的直线方程,可预测2012年的粮食需求量为
6.5×(2012-2006)+260.2=6.5×6+260.2=299.2(万吨)≈300(万吨).
9.[2013·重庆高考]从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单
位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =1
10
x i =80,∑i =1
10
y i =20,∑i =1
10
x i y i =184,
∑i =1
10
x 2i =720. (1)求家庭的月储蓄y 对月收入x 的线性回归方程y ^ =b ^ x +a ^
; (2)判断变量x 与y 之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程y ^
=b ^
x +a ^
中,
b ^
=
∑i =1
n
x i y i -n x y
∑i =1
n
x 2i -n x 2
,a ^ =y -b ^
x ,
其中x ,y 为样本平均值,线性回归方程也可写为y ^ =b ^ x +a ^
.
解:(1)由题意知n =10,x =1
n ∑i =1n
x i =8010=8,y =1n ∑i =1n y i =2010=2,又∑i =1
n
x 2i -n x 2
=720
-10×82
=80,∑i =1
n
x i y i -n x y =184-10×8×2=24,
由此得b ^
=
∑i =1
n
x i y i -n x y
∑i =1
n
x 2i -n x 2
=24
80
=0.3,a ^ =y -b ^
x =2-0.3×8=-0.4, 故所求回归方程为y ^
=0.3x -0.4.
(2)由于变量y 的值随x 的值增加而增加(b ^
=0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元).。