最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》课后导练
最新整理高中数学人教A版选修2-3课后导练:3.1回归分析的基本思想及其初步应用 Word版含解析.doc
课后导练基础达标1.工人月工资(元)依劳动生产率(千元)变化的回归方程为y-=50+80x 下列判断正确的是( )(1)劳动生产率为1 000元时,工资为130元 (2)劳动生产率提高1 000元则工资提高80元 (3)劳动生产率提高1 000元则工资提高130元 (4)当月工资为210元时,劳动生产率为2 000元A.(1)B.(2)C.(3)D.(4) 解析:由回归系数b 的意义知,b >0时,自变量和因变量按同向变化;b <0时,自变量和因变量按反向变化.B=80,可知只有(2)正确.B 2.相关关系与函数关系的区别是____________. 答案:函数关系是两个变量之间有完全确定的关系,而相关关系是两个变量之间并没有严格的确定关系,当一个变量变化时,另一变量的取值有一定的随机性.3.为考虑广告费用x 与销售额y 之间的关系,抽取了5家餐厅,得到如下数据:广告费用(千元)1.0 4.0 6.01 0.0 14.0 销售额(千元)19.0 44.0 40.0 52.0 53.0 现要使销售额达到6万元,则需广告费用为______________.(保留两位有效数字)解析:先求出回归方程yˆ=bx+a,令y ˆ=6,得x=1.5万元. 答案:1.5万元4.假设学生在初一和初二数学成绩是线性相关的,若10个学生初一(x )和初二(y)数学分数如下: x 74 71 72 68 76 73 67 70 65 74 y 76 75 71 70 76 79 65 77 62 72 试求初一和初二数学分数间的回归方程. 解析:因为x =71,∑2ix=50 520, y =72.3,∑iiyx =51 467,所以,b=27110505203.7271101051457⨯-⨯⨯⨯-≈1.218 2;a=72.3-1.218 2×71=-14.192. 回归直线方程是: yˆ=1.218 2x-14.192. 5.部分国家13岁学生数学测验平均分数为: 中国 朝国 瑞士 俄罗斯 法国 以色列 加拿大 英国 美国 约旦 授课天数251 222 207 210 174 215 188 192 180191 分数80 73 71 70 64 63 62 61 55 46试作出该数据的散点图并由图判断可否存在回归直线,若有则求出直线方程. 解析:(图略)由图知,存在回归直线方程. 因为x =203,∑2i x =416 824,y =64.5,∑iiyx =132 418,所以b=2203104168245.6420310132418⨯-⨯⨯-≈0.313 3; a=64.5-0.313 3×203=0.900 1,回归直线方程是:yˆ=0.313 3x+0.900 1. 综合运用6.电容器充电后,电压达到100 V ,然后开始放电.由经验知道,此后电压U 随时间t 变化的规律用公式u=Ae bt (b <0)表示.现测得时间t(s)时的电压U (V )如下所示: t: 0 1 2 3 4 5 6 7 8 9 10U:100 75 55 40 30 20 15 10 10 5 5 试求电压U 对时间t 的回归方程. 解析:对u=Ae bt 两边取自然对数得令y=lnu a=lnA 即y=a+bt t 0 1 2 3 4 5 6 7 8 9 10 y 4.6 4.3 4.0 3.9 3.4 2.9 2.7 2.3 2.3 1.6 1.6即ln uˆ=-0.3t+4.6 ∴uˆ=-0.3t+4.6 拓展探究 7.称SST=∑=-ni iy y12)(为总偏差平方和,SSE=∑=-ni i iyy12)ˆ(为残差平方和,SSR=∑=-ni i iy y12)ˆ(为回归平方和.在线性回归模型中,有∑=-ni iy y12)(=∑=-ni i i yy 12)ˆ(=∑=-ni i i y y 12)ˆ(. 解释总偏差平方和、残差平方和、回归平方和以及该等式的统计含义.解析:SST 度量y 自身的差异程度,即数据总的变动.SSE 度量实际值与拟合值之间的差异程度,即被回归方程解释的部分.SSR 度量因变量y 的拟合值自身的差异程度,即未被回归方程解释的部分. 统计含义:如果x 引起的变动部分在y 的总变动中占很大比例,那么x 很好地解释了y ,否则x 不能很好地解释y.即:在总偏差平方和中,回归平方和占所占比重越大,则线性回归效果就越好,否则效果就越差. 备选习题8.用721分光光度计在730 nm 波长处测定SiO 2含量,得以下数据(见表1) 表1 SiO 2含量(x )与吸光度(y)对应关系 SiO 2含量/(mg·mL -1) 吸光度 SiO 2含量/(mg·mL -1) 吸光度0 0.032 0.08 0.359 0.02 0.135 0.10 0.435 0.04 0.187 0.12 0.511 0.06 0.268若未知磷铵试液吸光度为0.250,未知磷铵中SiO 2含量是多少?用一元线性回归方程求之. 解析:先根据表1数据确定线性回归方程系数a 和b 的计算数据(见表2),然后按以下算式计算a 、b 值.y =7927.1=0.275 x =742.0=0.06 b=22)(1))((1∑∑∑∑∑--i i i i i i x n x y x n y x=2)42.0(710364.0)927.1)(42.0(711597.0--=3.94 a=bx y -=0.275-3.94×0.06=0.039 于是求得回归方程:y=0.039+3.94x9.现随机抽取了我校10名学生在入学考试中数学成绩(x )与入学后的第一次考试数学成绩(y),学生号 12 3 4 5 6 7 8 9 10 X 120 108 117 104 103 110 104 105 99 108 y 84 64 84 68 69 68 69 46 57 71请问:这10个学生的两次数学考试成绩是否具有显著性线性相关系? 解析:因为x =107.8, ∑2ix=116 584, y =68,∑2iy=47 384,∑ii y x =73 796,所以相关系数为: r=)68104738)(8.10710116584(688.107107379622⨯-⨯-⨯⨯-≈0.750 6,查表:显著性水平0.05,自由度10—2相应的相关关系临界值r 0.05=0.602 1,由r >r 0.05知,两次数学考试成绩有显著性的线性相关关系.。
高中数学选修2-3同步练习题库:回归分析的基本思想及其初步应用(选择题:一般)
回归分析的基本思想及其初步应用(选择题:一般)1、已知变量成负相关,且由观测数据算得样本平均数,,则由该观测数据算得的线性回归方程可能是( ) A .B .C .D .2、若对于变量的取值为3,4,5,6,7时,变量对应的值依次分别为4.0,2.5,-0.5,-1,-2;若对于变量的取值为1,2,3,4时,变量对应的值依次分别为2,3,4,6,则变量和,变量和的相关关系是( ) A .变量和是正相关,变量和是正相关 B .变量和是正相关,变量和是负相关 C .变量和是负相关,变量和是负相关 D .变量和是负相关,变量和是正相关3、下列关于回归分析的说法中错误的是( ) A .回归直线一定过样本中心B .残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适C .两个模型中残差平方和越小的模型拟合的效果越好D .甲、乙两个模型的分别约为0.98和0.80,则模型乙的拟合效果更好4、某商品的售价(元)和销售量(件)之间的一组数据如下表所示:价格(元) 销售量(件)由散点图可知,销售量与价格之间有较好的线性相关关系,且回归直线方程是,则实数 ( ) A.B.C.D.5、若关于的线性回归方程是由表中提供的数据求出,那么表中的值为( )3 4 5 634 A.B. C.D.6、四名同学根据各自的样本数据研究变量之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①与负相关且. ②与负相关且 ③与正相关且④与正相关且其中一定不正确的结论的序号是( )A .①②B .②③C .③④D .①④7、已知的取值如下表:( )0 1, 2 3 41 1.3 3.2 5.6 8.9若依据表中数据所画的散点图中,所有样本点都在曲线附近波动,则( )A. 1B.C.D.8、已知的取值如下表:( )0 1, 2 3 4 1 1.3 3.2 5.6 8.9若依据表中数据所画的散点图中,所有样本点都在曲线附近波动,则( )A. 1B.C.D.9、两个变量与的回归模型中,分别选择了4个不同模型,对于样本点,,…,,可以用来刻画回归的效果,已知模型1中,模型2中,模型3中,模型4中,其中拟合效果最好的模型是( )A .模型1B .模型2C .模型3D .模型410、根据如下样本数据得到的回归方程为,若,则每增加1个单位,就( )A .增加0.9个单位B .减少0.9个单位C .增加1个单位D .减少1个单位11、对具有线性相关关系的变量,有一组观测数据(),其回归直线方程是,且,则实数的值是( )A .B .C .D .12、工人月工资(元)关于劳动生产率x(千元)的回归方程为,下列说法中正确的个数是()①劳动生产率为1000元时,工资为730元;②劳动生产率提高1000元,则工资提高80元;③劳动生产率提高1000元,则工资提高730元;④当月工资为810元时,劳动生产率约为2000元.A.1 B.2 C.3 D.413、两个变量与的回归模型中,分别选择了个不同模型,它们对应的的值如下,其中拟合效果最好的模型是()A.模型对应的 B.模型对应的C.模型对应的 D.模型对应的14、如表为某公司员工工作年限x(年)与平均月薪y(千元)对照表.已知y关于x的线性回归方程为,则下列结论错误的是()x 3 4 5 6 y 2.5 t 4 4.5A. 回归直线一定过点(4.5,3.5)B. 工作年限与平均月薪呈正相关C. t的取值是3.5D. 工作年限每增加1年,工资平均提高700元15、已知的取值如下表所示x 0 1 3 4 y 2.2 4.3 4.8 6.7从散点图分析y与x的线性关系,且,则A. 2.2B. 2.6C. 3.36D. 1.9516、在线性回归模型y=bx+a+e中,下列说法正确的是()A.y=bx+a+e是一次函数B.因变量y是由自变量x唯一确定的C.因变量y除了受自变量x的影响外,可能还受到其它因素的影响,这些因素会导致随机误差e的产生D.随机误差e是由于计算不准确造成的,可以通过精确计算避免随机误差e的产生.17、下列命题中:①线性回归方程必过点;②在回归方程中,当变量增加一个单位时,平均增加5个单位;③在回归分析中,相关指数为0.80的模型比相关指数为0.98的模型拟合的效果要好;④在回归直线中,变量时,变量的值一定是-7.其中假命题的个数是 ( )A.1 B.2 C.3 D.418、某商场为了了解毛衣的月销售量(件)与月平均气温之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:由表中数据算出线性回归方程中的,气象部门预测下个月的平均气温约为,据此估计该商场下个月毛衣销售量约为()件A.46 B.40 C.38 D.5819、已知变量x,y的一组观测数据如表所示:x3467y4.02.5-0.50.5-2.0据此得到的回归方程为,若 =7.9,则x每增加1个单位,y的预测值就()A. 增加1.4个单位 B. 减少1.2个单位 C. 增加1.2个单位 D. 减少1.4个单位20、下面给出四种说法:①用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好;②命题P:“∃x0∈R,x02﹣x0﹣1>0”的否定是¬P:“∀x∈R,x2﹣x﹣1≤0”;③设随机变量X服从正态分布N(0,1),若P(x>1)=p则P(﹣1<X<0)=﹣p④回归直线一定过样本点的中心().其中正确的说法有()A.①②③ B.①②④ C.②③④ D.①②③④21、下面给出四种说法:①用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好;②命题P:“∃x0∈R,x02﹣x0﹣1>0”的否定是¬P:“∀x∈R,x2﹣x﹣1≤0”;③设随机变量X服从正态分布N(0,1),若P(x>1)=p则P(﹣1<X<0)=﹣p④回归直线一定过样本点的中心().其中正确的说法有()A.①②③ B.①②④ C.②③④ D.①②③④22、已知x与y之间的一组数据:x23ym35.57已求得关于y与x的线性回归方程为,则m的值为 ()A. 1B. 0.85C. 0.7D. 0.523、已知x与y之间的一组数据:x123ym35.57已求得关于y与x的线性回归方程为,则m的值为 ()A. 1B. 0.85C. 0.7D. 0.524、已知回归方程,则该方程在样本处的残差为( )A. B. C. D.25、对两个变量和进行回归分析,得到一组样本数据:,…,则下列说法中不正确的是( )A.由样本数据得到的回归方程必过样本中心B.残差平方和越小的模型,拟合的效果越好C.若变量和之间的相关系数为,则变量和之间具有线性相关关系D.用相关指数来刻画回归效果,越小,说明模型的拟合效果越好26、在相关分析中,对相关系数,下列说法正确的是()A.越大,线性相关程度越强B.越小,线性相关程度越强C.越大,线性相关程度越弱,越小,线性相关程度越强D.且越接近,线性相关程度越强,越接近,线性相关程度越弱27、下面给出四种说法:①用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好;②命题P:“∃x0∈R,x02﹣x0﹣1>0”的否定是¬P:“∀x∈R,x2﹣x﹣1≤0”;③设随机变量X服从正态分布N(0,1),若P(x>1)=p则P(﹣1<X<0)=﹣p④回归直线一定过样本点的中心().其中正确的说法有()A.①②③ B.①②④ C.②③④ D.①②③④28、根据如下样本数据:3456784.02.50.5得到的回归方程为,则()A. ,B. ,C. ,D. ,29、以下判断正确的个数是()①相关系数,值越小,变量之间的相关性越强;②命题“存在,”的否定是“不存在,”;③“”为真是“”为假的必要不充分条件;④若回归直线的斜率估计值是1.23,样本点的中心为,则回归直线方程是.A.4 B.2 C.3 D.130、某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程,据此模型预报广告费用为6万元时,销售额为()A. 72.0万元B. 67.7万元C. 65.5万元D. 63.6万元31、某青少年成长关爱机构为了调研所在地区青少年的年龄与身高壮况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1000个,根据各年龄段平均身高作出如图所示的散点图和回归直线.根据图中数据,下列对该样本描述错误的是()A.据样本数据估计,该地区青少年身高与年龄成正相关B.所抽取数据中,5000名青少年平均身高约为C.直线的斜率的值近似等于样本中青少年平均身高每年的增量D.从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线上32、由一组样本数据,,…,得到回归直线方程,那么下列说法中不正确的是()A.直线必经过点B.直线至少经过,,…,中的一个点C.直线的纵截距为D.直线的斜率为33、2015年年岁史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》.某记者调查了大量《芈月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在,,,,的爱看比例分别为,,,,.现用这5个年龄段的中间值代表年龄段,如12代表,代表,根据前四个数据求得关于爱看比例的线性回归方程为,由此可推测的值为()A. B. C. D.34、广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如下表(单位:万元)广告费23456销售额2941505971由上表可得回归方程为,据此模型,预测广告费为10万元时的销售额约为A. B. C. D.35、下列说法错误的是()A.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高B.在线性回归分析中,回归直线不一定过样本点的中心C.在回归分析中,为0.98的模型比为0.80的模型拟合的效果好D.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系36、下列说法中正确的是()①相关系数用来衡量两个变量之间线性关系的强弱,越接近于,相关性越弱;②回归直线一定经过样本点的中心;③随机误差满足,其方差的大小用来衡量预报的精确度;④相关指数用来刻画回归的效果,越小,说明模型的拟合效果越好.A.①② B.③④ C.①④ D.②③37、下列命题中正确命题的个数是()(1)对于命题,使得,则,均有;(2)命题“已知,若,则或”是真命题;(3)回归直线的斜率的估计值为,样本点的中心为,则回归直线方程为;(4)是直线与直线互相垂直的充要条件.A. B. C. D.38、某研究机构在对具有线性相关的两个变量和进行统计分析时,得到如下数据:由表中数据求得关于的回归方程为,则在这些样本点中任取一点,该点落在回归直线下方的概率为()A. B. C. D.39、给出下列几个命题:①命题:任意,都有,则:存在,使得;②已知,若成立,且,则;③空间任意一点和三点,则是三点共线的充分不必要条件;④线性回归方程对应的直线一定经过其样本数据点中的一个.其中正确的个数为()A. B. C. D.40、某班一个学习小组在一次数学实践活动中,测得一组数据共5个,如下表x5y2.54.65.4n7.5若,计算得回归方程为,则的值为()A. 9B. 8C. 7D. 641、某厂家为了解销售轿车台数与广告宣传费之间的关系,得到如表统计数据表:根据数据表可得回归直线方程,其中,,据此模型预测广告费用为9万元时,销售轿车台数为()广告费用(万元)23456销售轿车(台数)3461012A. 17B. 18C. 19D. 2042、下列说法正确的是()A.若命题:,,则:,B.已知相关变量满足回归方程,若变量增加一个单位,则平均增加4个单位C.命题“若圆:与两坐标轴都有公共点,则实数”为真命题D.已知随机变量,若,则43、四名同学根据各自的样本数据研究变量之间的相关关系,并求得回归直线方程和相关系数,分别得到以下四个结论:①,且;②,且;③,且;④,且.其中一定不正确的结论的序号是()A.①② B.②③ C.③④ D.①④44、通过随机询问110名性别不同的大学生是否爱好某处运动,得到如下的列联表:由卡方公式算得:附表:参照附表:得到的正确的结论是()A.在犯错的概率不超过0.1%的前提下,认为“爱好该运动与性别无关”B.在犯错的概率不超过0.1%的前提下,认为“爱好该运动与性别有关”C.有99%以上的把握认为“爱好该运动与性别有关”D.有99%以上的把握认为“爱好该运动与性别无关”45、下列五个命题中正确命题的个数是()(1)对于命题,使得,则,均有;(2)是直线与直线互相垂直的充要条件;(3)已知回归直线的斜率的估计值为,样本点的中心为,则回归直线方程为;(4)已知正态总体落在区间的概率是,则相应的正态曲线在时,达到最高点;(5)曲线与所围成的图形的面积是.A.2 B.3 C.4 D.546、为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程,其中,据此估计,该社区一户收入为15万元家庭年支出为()A.11.4万元 B.11.8万元C.12.0万元 D.12.2万元47、某商场为了了解毛衣的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:月平均气温x(℃)171382月销售量y(件)24334055由表中数据算出线性回归方程中的,气象部门预测下个月的平均气温约为℃,据此估计该商场下个月毛衣销售量约为件 ( )A.46B.40C.70D.5848、某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)进行统计调查,y与x具有相关关系,回归方程为=0.66x+1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( )A.83% B.72% C.67% D.66%49、下表是某工厂6~9月份电量(单位:万度)的一组数据:月份x6789用电量y6532由散点图可知,用电量y与月份x间有较好的线性相关关系,其线性回归直线方程是,则等于( )A.10.5 B.5.25 C.5.2 D.14.550、已知回归直线方程中斜率的估计值为1.23,样本点的中心(4,5),则回归直线方程为( )A.=1.23x+0.08 B.=0.08x+1.23C.=1.23x+4 D.=1.23x+551、有下列数据:x123y35.9912.01下列四个函数中,模拟效果最好的为( )A. B.C. D.52、某公司为确定明年投入某产品的广告支出,对近年的广告支出与销售额(单位:百万元)进行了初步统计,得到下列表格中的数据:经测算,年广告支出与年销售额满足线性回归方程,则的值为()A. B. C. D.53、在2016年3月15日,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如表所示:价格x9.29.31010.511销售量y1110865由散点图可知,销售量y与价格x之间有较好的线性相关关系,其线性回归直线方程是:=﹣2.2x+a,那么a的值为()A.﹣24 B.29.2 C.30 D.4054、已知与之间的一组数据:12335.57已求得关于与的线性回归方程为,则的值为()A.1 B.0.85 C.0.7 D.0.555、某产品的广告费用与销售额的统计数据如表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程中的为9.4,据此模型,当广告费用为6万元时,销售额为()A.65.5万元 B.67.7万元 C.69.7万元 D.72.0万元56、某产品的广告费用与销售额的统计数据如下表:广告费用(万元)1245销售额(万元)10263549根据上表可得回归方程的约等于9,据此模型预报广告费用为6万元时,销售额约为()。
人教版高中数学理科选修2-3同步练习题、期中、期末复习资料、补习资料:21回归分析的基本思想及其初步应用
回归分析的基本思想及其初步应用【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。
2. 能作出散点图,能求其回归直线方程。
3. 会用所学的知识对简单的实际问题进行回归分析。
【要点梳理】要点一、变量间的相关关系1. 变量与变量间的两种关系:(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S 与半径r 之间的关系S=πr 2为函数关系.(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。
例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2. 相关关系的分类:(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; (2)两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据.4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
要点二、线性回归方程:1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程 对于一组具有线性相关关系的数据,,……,,其回归直线的截距和斜率的最小二乘法估计公式分别为:, 其中表示数据x i (i=1,2,…,n )的均值,表示数据y i (i=1,2,…,n )的均值,表示数据x i y i (i=1,2,…,n )的均值.ˆˆˆybx a =+11(,)x y 22(,)x y (,)n n x y ˆˆˆybx a =+121()()ˆ()niii nii x x y y bx x ==--=-∑∑ˆˆay bx =-x y xy、的意义是:以为基数,x 每增加一个单位,y 相应地平均变化个单位.要点诠释:①回归系数,也可以表示为,这样更便于实际计算。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》示范教案(第2课时)
第二课时教学目标知识与技能从相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤.过程与方法在发现直接求回归直线方程存在缺陷的基础上,引导学生去发现解决问题的新思路——进行回归分析,进而介绍残差分析的方法和利用R2来表示解释变量对于预报变量变化的贡献率.情感、态度与价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,掌握处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识解决实际问题的能力.教学中适当地利用学生的合作与交流,使学生在学习的同时,体会与他人合作的重要性.重点难点教学重点:从残差分析、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;教学难点:了解评价回归效果的两个统计量:相关指数、残差和残差平方和.教学过程引入新课上表是上一节课我们从某大学选取8名女大学生其身高和体重数据组成的数据表,在上一节课中我们通过数据建立了回归直线方程,并根据方程预测了身高为172 cm的女大学生的体重.当时,我们提到根据回归直线方程求得的体重数据,仅是一个估计值,其与真实值之间存在着误差,为了综合分析身高和体重的关系,我们引入了线性回归模型y=bx+a+e 来表示两变量之间的关系,其中e为随机变量,又称随机误差.线性回归模型y=bx+a+e 增加了随机误差项e,因变量y的值由自变量x和随机误差e共同确定.假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上.但是,在图中,数据点并没有完全落在回归直线上.这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了,即自变量x只能解释部分y的变化.同学们考虑一下,随机变量e的均值是多少?方差又是多少?活动设计:学生思考回答问题.学情预测:学生回答E(e)=0,D(e)=σ2>0.教师提问:能否通过D(e)来刻画线性回归模型的拟合程度?学情预测:随机误差e的方差越小,通过回归直线预报真实值y的精度越高.随机误差是引起预报值与真实值y之间的误差的原因之一,其大小取决于随机误差的方差.设计意图:说明研究随机误差e的必要性,通过研究随机误差e可以分析预报值的可信度.提出问题:既然可以用随机变量e的方差来衡量随机误差的大小,即通过方差σ2来刻画预报变量(体重)的变化在多大程度上与随机误差有关,那么如何获得方差σ2呢?学生活动:学生独立思考,小组合作交流讨论.活动结果:可以采用抽样统计的思想,通过随机变量e的样本来估计σ2的大小.设计目的:复习抽样统计思想,以便通过随机变量e 的样本来估计总体. 探究新知提出问题:既然e 表示了除解释变量以外其他各种影响预报值的因素带来的误差,那么如何获得e 的样本来计算σ2呢?学生活动:分组合作讨论交流.学情预测:由函数模型y ^=b ^x +a ^和回归模型y =bx +a +e 可知e =y -y ^,这样根据图表中女大学生的身高求出预报值,再与真实值作差,即可求得e 的一个估计值.教师:由于在计算回归直线方程时,利用公式求得的b ^和a ^为斜率和截距的估计值,它们与真实值a 和b 之间存在误差,因此y ^是估计值,所以e ^=y -y ^也是一个估计值.由上可知,对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…n ,称其估计值e ^i =y i -y ^i 为相应于点(x i ,y i )的残差.将所有残差的平方加起来,即∑i =1ne ^2i ,这个和称作残差平方和.类比样本方差估计总体方差的思想,可以用σ^2=1n -2∑i =1n e ^ 2i =1n -2∑i =1n(y i -y ^i )2(n>2) 作为σ2的估计量,通常,σ^2越小,预报精度越高.这样,当我们求得回归直线方程后,可以通过残差来判断模型拟合程度的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.设计目的:通过问题诱思,引入残差概念. 理解新知提出问题:对照女大学生的身高和体重的原始数据,结合求出的回归直线方程,求出相应的残差数据.学生活动:独立完成.样的散点图称作残差图).学生活动:分组合作,共同完成. 活动结果:残差图提出问题:观察上面的残差图,你认为哪几个样本点在采集时可能存在人为的错误?为什么?学生活动:分组讨论. 活动结果:第一个和第六个样本点在采集过程中可能存在错误,因为其他的样本点基本都集中在一个区域内,只有这两个样本点的残差比较大,相对其他样本点来说,分布得较为分散.提出问题:如何从残差图来判断模型的拟合程度? 学生活动:独立思考也可相互讨论.活动结果:因为σ^2越小,预报精度越高,即模型的拟合程度越高,而σ^2越小,e ^的取值越集中,故若残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,且带状区域的宽度越窄,说明拟合精度越高,回归直线的预报精度越高.教师:在统计学上,人们经常用相关指数R 2来刻画回归的效果,其计算公式是:R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2提出问题:分析上面计算相关指数R 2的公式,如何根据R 2来判断模型的拟合效果? 学生活动:独立思考也可相互讨论,教师加以适当的引导提示.活动结果:因为对于确定的样本数据而言,∑i =1n(y i -y )2是一个定值,故R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.提出问题:在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近1,表示回归的效果越好,即解释变量和预报变量的线性相关性越强,试计算关于女大学生身高与体重问题中的相关指数R 2.学生活动:学生独立计算获得数据. 活动结果:R 2≈0.64.根据R 2≈0.64就可得出“女大学生的身高解释了64%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”.由此就不难理解为什么预报体重和真实值之间有差距了.设计目的:结合图象,让学生直观感受残差图在刻画回归模型拟合效果方面的应用,体会残差分析和相关指数的意义.提出问题:根据前面得到的回归方程,能否预测一名美国女大学生的体重?建立回归模型后能否一劳永逸,在若干年后还可以使用,或者适用于多年以前的女大学生体重预测?学生活动:讨论交流总结发言.活动结果:在使用回归方程进行预报时要注意: (1)回归方程只适用于我们所研究的样本的总体; (2)我们建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.提出问题:结合我们刚学习的概念,现在能否将建立回归模型的步骤补充完整? 学生活动:讨论交流,合作完成.活动结果:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程). (4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性,等等).若存在异常,则检查数据是否有误,或模型是否合适等.设计意图:设计问题,让学生讨论分析,得出使用回归方程进行预报需注意的问题,并让学生完善建立回归模型的步骤.在这个过程中,教师不宜做太多引导,要放手给学生,让学生讨论,充分参与进来.运用新知例1一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差; (2)你认为这个模型能较好地刻画零件数和加工时间的关系吗? 分析:首先根据散点图粗略判断变量是否具有线性相关性,判断是否可以用线性回归模型来拟合数据,然后通过残差e ^1,e ^2,…,e ^n 来判断模型拟合的效果,判断原始数据是否存在可疑数据.解:(1)根据表中数据作出散点图如下:散点图由散点图可知变量之间具有线性相关关系,可以通过求线性回归方程来拟合数据.根据公式可求得加工时间对零件数的线性回归方程为y ^=0.668x +54.96.残差数据如下表:残差图由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好,但需注意,由残差图也可以看出,第4个样本点和第5个样本点残差较大,需要确认在采集这两个样本点的过程中是否有人为的错误.点评:由散点图判断两个变量的线性相关关系,误差较大,利用残差图可以较好地评价模型的拟合程度,并能发现样本点中的可疑数据.【变练演编】例2求出y 对x 的回归方程,并说明拟合效果的好坏.思路分析:先根据散点图判断两个变量是否线性相关,若相关,求出回归直线方程,然后通过相关指数的大小来评价拟合效果的好坏.解:作出散点图:从作出的散点图可以看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得x =18,y =45.4,由计算公式得b ^=-2.35,a ^=y -b ^x =87.7.故y 对x 的回归方程为y ^=-2.35x +87.7,列表:所以∑i =15(y i -y ^i )2=8.3,∑i =15(y i -y )2=229.2.相关指数R 2=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2≈0.946.因为0.964很接近1,所以该模型的拟合效果很好.变式1:若要分析是否在上述样本的采集过程中存在可疑数据,应如何分析? 活动设计:学生分组讨论,回顾课本解答问题. 活动成果:可以画出残差图来进行分析.变式2:既然利用残差图和相关指数都能够评价回归模型的拟合效果,能否总结一下两种方法各自的特点?活动成果:利用残差图可以直观展示拟合的效果,而且还可以发现样本数据中的可疑数据;而相关指数是把对拟合效果的评价转换为数值大小的判断,易于量化处理,并能在数量上表现解释变量对于预报变量变化的贡献率.设计意图:进一步熟悉判断拟合效果的方法以及各自的特点. 【达标检测】1.分析下列残差图,所选用的回归模型效果最好的是()ABC D 2.下列说法正确的是( )①回归直线方程适用于一切样本和总体;②回归直线方程一般都有时间性;③样本的取值范围会影响回归直线方程的适用范围;④根据回归直线方程得到的预测值是预测变量的精确值.A .①③④B .②③C .①②D .③④3.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈__________,表明“气温解释了85%的热茶销售杯数变化”或者说“热茶销售杯数差异有85%是由气温引起的”.答案:1.D 2.B 3.0.85.课堂小结学生回顾本节课学习的内容,尝试总结,然后不充分的地方由学生相互补充,最后在老师的引导下,用精炼的语言进行概括:1.判断变量是否线性相关的方法以及各自的特点; 2.在运用回归模型时需注意的事项; 3.建立回归模型的基本步骤. 设计意图:让学生自己小结,这是一个多维整合的过程,是一个高层次的自我认识过程. 补充练习 【基础练习】1.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数R 2来刻画回归的效果,R 2值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( )A .①②B .②③C .①③D .①②③2.甲、乙、丙、丁四位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ^i )2如下表115106124103哪位同学的实验结果体现拟合A ,B 两变量关系的模型拟合精度高?( ) A .甲 B .乙 C .丙D .丁 3.关于x 与y 为了对x ,y 两个变量进行统计分析,现有以下两种线性模型:甲:y ^=6.6x +17.5,乙:y ^=7x +17.试比较哪一个模型拟合效果更好.答案或提示:1.D 2.D3.解析:设甲模型的相关指数为R 21,则R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1551 000=0.845;设乙模型的相关指数为R 22,则可求得R 22=0.82,因为R 21>R 22,所以甲模型的拟合效果更好.【拓展练习】 4.假设某种农作物基本苗数x 与有效穗数y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗数. (3)计算各组残差;(4)求R 2,并说明随机误差对有效穗数的影响占百分之几? 解:(1)散点图如图:(2)由图可以看出,样本点呈条状分布,有比较好的线性相关关系,因此可用线性回归方程来建立两个变量之间的关系.设线性回归方程为y ^=b ^x +a ^,由数据可以求得:b ^≈0.291,a ^=y -b ^x =34.67.故所求的线性回归方程为y ^=0.291x +34.67.当x =56.7时,y ^=0.291×56.7+34.67=51.169 7. 估计有效穗数为51.169 7.(3)各组数据的残差分别是e ^1≈0.37,e ^2≈0.72,e ^3≈-0.5,e ^4≈-2.22,e ^5≈1.61. (4)残差平方和:∑i =15(y i -y ^i )2=8.425 8,又∑i =15(y i -y )2=50.18,∴R 2=1-∑i =15(y i -y ^i )2∑i =15 (y i -y )2=1-8.425 850.18≈0.832.即解释变量(农作物基本苗数)对有效穗数的影响约占了83.2%,所以随机误差对有效穗数的影响约占1-83.2%=16.8%.设计说明 本课时从上一节课的案例出发,通过分析随机误差产生的原因,引入随机变量、残差、残差平方和、相关指数的有关概念,从相关指数和残差分析等角度探讨回归模型拟合的效果,并通过案例说明利用所建立的回归模型进行预报时需要注意的问题,然后总结建立回归模型的基本步骤.在教学过程中以问题为引导思考的动机,注重对学生合作意识的培养,通过对案例的分析,培养学生对数据的处理能力,让学生初步了解回归分析思想在实际生活中的运用.备课资料有关总偏差平方和、回归平方和、残差平方和以及相关指数等概念的说明 1.总偏差平方和:SST =∑i =1n(y i -y )2,刻画了预报变量y 的变化剧烈程度.2.回归平方和:SSR =∑i =1n(y ^i -y )2,公式中所有预测值的平均值也等于y ,故1n ∑i =1n y ^ i =1n ∑i =1n (b ^x i +a ^ )=b ^ x +a ^ =b ^ x +y -b ^x =y , 因此回归平方和又可以写成.从而回归平方和刻画了估计量y ^=a ^+b ^x 的变化程度.由于估计量由解释变量x 所决定,所以,回归平方和刻画了预报变量的变化中由解释变量通过线性回归模型引起的那一部分的变化程度.3.残差平方和:SSE =∑i =1n(y i -y ^i )2,刻画了残差变量变化的程度.4.偏差平方和分解:即指公式∑i =1n(y i -y )2=∑i =1n(y ^i -y )2+∑i =1n(y i -y ^i )2,称为平方和分解公式,用文字表示为: 总偏差平方和=回归平方和+残差平方和. 公式证明如下:假设观测数据为(x i ,y i ),i =1,2,…,n ,则∑i =1n(y i -y )2=∑i =1n(y i -y ^i +y ^i -y )2=∑i =1n(y i -y )2+∑i =1n(y i -y ^i )2+2∑i =1n(y ^ i -y )(y i -y ^i ).而∑i =1n(y ^ i -y )(y i -y ^i )=∑i =1n(b ^ x i -b ^ x )(y i -a ^ -b ^x i )=∑i =1nb ^(x i -x )[]y i -a ^ -b ^x -b(x i -x )=b ^∑i =1n(x i -x )[](y i -y )-b ^(x i -x )=b ^⎣⎢⎢⎡⎦⎥⎥⎤∑i =1n (x i-x )(y i -y )-b ^ ∑i =1n (x i -x )2=0, 代入上式即可证得平方和分解公式. 这样,可以把平方和分解公式解释为:预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量引起的变化程度之和.由平方和分解公式得1=∑i =1n(y ^i -y )2∑i =1n(y i -y )2+∑i =1n(y i -y ^i )2∑i =1n(y i -y )2这意味着在线性回归模型中,预报变量的1个单位的变化,需要由解释变量贡献∑i =1n(y ^i -y )2∑i =1n(y i -y )2,由残差变量贡献∑i =1n(y i -y ^i )2∑i =1n(y i -y )2,因此在线性回归模型中,我们说预报变量y的变化中的100×∑i =1n(y ^i -y )2∑i =1n(y i -y )2%是由解释变量x 所引起的,或者说解释变量x 可以解释预报变量y 的100×∑i =1n(y ^i -y )2∑i =1n(y i -y )2%的变化.又∑i =1n(y ^i -y )2∑i =1n(y i -y )2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2=R 2,即R 2=∑i =1n(y ^i -y )2∑i =1n(y i -y )2,这说明“预报变量y 的变化中的百分之100R 2是由解释变量x 所引起的,或者说解释变量x 可以解释预报变量y 的百分之100R 2的变化.因此,R 2越大拟合效果越好,反之越小.(设计者:杨雪峰)。
人教新课标版数学高二-选修2-3导学案 3.1回归分析的基本思想及其初步应用
3.1回归分析的基本思想及其初步应用导学案周;使用时间17 年 月 日 ;使用班级 ;姓名(配合配套课件、限时练使用效果更佳)【学习目标】1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤.【检查预习】预习相应课本,完成导学案“自主学习”部分,准备上课回答. 【自主学习】知识点一 线性回归模型思考 某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:1.函数关系是一种__________关系,而相关关系是一种____________关系. 2.回归分析是对具有________关系的两个变量进行统计分析的一种常用方法.3.对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计公式分别为b ^=____________=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=________,其中________称为样本点的中心.4.线性回归模型y =bx +a +e ,其中a 和b 是模型的未知参数,e 称为__________,自变量x 称为____________,因变量y 称为____________. 知识点二 线性回归分析具有相关关系的两个变量的回归直线方程y ^=b ^x +a ^. 思考1 预报变量y ^与真实值y 一样吗?思考2 预报值y ^与真实值y 之间误差大了好还是小了好?1.残差平方和法(1)e ^i =y i -y ^i =y i -b ^x i -a ^(i =1,2,…,n )称为相应于点(x i ,y i )的残差. (2)残差平方和 i =1n(y i -y ^i )2越小,模型拟合效果越好.2.残差图法残差点______________落在水平的带状区域内,说明选用的模型比较合适,其中这样的带状区域宽度________,说明模型的精确度越高. 3.利用相关指数R 2刻画回归效果其计算公式为:R 2=1-________________,其几何意义:________________,表示回归效果越好. 知识点三 建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性相关关系等). (3)由经验确定回归方程的类型(如观察到数据呈线性相关关系,则选用线性回归方程y ^=b ^x +a ^).(4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出结果后分析残差图是否有异常,若存在异常,则检查数据是否有误或模型是否合适等.【合作探究】类型一 求线性回归方程例1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.(相关公式:b ^=∑i =1nx i y i -n x ·y∑i =1nx 2i -n x2,a ^=y -b ^x )类型二 线性回归分析例2 假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求相关指数R 2,并说明残差变量对有效穗的影响占百分之几?类型三 非线性回归分析 例3 下表为收集到的一组数据:(1)作出x 与y (2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预报x =40时y 的值.【学生展示】探究点一、二【教师点评】探究点三及【学生展示】出现的问题【当堂检测】1.关于回归分析,下列说法错误的是()A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B.线性相关系数可以是正的也可以是负的C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关D.样本相关系数r∈(-1,1)2.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是()A.①②B.①③C.②③D.③④3.下表是x和y之间的一组数据,则y关于x的回归直线必过()x 123 4y 1357A.点(2,3)C.点(2.5,4) D.点(2.5,5)4.已知x、y之间的一组数据如下表:x 012 3y 1357(1)分别计算:x、y、x1y1+x2y2+x3y3+x4y4、x21+x22+x33+x24;(2)已知变量x与y线性相关,求出回归方程.【小结作业】作业:本节限时练。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》知识讲解
3.1 回归分析的基本思想及其初步应用问题导学一、求线性回归方程活动与探究1(1)画出散点图;(2)y 与x 是否具有线性相关关系?若有,求出其回归方程.迁移与应用1.(2013海南海口模拟)在一次试验中,测得(x ,y )的四组值分别是A (1,2),B (2,3),C (3,4),D (4,5),则y 与x 之间的回归直线方程为( )A .y ^=x +1 B .y ^=x +2C .y ^=2x +1 D .y ^=x -12.某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x (x 取整数)元与日销售量y(1)y与x(方程的斜率精确到个位)(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.(1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.(2)求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.二、线性回归分析活动与探究2(1)(2)求出线性回归方程;(3)作出残差图,并说明模型的拟合效果;(4)计算R2,并说明其含义.迁移与应用1根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元2且知x 与y“相关指数R 2、残差图”在回归分析中的作用:(1)相关指数R 2是用来刻画回归效果的,由R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2可知R 2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.三、非线性回归分析活动与探究3(1)作出x与(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.迁移与应用1.在彩色显影中,由经验知形成染料光学密度y与析出银的光学密度x由公式y=e b xA(b2试建立y 与x 之间的回归方程.非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.答案: 课前·预习导学 【预习导引】1.(1)确定性 非确定性 (2)相关 (3)∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=1221ni ii nii x y nx yxnx==--∑∑ y -b ^x样本点的中心 (4)随机误差 解释变量 预报变量预习交流1 D2.y i -bx i -a y i -y ^i y i -b ^x i -a ^3.1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2解释变量 预报变量 1预习交流2 提示:散点图可以说明变量间有无线性相关关系,只能粗略地说明两个变量之间关系的密切程度,而相关指数R 2能精确地描述两个变量之间的密切程度.预习交流3 提示:(1)回归方程只适用于所研究的样本的总体. (2)所建立的回归方程一般都有时间性.(3)样本的取值范围会影响回归方程的适用范围.(4)不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.课堂·合作探究 【问题导学】活动与探究1 思路分析:画出散点图,观察图形的形状得x 与y 是否具有线性相关关系.把数值代入回归系数公式求回归方程.解:(1)由表画出散点图,如图所示.(2)从上图可看出,这些点基本上散布在一条直线附近,可以认为x 和y 线性相关关系x =6.85,y =157.25.∴b ^=81822188i ii ii x yx yxx ==--∑∑=8 764.5-8×6.85×157.25382.02-8×6.852≈22.17, a ^=y -b ^x =157.25-22.17×6.85≈5.39, 故线性回归方程为y ^=22.17x +5.39.迁移与应用 1.A 解析:方法一:x =1+2+3+44=52,y =2+3+4+54=72.故b ^= ⎝⎛⎭⎫1-52⎝⎛⎭⎫2-72+⎝⎛⎭⎫2-52⎝⎛⎭⎫3-72+⎝⎛⎭⎫3-52⎝⎛⎭⎫4-72+⎝⎛⎭⎫4-52⎝⎛⎭⎫5-72⎝⎛⎭⎫1-522+⎝⎛⎭⎫2-522+⎝⎛⎭⎫3-522+⎝⎛⎭⎫4-522=⎝⎛⎭⎫322+⎝⎛⎭⎫122+⎝⎛⎭⎫122+⎝⎛⎭⎫322⎝⎛⎭⎫322+⎝⎛⎭⎫122+⎝⎛⎭⎫122+⎝⎛⎭⎫322=1, a ^=y -b ^x =72-52=1.因此,y ^=x +1,故选A .方法二:也可由回归直线方程一定过点(x ,y ),即⎝⎛⎭⎫52,72,代入验证可排除B ,C ,D .故应选A .2.解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.设回归直线为y ^=b ^x +a ^,由题知x =42.5,y =34, 则求得b ^=∑i =14(x i -x )(y i -y )∑i =14(x i -x )2=-370125≈-3. a ^=y -b ^x =34-(-3)×42.5=161.5.∴y ^=-3x +161.5. (2)依题意有P =(-3x +161.5)(x -30) =-3x 2+251.5x -4 845=-3⎝⎛⎭⎫x -251.562+251.5212-4 845.∴当x =251.56≈42时,P 有最大值,约为426.即预测销售单价为42元时,能获得最大日销售利润. 活动与探究2 思路分析:先画出散点图,确定是否具有线性相关关系,求出回归方程,再求出残差,确定模型的拟合的效果和R 2的含义.解:(1)作出该运动员训练次数(x )与成绩(y )之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)x =39.25,y =40.875,∑i =18x 2i =12 656,∑i =18y 2i =13 731,∑i =18x i y i =13 180,∴b ^=∑i =18(x i -x )(y i -y )∑i =18(x i -x )2=∑i =18x i y i -8x y∑i =18x 2i -8x2≈1.041 5,a ^=y -b ^x =-0.003 875, ∴线性回归方程为 y ^=1.041 5x -0.003 875. (3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适. (4)计算得相关指数R 2≈0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.迁移与应用 1.B 解析:∵a ^=y -b ^x =49+26+39+544-9.4×4+2+3+54=9.1,∴回归方程为y ^=9.4x +9.1.令x =6,得y ^=9.4×6+9.1=65.5(万元).2.解:x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,521ii x=∑=142+162+182+202+222=1 660, 521ii y=∑=122+102+72+52+32=327,∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,∴b ^=51522155i ii ii x y x yxx ==--∑∑=620-5×18×7.41 660-5×182=-4640 =-1.15.∴a ^=7.4+1.15×18=28.1,∴回归直线方程为y ^=-1.15x +28.1.∴∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R 2=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2≈0.994.故R 2≈0.994说明拟合效果较好.活动与探究3 思路分析:先由数值表作出散点图,然后根据散点的形状模拟出近似函数,进而转化为线性函数,由数值表求出回归函数.解:(1)作出散点图如图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线21ec xy c =的周围,其中c 1,c 2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a ,a =ln c 1,b =c 2的周围,这样就可以利用线性回归模型来建立y 与x 之间的求得回归直线方程为z =0.272x -3.849, ∴y ^=e 0.272x -3.849.迁移与应用 1.$0.151.73e xy -= 解析:由题给的经验公式y =e b xA ,两边取自然对数,便得ln y =ln A +b x .与线性回归直线方程相对照,只要取u =1x,v =ln y ,a =ln A ,就有v=a +bu ,这是v 对u 的线性回归方程.对此我们已经掌握了一套相关性检验,求a 与回归系数b 的方法.题目所给数据经变量置换u =1,v =ln y 变成如下表所示的数据:|r |故v 与u 之间具有很强的线性相关关系,求回归直线方程是有意义的.由表中数据可得b ^≈-0.15,a ^≈0.55, 即v ^=0.55-0.15u .把u 与v 换回原来的变量x 与y ,即u =1x ,v =ln y ,故ln y ^=0.55-0.15x ,即y ^=0.150.55ex-=e 0.550.15ex-≈0.151.73ex-.这就是y 对x 的回归曲线方程. 2.解:画出散点图如图所示.根据散点图可知y 与x 近似地呈反比例函数关系,设y =k x ,令t =1x,则y =kt所以t =1.55,y =7.2.所以b ^=∑i =15t i y i -5t y∑i =15t 2i -5t2≈4.134 4,a ^=y -b ^t ≈0.8.所以y ^=4.134 4t +0.8. 所以y 与x 的回归方程是y ^=4.134 4x+0.8. 当堂检测1.(2012湖南高考,理4)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg答案:D 解析:D 选项中,若该大学某女生身高为170 cm ,则可断定其体重约为0.85×170-85.71=58.79(kg).故D 不正确.2则y 对x A .y =x -1 B .y =x +1C .y =88+12x D .y =176 答案:C 解析:法一:由线性回归直线方程过样本中心(176,176),排除A ,B 答案,结合选项可得C 为正确答案.法二:将表中的五组数值分别代入选项验证,可知y =88+12x 最适合. 3.在两个变量y 与x 的回归模型中,分别选择了4个不同的模型.通过计算得R 2的值如下,其中拟合效果最好的模型是( )A .模型1的R 2为0.98B .模型2的R 2为0.80C .模型3的R 2为0.50D .模型4的R 2为0.25答案:A 解析:R 2越接近于1,则该模型的拟合效果就越好,精度越高.4.若对于变量y 与x 的10组统计数据的回归模型中,R 2=0.95,又知残差平方和为120.53,那么101i =∑(y i -y )2的值为______.答案:2 410.6 解析:依题意有0.95=1-1021120.53()ii y y =-∑,所以1021()ii yy =-∑=2 410.6.5)有如下的统计数据.若由此资料可知y (1)回归直线方程; 答案:解:于是51522215112.35451.2390545i ii ii x y x ybxx ==--⨯⨯===-⨯-∑∑$,$a=y -bx $=5-1.23×4=0.08, 所以回归直线方程为$y =bx$+$a =1.23x +0.08. (2)估计使用年限为10年时,维修费用为多少? 答案:当x =10时,$y =1.23×10+0.08=12.38(万元),估计使用10年时的维修费用为12.38万元.。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》课前导引
3.1 回归分析的基本思想及其初步应用课前导引问题导入函数关系是一种确定性关系,而相关关系则是一种非确定性关系.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.本节我们将在数学3模块的基础上进一步讨论回归分析的基本思想及初步应用.知识预览1.样本点的中心对于一但具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),我们知道其回归方程的截距和斜率的最小二乘估计公式分别有:x b y aˆˆ-= b ˆ=∑∑==---n i i n i i i x xy y x x 121)())(( 其中∑==ni i x n x 11 ∑==ni i y n y 11 (y ,∞)称为____________注:回归直线过样本点的中心.2.线性回归模型y=bx+a+e这里a 和b 为模型的未知参数,e 是y 与y =bx+a 之间的误差.通常e 为随机变量,称为随机误差,它的均值E (e )=0,方差D (e )=σ2>0.这样线性回归模型的完整表达式为: ⎩⎨⎧==++=2)(,0)(σe D e E e a by y (3) 说明:在线性回归模型(3)中,随机误差e 的方差σ2越小,通过回归直线y =bx+a 预报真实值y 的精度越高.随机误差是引起预报值yˆ与真实值y 之间的误差的原因之一,其大小取决于随机误差的方差.另一方面,由于公式(1)和(2)中aˆ和b ˆ为截距和斜率的估计值,它们与真实值a 和b 之间也存在误差,这种误差是引起预报值yˆ与真实值y 之间误差的另一个原因. 3.残差(residual)i e ˆ=y i -i y ˆ=y i -i x b ˆ-a ˆ,i=1,2,…,n,i eˆ称为相应于点(x i ,y i )的残差.类比样本方差估计总体方差的思想,可以用2ˆσ= ∑=-=-n i i Q n e n 1221ˆ21(a ˆ,b ˆ)(n >2)作为σ2的估计量,其中a ˆ和b ˆ由公式(1)(2)给出,Q (a ˆ,b ˆ)称为残差平方和(residual sum of squares).可以用2ˆσ衡量回归方程的预报精度.通常,2ˆσ越小,预报精度越高. 4.残差分析在研究两个变量间的关系时,首先要根据散点图来精略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差 1ˆe,2ˆe ,…,n e ˆ 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.5.残差图我们可以利用图形来分析残差特性.作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.下图是以样本编号为横坐标的残差图.从图中可以看出,第1个样本点和第6个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.另外,我们还可以用相关指数R 2来刻画回归的效果,其计算公式是:R 2=1-∑∑==--ni i n i i i y y y y 1212)()ˆ(. 显然,R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率.R 2越接近于1,表示回归的效果越好(因为R 2越接近于1,表示解释变量和预报变量的线性相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析,也可以通过比较几个R 2,选择R 2大的模型作为这组数据的模型.6.建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量的散点图,观察它们之间的关系(如是否存在线性关系等);(2)画出确定好的解释变量和预报变量,哪个变量是预报变量;(3)由经验确定回归方程的类型(如我们观察到数据呈现线性关系,则选用线性回归方程y=bx+a);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等);若存在异常,则检查数据是否有误,或模型是否合适等.7.比较拟合效果的基本步骤对于给定的样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),两个含有未知参数的模型)1(y =f(x,a)和)2(y =g(x,b),其中a 和b 都是未知参数.可以按如下的步骤来比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程)1(ˆy=f(x,a ˆ)与)2(ˆy =g(x,b ˆ),其中a ˆ和b ˆ分别是参数a 和b 的估计值;(2)分别计算两个回归方程的残差平方和)ˆ(ˆ1)1()1(∑=-=n i i i y y Q 2与21)2()2()ˆ(ˆ∑=-=ni i i y y Q ;(3)若)2()1(ˆˆQ Q<,则)1(ˆy =f(x,a ˆ)的效果比)2(ˆy =g(x,b ˆ)的好;反之, )1(ˆy =f(x,a ˆ)的效果不如)2(ˆy=g(x, b ˆ)的好.。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》目标导引
3.1 回归分析的基本思想及其初步应用一览众山小三维目录1.通过收集现实问题中的两个有关联变量的数据作出散点图,并能利用散点图直观认识两变量的相关关系.通过对典型案例的探究,进一步了解回归的基本思想、方法及初步应用.2.通过对案例的分析,学会对数据的收集、整理和分析,增强社会实践能力,提高解决问题的能力.学法指导本节内容较为抽象,在学习前应先对抽样方法、数据的收集处理、回归直线方程、用样本估计总体等知识进行复习.本节的学习一定要注重对案例的分析,要通过一些具体的实例来理解分析的方法及应用,再应用到实际问题中.同时要理论联系实际,以起到加深理解,帮助接受的作用.诱学导入在实际问题中我们常常会遇到多个变量同处于一个过程之中,它们互相联系、互相制约.有的变量之间有完全确定的函数关系,例如电压U、电阻R与电流强度之间有关系式:U=IR,在圆面积S与半径R之间有关系式S=πR2.另外还有一些变量,它们之间也有一定的关系,然而这种关系并不完全确定,例如正常人的血压与年龄有一定关系,一般讲年龄大的人血压相对会高一些,但它们之间的关系就不能用一个确定的函数关系式表达出来.回归分析是对具有相关关系的两个变量统计分析的一种常用方法.相关关系又分线性相关关系和非线性相关关系.一般地,把两个变量分为解释变量x与预报变量y,作出散点图,从点的分布特征来判定是否线性相关.若线性相关,可能利用回归直线方程来解决相关的实际问题.问题:从上述材料知道,判断两个变量是否线性相关的关键是做散点图,并观察所给的数据列成的点是否在一条直线的附近来判定.那么,如果作图不准,出现误差怎么办?怎么样更好地判定两个变量相关关系的强弱?导入:通过散点图作相关性检验,由于它直观方便,所以对解决相关性检验问题比较常用,但在作图中,由于存在误差,有时很难说这些点是不是分布在一条直线的附近,这时就很难判定两个变量之间是否具有相关关系.因此单纯的由散点图判断主观性太强.出现这种情况时,我们通常在回归分析时用相关系数r来检验两个变量间相关关系的强弱.公式及公式的应用就是本节重要内容之一.。
高中人教A数学选修2-3学案:3.1 回归分析的基本思想及其初步应用 含答案
第三章统计案例,你坐过火车、乘过飞机吗?晕车、晕机与性别有无关系?肺癌是人类的一大杀手,吸烟与患肺癌的关联性究竟有多大?你了解过你们班同学的身高与体重吗,身高与体重是否线性相关?你统计过你们班同学的考试成绩吗,物理成绩的高低与数学成绩关联度有多大?……这些都是统计学研究的内容.本章我们将要学习独立性检验和回归分析的基本思想、方法.学习本章要注意学习收集、整理、分析数据的方法,体会统计分析的基本思想、建模思想和现代计算技术在统计中的应用,体会统计思维和确定性思维的差异.3.1回归分析的基本思想及其初步应用自主预习·探新知情景引入2019年6月17日四川宜宾发生6.1级地震,此后40分钟内连发四次余震,最高震级5.1级,此次地震余震频繁而且震级还高,你知道地震的震级与地震次数之间有什么关系吗?新知导学一、回归直线方程1.回归分析是处理两个变量之间__相关关系__的一种统计方法.若两个变量之间具有线性相关关系,则称相应的回归分析为__线性回归分析__.2.回归直线方程为y^=b^x+a^,其中b^=__∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2__a^=__y-b^x,__(x,y)__称为样本点的中心.3.线性相关关系强与弱的判断:用__相关系数r__来描述线性相关关系的强弱.对于变量x、y随机抽取到的n对数据(x1,y1)、(x2,y2)、…、(x n,y n),其相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2=∑i=1nx i y i-n x y(∑i=1nx2i-n x2)(∑i=1ny2i-n y2).当r>0时,表明两个变量__正相关__;当r<0时,表明两个变量__负相关__.r的绝对值越接近1,表明两个变量的线性相关性越__强__;r的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常当|r|大于__0.75__时,认为两个变量有很强的线性相关关系.二、线性回归分析1.随机误差(1)随机误差的概念:当样本点散布在某一条直线的附近,而不是在一条直线上时,不能用一次函数y=bx+a来描述两个变量之间的关系,而是用线性回归模型__y=bx+a+e__来表示,这里__x__称为解释变量,__y__称为预报变量,__e__称为随机误差,E(e)=__0__,D(e)=__σ2__.(2)随机误差及其产生的原因从散点图中我们可以看到,样本点散布在某一条直线附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,我们用下面的线性回归模型来表示:y=bx +a+e,其中a、b为模型的未知数,e称为随机误差.产生随机误差的主要原因有以下3个方面:①用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型是什么)所引起的误差.可能存在非线性的函数能更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.这种由模型近似所引起的误差包含在e 中.②忽略了某些因素的影响.影响变量y 的因素不只变量x ,可能还包括其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),它们的影响都体现在e 中.③观测误差.由于测量工具等原因,导致y 的观测值产生误差(比如一个人的体重是确定的数,但由于测量工具的影响和测量人技术的影响可能会得到不同的观测值,与真实值之间存在误差),这样的误差也包含在e 中.2.残差对于样本点(x 1,y 1)、(x 2,y 2)、…、(x n ,y n ),其回归方程为y ^=b ^x +a ^,用y ^作为回归模型⎩⎪⎨⎪⎧y =bx +a +e E (e )=0,D (e )=σ2中bx +a 的估计值,随机误差e i =y i -bx i -a 的估计值e ^i =__y i -b ^x i -a ^__(i =1,2,…,n ),称为相应于点(x i ,y i )的残差.3.残差图以__残差__为纵坐标,__样本编号__(或身高数据,或体重的估计值等)为横坐标作出的图形,称为残差图.4.在线性回归模型中,R 2表示解释变量对预报变量变化的__贡献率__.R 2越接近于1,表示解释变量和预报变量的线性相关性越强;反之,R 2越小,说明随机误差对预报变量的效应越大.相关指数R 2的计算公式是R 2=1-∑ni =1 (y i -y ^i )2∑ni =1 (y i -y)2.R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果(即回归效果)越__好__. 在含有一个解释变量的线性模型中,R 2恰好等于__相关系数r __的平方.预习自测1.在对两个变量x ,y 进行线性回归分析时,有下列步骤: ①对所求出的回归直线方程作出解释; ②收集数据(x i ,y i ),i =1,2,…,n ; ③求线性回归方程; ④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可行性要求能够作出变量x ,y 具有线性相关的结论,则在下列操作顺序中正确的是( D )A .①②⑤③④B .③②④⑤①C .②④③①⑤D .②⑤④③①[解析] 对两个变量进行回归分析时,首先收集数据(x i ,y i ),i =1,2,…,n ;根据所搜集的数据绘制散点图. 观察散点图的形状,判断线性相关关系的强弱, 求相关系数,写出线性回归方程, 最后依据所求出的回归直线方程作出解释; 故正确顺序是②⑤④③①, 故选D .2.(2020·南充模拟)已知变量x 与变量y 之间具有相关关系,并测得如下一组数据:则变量x 与y A .y ^=0.7x -2.3 B .y ^=-0.7x +10.3 C .y ^=-10.3x +0.7 D .y ^=10.3x -0.7[解析] 根据表中数据,得; x =14(6+5+10+12)=334,y =14(6+5+3+2)=4,且变量y 随变量x 的增大而减小,是负相关,所以,验证x =334时,y ^=-0.7×334+10.3≈4,即回归直线y ^=-0.7x +10.3过样本中心点(x ,y ). 故选B .3.(2020·武汉高二检测)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:通过计算得到回归方程为y ^=0.577x -0.448,利用这个方程,我们得到年龄37岁时体内脂肪含量为20.90%,那么数据20.90%的意义是( D )A .某人年龄37岁,他体内脂肪含量为20.90%B .某人年龄37岁,他体内脂肪含量为20.90%的概率最大C .某人年龄37岁,他体内脂肪含量的期望值为20.90%D .20.90%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计 [解析] 利用回归方程y ^=0.577x -0.448, 可得x =37时,y ^=20.901,即到年龄37岁时体内脂肪含量约为20.90%,故20.90%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计, 故选D .4.为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2,已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( A )A .l 1和l 2有交点(s ,t )B .l 1与l 2相交,但交点不一定是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合[解析] 由题意知(s ,t )是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心,故选A .5.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据 得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( D )A .y =a +bxB .y =a +bx 2C .y =a +b e xD .y =a +b ln x[解析] 由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y 和温度x 的回归方程类型的是y =a +b ln x .故选D .互动探究·攻重难互动探究解疑 命题方向❶变量间的相关性检测典例1 关于两个变量x 和y 的7组数据如下表所示:x 21 23 25 27 29 32 35 y711212466115325试判断y 与x 是否线性相关.[解析] x -=17(21+23+25+27+29+32+35)≈27.4,y -=17(7+11+21+24+66+115+325)≈81.3,∑i =17x 2i =212+232+252+272+292+322+352=5 414, ∑i =17x i y i =21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542.∑i =17y 2i =72+112+212+242+662+1152+3252=124 393, ∴r =∑i =17x i y i -7x -y-(∑i =17x 2i -7x 2)(∑i =17y 2i -7y 2)=18 542-7×27.4×81.3(5 414-7×27.42)×(124 393-7×81.32)≈2 948.663 520.92=0.863 9.由于r =0.863 9>0.75,∴x 与y 具有线性相关关系.『规律总结』 变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确的判断相关的程度.┃┃跟踪练习1__■现随机抽取了我校10名学生在入学考试中的数学成绩(x )与入学后的第一次考试数学成绩(y ),数据如下表:学生号1 2 3 4 5 6 7 8 9 10 x 120 108 117 104 103 110 104 105 99 108 y 84648468696869465771请问:这10个学生的两次数学考试成绩是否具有显著的线性相关关系? [解析] x -=110(120+108+…+99+108)=107.8,y -=110(84+64+…+57+71)=68,∑i =110x 2i =1202+1082+…+992+1082=116 584, ∑i =110y 2i =842+642+…+572+712=47 384, ∑i =110x i y i =120×84+108×64+…+108×71=73 796,所以,相关系数为 r =73 796-10×107.8×68(116 584-10×107.82)(47 384-10×682)≈0.750 6,由0.750 6>0.75知,两次数学考试成绩有显著的线性相关关系. 命题方向❷求线性回归方程典例2 某班5名学生的数学和物理成绩如表:学生学科成绩 A B C D E 数学成绩(x ) 88 76 73 66 63 物理成绩(y )7865716461(1)(2)求物理成绩y 对数学成绩x 的线性回归方程; (3)一名学生的数学成绩是96,预测他的物理成绩. [解析] (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25 054.∑i =15x 2i =882+762+732+662+632=27 174, 所以=∑i =15x i y i -5x ·y∑i =15x 2i -5x2≈0.625,=y -x ≈67.8-0.625×73.2=22.05, 所以y 对x 的回归直线方程是=0.625x +22.05.(3)当x =96时,=0.625×96+22.05≈82,即可以预测他的物理成绩是82.『规律总结』 1.散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,从图中看它们有无关系,关系的密切程度,再进行相关的回归分析.2.求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.┃┃跟踪练习2__■(2020·湖南郴州质检)为了探究车流量与PM2.5的浓度是否相关,现采集到北方某城市2016年12月份某星期星期一到星期日某一时间段车流量与PM2.5的数据如下表:时间 星期一 星期二 星期三 星期四 星期五 星期六 星期日 车流量x /万辆 1 2 3 4 5 6 7 PM2.5的浓度y (微克/立方米)28303541495662(1)由散点图知y 与x 具有线性相关关系,求y 关于x 的线性回归方程; (2)①利用(1)所求的回归方程,预测该市车流量为8万辆时PM2.5的浓度;②规定:当一天内PM2.5的浓度平均值在(0,50]内,空气质量等级为优;当一天内PM2.5的浓度平均值在(50,100]内,空气质量等级为良.为使该市某日空气质量为优或良,则应控制当天车流量在多少万辆以内?(结果以万辆为单位,保留整数.)参考公式:回归直线的方程是y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x . [解析] (1)由数据可得x =17(1+2+3+4+5+6+7)=4,y =17(28+30+35+41+49+56+62)=43,∑i =17x i y i =1372,∑i =17x 2i =140,b ^=∑i =17x i y i -7x y∑i =17x 2i -7x2=1372-1204140-112=6,a ^=y -b ^x =43-6×4=19,故y 关于x 的线性回归方程为y =6x +19.(2)①当车流量为8万辆,即x =8时,y ^=6×8+19=67.故当车流量为8万辆时,PM2.5的浓度约为67微克/立方米.②根据题意得6x +19≤100,即x ≤13.5,故要使该市某日空气质量为优或良,应控制当天车流量在13万辆以内.命题方向❸线性回归分析典例3 某运动员训练次数与训练成绩之间的数据关系如下:次数(x ) 30 33 35 37 39 44 46 50 成绩(y )3034373942464851(1)(2)求出回归方程; (3)作出残差图;(4)计算R 2,并说明运动员的训练次数对成绩的影响占百分之几.[解析] (1)作出该运动员训练次数x 与成绩y 的散点图,如图所示.由散点图可知,它们之间具有相关关系.(2)x =39.25,y=40.875,∑i =18x 2i =12 656,∑i =18x i y i =13 180,所以b ^=∑i =18(x i -x )(y i -y )∑i =18(x i -x )2≈1.041 5,a ^=y -b ^x =-0.003 875,∴回归直线方程为y ^=1.041 5x -0.003 875.(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.x y e ^=y -y ^30 30 -1.241 1 33 34 -0.365 6 35 37 0.551 4 37 39 0.468 4 39 42 1.385 4 44 46 0.177 9 46 48 0.094 9 5051-1.071 1作残差图如图所示.由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适. (4)计算相关指数R 2≈0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.『规律总结』 1.解答本类题目应先通过散点图来分析两个变量间的关系是否线性相关,再利用求回归方程的公式求解回归方程,并利用残差图或R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.2.“R 2、残差图”在回归分析中的作用:(1)R 2是用来刻画回归效果的,由R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2可知R 2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.┃┃跟踪练习3__■为研究质量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同质量的6个物体进行测量,数据如表所示:x 5 10 15 20 25 30 y7.258.128.959.9010.911.8(1)作出散点图,并求线性回归方程; (2)求出R 2; (3)进行残差分析.[解析] (1)散点图如图所示.因为x -=16×(5+10+15+20+25+30)=17.5,y -=16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i =16x 2i =2275,∑i =16x i y i =1 076.2 计算得,b ^≈0.183,a ^≈6.285, 所求线性回归方程为y ^=0.183x +6.285. (2)列表如下:y i -y ^i 0.05 0.005 -0.08 -0.045 0.04 0.025 y i -y --2.24-1.37-0.540.411.412.31所以∑i=16(y i-y^i)2≈0.013 18,∑i=16(y i-y-)2=14.678 4.所以,R2=1-0.013 1814.678 4≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系.命题方向❹非线性回归问题典例4有一测量水流的实验装置——量水堰,测得试验数据如下表:i 1234567水高h(厘米)0.7 1.1 2.5 4.98.110.213.5流量Q(升/分)0.0820.25 1.811.237.866.5134 根据表中数据,建立Q与h之间的回归方程.[思路分析]作散点图,观察确定y与x的近似函数关系,作变量替换,列出新的对应值表求出对应的线性回归方程,再作变量替换得回归方程.[解析]根据测得数据作出散点图,如图,根据已有的函数知识,可以发现样本点分布在某一条幂函数型曲线Q=αhβ(α、β是待定的正常数)①的周围.为此将Q=αhβ两边取对数,得到lg Q=βlg h+lgα②,令lg Q=y,lg h=x,于是②式可化为y=βx+lgα.这样y就是x的线性函数了.可以利用线性回归模型来建立y和x之间的线性回归方程y=bx+a(β=b,lgα=a)了.i h i Q i x i=lg h i y i=lg Q i x2i x i y i10.70.082-0.154 9-1.086 20.0240.168 32 1.10.250.041 4-0.602 10.001 7-0.024 93 2.5 1.80.397 90.255 30.158 30.101 64 4.911.20.690 2 1.049 20.476 40.724 2 58.137.80.9085 1.574 00.825 4 1.430 0610.2 66.5 1.008 6 1.822 8 1.017 3 1.838 5 7 13.5 1341.130 32.127 11.277 62.404 3∑∑i =17x i =4.022∑i =17y i =5.140 1∑i =17x 2i =3.780 7 ∑i =17x i y i =6.642先作出上面数据表,由表得到β ≈2.509 7,lg α≈-0.707 7,则α≈0.196 0.于是所得的回归方程为Q =0.193h 2.509 7.『规律总结』 1.在建立经验公式时,选择合适的函数类型是十分重要的.通常是根据实验数据,画出散点图,从中观察其变化规律,并与已知函数的图象对比,看接近于什么函数,根据实践经验来决定选取公式的类型,所选的类型是否符合实际,还需要通过实践来检验.有时候还需要选择不同的模拟函数作比较.2.如果观察散点图,发现点的分布不呈条状分布,而是与某种曲线相近,这时可选择这条曲线对应的函数作为拟合函数,作恰当变换,转化为线性函数,用线性回归模型求解.例如:①反比例函数y =a +b x 可作变换t =1x,得y =a +bt .②幂函数型y =ax b (a >0)可作变换Y =ln y ,m =ln a ,t =ln x ,则有 Y =m +bt .③指数型函数y =ka bx (a >0且a ≠1,k >0)可作变换Y =ln y ,m =ln k ,则有:Y =m +(b ln a )x ┃┃跟踪练习4__■为了研究某种细菌随时间x 的变化繁殖个数y 的变化,收集数据如下:时间x /天 1 2 3 4 5 6 繁殖个数y612254995190(1)将天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图; (2)描述解释变量与预报变量之间的关系; (3)计算残差、相关指数R 2.[解析] (1)由表中数据作散点图如下图所示.(2)由散点图看出样本点分布在一条指数函数y =c 1ec 2x 的图象的周围,其中c 1和c 2是待定系数.于是令z=ln y,则z=bx+a (a=ln c1,b=c2),因此变换后的样本点应该分布在直线z =bx+a的周围,因此可以用线性回归模型来拟合z与x的关系,则变换后的样本数据如下表:x 12345 6z 1.79 2.48 3.22 3.89 4.55 5.25由表中数据得到线性回归方程z=0.69x+1.115.因此细菌繁殖个数关于时间的回归方程为y^=e0.69x+1.115.(3)列出残差表:编号i 12345 6y^i6.0812.1224.1748.1896.06191.52y i612254995190e^i-0.08-0.120.830.82-1.06-1.52∑i=16e^2i=∑i=16(y i-y^i)2=4.8161,∑i=16(y i-y-)2=24630.1,R2=1-4.816124630.1≈0.9998.故解释变量天数对预报变量繁殖个数解释了99.98%,说明该回归模型拟合效果非常好.学科核心素养利用线性回归方程进行预报变量的估计(规律方法)利用线性回归方程可以进行预报,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制的依据.典例5(2020·福州模拟)对具有线性相关关系的变量x,y,测得一组数据如下表:x 24568y 2040607980根据上表,利用最小二乘法得它们的回归直线方程为y=10.5x+a^,据此模型来预测当x =20时,y的估计值为(C)A.210B.210.5C.211.5D.212.5[解析] 由已知得x =5,y =54,则(5,54)满足回归直线方程y ^=10.5x +a ^,解得a ^=1.5.因此y ^=10.5x +1.5,当x =20时,y ^=10.5×20+1.5=211.5.故选C .『规律总结』 已知变量的某个值去预测相应预报变量的某个值时,先求出其所满足的回归直线方程y ^=b ^x +a ^,把已知x 取某一个值代入回归方程y ^=b ^x +a ^中,从而可求出y 的估计值.┃┃跟踪练习5__■某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了4次试验,得到数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试预测加工10个零件需要的时间.参考公式:⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x2a ^=y -b ^x[解析] (1)散点图如图所示:(2)由题中表格数据得x=3.5,y =3.5,∑i =14 (x i -x )(y i -y )=3.5,∑i =14(x i -x )2=5.由公式计算得b ^=∑i =14(x i -x )(y i -y )∑i =14(x i -x )2=0.7,a ^=y -b ^x ,所以所求线性回归方程为y ^=b ^x +a ^=0.7x +1.05. (3)当x =10时,y ^=b ^x +a ^=0.7×10+1.05=8.05, 所以预测加工10个零件需要8.05小时.易混易错警示 求回归方程典例6 在一化学反应过程中,某化学物质的反应速度y (g/min)与一种催化剂的量x (g)有关,现收集了如表所示的8组数据,则y 与x 的回归方程是__y ^=e 0.1812x -0.8485__.催化剂是x (g) 15 18 21 24 27 30 33 36 化学物质反应速度y (g/min) 6830277020565350[错解] 由表中数据可得x =25.5,y=95.125,∑i =18x 2i =5580,∑i =18x i y i =24297,所以b ^=∑i =18x i y i -8x y∑i =18x 2i -8x2≈12.94,a ^=y -b ^x =-234.845.所以回归方程式为y ^=-234.845+12.94x .[辨析] 错误原因:未画散点图来确定回归类型,题中要求回归方程但不一定是回归直线方程,错解中盲目地求成了回归直线方程.防范措施:回归分析时,必须先画散点图,确定两个变量是否有关系,有什么样的关系,然后确定是哪种回归模型才能进一步求解.[正解] 根据收集的数据作散点图,如图所示.根据样本点的分布情况,可选用指数型函数模型y =c 1e c 2x =(c 1,c 2为待定的参数),令z =ln y ,则z =c 2x +ln c 1,即变换后样本点应该分布在直线z =bx +a (a =ln c 1,b =c 2)的周围,由y 与x 的数据表得z 与x 的数据表如下:x 15 18 21 24 27 30 33 36 z1.7922.0793.4013.2964.2485.3234.1745.858作出z 与x 的散点图,如图所示,由图可以看出变换后的样本点分布在一条直线附近,所以可用线性回归方程来拟合.由表中数据可得b ^≈0.181 2,a ^≈-0.848 5,故z ^=0.181 2x -0.848 5,所以y ^=e 0.181 2x -0.848 5,因此该化学物质的反应速度与催化剂的量的非线性回归方程为y ^=e 0.181 2x -0.848 5.课堂达标·固基础1.关于回归分析,下列说法错误的是( D ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,预报变量在y 轴 C .回归模型中一定存在随机误差 D .散点图能明确反映变量间的关系[解析] 用散点图反映两个变量间的关系时,存在误差.2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:A .甲B .乙C .丙D .丁[解析] 相关指数R 2越大,表示回归模型的效果越好.3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( D )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg[解析] A ,B ,C 均正确,是回归方程的性质,D 项是错误的,线性回归方程只能预测学生的体重,选项D 应改为“若该大学生某女生身高为170 cm ,则估计其体重大约为58.79 kg ”.4.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得线性回归方程y ^=bx +a 中b =-2,预测当气温为-4 ℃时,用电量的度数约为__68__.[解析] x =10,y =40,回归方程过点(x ,y ), ∴40=-2×10+a . ∴a =60.∴y ^=-2x +60.令x =-4,∴y ^=(-2)×(-4)+60=68.。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》例题与探究
典题精讲【例1】下列五个命题,正确命题的序号为_____________. ①任何两个变量都具有相关关系②圆的周长与该圆的半径具有相关关系③某商品的需求量与该商品的价格是一种非确定性关系 ④根据散点图求得的回归直线方程可能是没有意 义的⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究 思路解析:变量的相关关系是变量之间的一种近似关系,并不是所有的变量都有相关关系,而有些变量之间是确定的函数关系.例如,②中圆的周长与该圆的半径就是一种确定的函数关系;另外,线性回归直线是描述这种关系的有效的方法;如果两个变量对应的数据点与所求出的直线偏离较大,那么,这条回归直线的方程就是毫无意义的. 答案:③④⑤绿色通道:相关关系是一种不确定关系,但是它们之间也有一定的规律,根据回归分析可以对它们之间的关系进行估计.变式训练 两个变量之间的相关关系是一种 ( )A.确定性关系B.线性关系C.非线性关系D.可能是线性关系也可能不是线性关系 思路解析:变量之间的相关关系是一种非确定性的关系,如果所有数据点都在一条直线附近,那么它们之间就是一种线性相关关系,否则不是线性相关关系. 答案:D【例2】为了考察两个变量x 和y 之间的线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2.已知两个人在试验中发现对变量x 的观测数据的平均数都为s ,对变量y 的观测数据的平均数都是t ,则下列说法正确的是( )A.l 1与l 2有交点(s ,t )B.l 1与l 2相交,但交点不一定是(s ,t )C.l 1与l 2必定平行D.l 1与l 2必定重合思路解析:回归直线yˆ=a+bx 中的系数x b y a -=,所以,方程又可以写成:bx x b y y +-=ˆ.显然,当x=x 时,y=y ,所以,回归直线一定通过定点(y x .).这里的x =s,y =t,也即是说,所得回归直线方程恒过点(s ,t ),所以,l 1与l 2有交点(s ,t ),但是考虑到一般数据之间是有误差的,所以,不一定重合. 答案:A黑色陷阱:回归直线是对相关关系的一种估计关系式,由于相关关系的不确定性,实际上这些点不一定都在回归直线上.否则就会因为不理解相关关系的含义而导致错误.变式训练 “回归”一词是在研究子女的身高与父母的身高之间的遗传关系时由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y 与父亲的身高x 的回归方程y=x y 10ˆˆββ+=中,1ˆβ( ) A.在(-1,0)内 B.等于0C.在(0,1)内D.在[1,+∞)内思路解析:根据遗传的含义,子女的身高应该逐渐接近父亲的身高,也就是一种正相关关系,所以,1ˆβ应是一个正值,又子女的身高逐渐回归到父亲的身高,所以,1ˆβ<1. 答案:C【例3】要分析学生初中升学的数学成绩对高一年级数学学习有什么影响,在高一年级学生(2)对变量x 与y 进行相关性检验,如果x 与y 之间具有线性相关关系,求出一元线性回归方程;(3)若某学生入学数学成绩80分,试估计他高一期末数学考试成绩.思路分析:可以直接代入相关公式得出回归直线方程,根据方程对他高一的期末成绩进行估计.解:(1)因为101=x (63+67+…+76)=70, 101=y (65+78+…+75)=76, L xy =∑=--101))((i i iy y x x=1 894,L xx =∑=-1012)(i ix x=2 474,l yy =∑=-101)(i i y y =2 056,因此求得相关系数为r=yyxx xy i i i i i i iL L L y y x x y y x x=----∑∑∑===10121012101)()())((=0.839 789.结果说明这两组数据的相关程度是比较高的.(2)查表求得在显著水平0.05和自由度10-2=8的相关系数临界值r 0.05=0.632,因r=0.839 768>r 0.05,这说明数学入学成绩与高一期末成绩之间存在线性相关关系. 设线性回归方程为y=a+bx ,在两组变量具有显著的线性关系情况下: b=xxxy L L =0.765 56,a=x b y -=22.410 67.因此所求的线性回归方程是y=22.410 67+0.765 56x.(3)若某学生入学数学成绩为80分,代入上式可求得y≈84分,即这个学生高一期末数学成绩预测值为84分.绿色通道:回归直线是对相关关系的一种估计关系式,通过回归直线可对某些事物的发展趋势进行预报,但是要通过对其误差进行分析确定预报的可信度,这也是研究相关关系一种常用的思路.变式训练 某电器商经过多年经验发现本店每个月售出的电冰箱的台数ξ是一个随机变量,设每售出一台电冰箱,电器商获利300元,如销售不出而囤积于仓库,则每台每月需花保养费用100元,问电器商月初购进多少台电冰箱才能使自己月平均收益最大? 思路分析:首先根据已知条件建立回归直线方程,再代入相应数据即可.解:设x 为月初电器商购进的冰箱台数,只需考虑1≤x≤12的情况,设电器每月的收益为η元,则η是随机变量ξ的函数,且η=⎩⎨⎧<--≥.),(100300,,300x x x x x ξξξ电器商平均每月获益的平均数,即数学期望为 Eη=300x(P x +P x+1+…+P 12)+[300-100(x-1)]P 1+[2×300-100(x-1)]P 2+[3×300-100(x-1)]P 3+…+[300×300-100(x-1)]P n-1=325(-2x 2+38x). 由于x ∈N *,故可求出,当x=9或10,也即电器商月初购进9台或10台电冰箱时,收益最大.【例4】灯泡厂生产的白炽灯泡的寿命为ξ(单位:小时),已知ξ—N (1 000,302),要使灯泡的平均寿命为1 000小时的概率为99.7%,问灯泡的最低寿命应控制在多少小时以上? 思路分析:由于ξ服从正态分布,故应利用正态分布的性质解题. 解:因为灯泡的使用寿命ξ—N (1 000,302),故ξ在 (1 000-3×30,1 000+3×30)的概率为99.7%,即ξ在(910,1 090)内取值的概率为99.1%,故灯泡的最低使用寿命应控制在910小时以上.绿色通道:正态分布是一种很常见的分布规律,要解决此类问题要理解正态分布的性质并加以应用.变式训练 假设某次数学考试成绩ξ服从正态分布N (70,102).已知第100名的成绩是60分,求第20名的成绩约是多少分?思路分析:由于成绩服从正态分布,故分数落在某范围内的概率可用两种方法即Φ函数或人数比来进行计算.解:由题意可知:P(ξ≥60)=1-P(ξ<60)=1-Φ(107060-)=1-Φ(-1)=-0.841 3,这说明数学成绩在60分和60分以上的考生(共100名)在全体考生中占84.13%,因此,考生总数大致为8413.0100≈119名,故前20名考生在全体考生中的比率大约为11920≈0.168 1.设t 为第20名考生的成绩,则有P(ξ≥t)=1-Φ(1070-t )≈0.831 9,经查表得1070-t ≈0.96,于是,第20名学生的数学成绩约为79.6分.问题探究问题1:相关系数是相关分析中的主要参数,那么怎样理解它的意义呢?导思:相关系数是反映相关关系的一个重要因素,体现了回归方程与实际观测值的密切程度,也即是根据回归方程预报结果的准确程度,因此,是线性回归模型中一个重要的参数. 探究:假设对两个相关变量X 和Y 作了n 次观测,得到n 对数据:(X 1,Y 1),(X 2,Y 2),…,(X n ,Y n ),如果把它们描在坐标图上即得散点图,借助散点图可以观察到X 和Y 或者同升,或者同降,或者一升一降的共同变化趋势,也即相关关系.相关分析是用相关系数来表示两个变量间相互的直线关系,并判断其密切程度的统计方法.相关系数没有单位.在-1—+1范围内变动,其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切.相关系数若为正,说明一变量随另一变量增减而增减,方向相同;若为负,表示一变量增加、另一变量减少,即方向相反,但它不能表达直线以外(如各种曲线)的关系.问题2:怎样理解回归分析的基本思想?回归分析有哪些实际的应用?导思:回归分析涉及统计学知识、建立数学模型的思路与方法,体现了数学研究问题的规律,无论从情感价值还是数学本身的思维意识,都能使我们有一个全面的提高,是高中教材中极有价值的知识点.除此之外,回归分析在生产实践中也有极为广泛的应用,是数学应用能力的一种体现.探究:回归分析是统计学中一种重要的方法,体现了统计的基本思想,研究如何从样本的统计性质去推测相应总体的统计性质,即如何根据样本去探求有关总体的规律性.首先,从所收集的数据的特点,找出一条最接近的直线方程,即线性回归方程,而把其他一些不具有线性回归关系的数据用一种线性回归方程进行拟合,给出数据之间类似函数的一种关系,体现了从特殊到一般的基本思路,使对不确定关系的预报成为一种可能,进而分析预报的准确度,通过对误差的分析让我们理解回归方程所具有的可信度.回归分析的基本思想不仅体现了统计的基本思想,还提供了建立数学模型的一种基本方法,加深我们对数学应用能力的认识.而回归分析本身可以总结很多数学或者生产与生活实际中的规律,比如人的身高与体重的关系、水稻的产量与施肥量的关系等,加深我们对自然规律的认识,指导生产与实践,帮助我们改善自然,更好地为人类服务.。
高中数学选修2-3课后限时训练9 回归分析的基本思想
高中数学选修2-3课后限时训练9回归分析的根本思想及其初步应一、选择题I.某商品的销售额),(万元)与广告费用M万元)之间的关系统计数据如下表:A A A A =9.4,据此估计核商品广告费用为6万元时销售额约为()A.63.6万元B. 64.2万元C. 65.1万元D. 65.5万元—7 — A 7 A解析:由题意得尤=万,y =42, .•.0=42—9.45=9.1,「・当尤=6 时,y=9.1+9.4x6=65.5,应选 D.答案:D2.在线性回归模型中,分别选择了4个不同的模型,它们的相关指数F依次为0.36,0.95,0.74,0.81, 其中回归效果最好的模型的相关指数R2为()A. 0.36B. 0.74C. 0.81D. 0.95解析:在回归模型中,炉的值越接近1,它的拟合效果越好,应选D.答案:D3.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算A 得丫=0.57女一0.448(工为人的年龄,),为人脂肪含量).对年龄为37岁的人来说,下面说法正确的选项是()A.年龄为37岁的人体内脂肪含量都为20.90%B.年龄为37岁的人体内脂肪含量都为21.01%C.年龄为37岁的人群中的大局部人的体内脂肪含量为20.90%D.年龄为37岁的大局部的人体内脂肪含量为31.5%A解析:当x=37 时,y=0.577x37 -0.448=20.90.A由于回归方程得到的),值只是近似的,所以C正确.答案:C4.某研究机构在对线性相关的两个变量x和),进行统计分析时,得到如下数据:A A由表中数据求得),关于工的回归方程为),=0.65x+〃,那么在这些样本点中任取一点,该点落在回归直线下方的概率为()2 3 A- 5 B- 5C 3D >42---------- AA A解析:依题意得,x =8, y =34代入y=0.65x+o,得。
=—1.8,A...),=0.65x —1.8.表内的五个点中,点(6,2), (8,3)落在回归直线的下方, 2 ..•所求概率P=f,应选A. 答案:A5. 某化工厂为预测某产品的回收率y,需要研究它和原料有效成分含量之间的相关关系,现取了 8对8 B 8 R观测值,计算得£为=52, £月=228, £.=478, £秽尸1 849,那么),与x 的线性回归方程是()AAA. y= 11.47 + 2.62tB. 尸一 11.47+ 2.62》A A解析:由题中数据得7=6.5, 7=28.5,A —— A ------------------a= y -b x =28.5-2.62x6.5 = 11.47,A所以),与A -的线性回归方程是y=2.62i+11.47.应选A. 答案:A 二、填空题6. 某种活性细胞的存活率),(%)与存放温度x(°C)之间具有线性相关关系,样本数据如下表所示:经计算得回归直线方程的斜率为一3.2,假设存放温度为6 °C,那么这种细胞存活率的预报值为 _______ %.AA解析:依题意,设回归直线方程为),=一3.处+。
人教新课标版数学高二-选修2-3练习 3.1回归分析的基本思想
第三章 3.1一、选择题(每小题5分,共20分) 1.有下列说法:①残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ②用相关指数R 2来刻画回归的效果,R 2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是( ) A .0 B .1 C .2D .3解析: 对于①,正确,并且带状区域宽度越窄,说明拟合的精度越高,回归方程的预报精度越高.对于②③,R 2越大,残差平方和越小,说明模型的拟合效果越好,故②③正确.答案: D2.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时,销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元解析: 由表可计算x =4+2+3+54=72,y =49+26+39+544=42,因为点⎝⎛⎭⎫72,42在回归直线y ∧=b ∧x +a ∧上,且b ∧为9.4,所以42=9.4×72+a ∧,解得a ∧=9.1,故回归方程为y ∧=9.4x +9.1,令x =6得y ∧=65.5,故选B. 答案: B3.工人月工资y (单位:元)关于劳动生产率x (单位:千元)的回归方程y ∧=650+80x ,下列说法中正确的个数是( )①劳动生产率为1 000元时,工资为730元; ②劳动生产率提高1 000元,则工资提高80元; ③劳动生产率提高1 000元,则工资提高730元;④当月工资为810元时,劳动生产率约为 2 000元. A .1 B .2 C .3D .4解析: 代入方程计算可判断①②④正确. 答案: C4.甲、乙、丙、丁4位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ∧i )2如下表:甲乙丙丁散点图残差平方和115106124103A .甲B .乙C .丙D .丁解析: 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2表达式中∑i =1n(y i -y )2为确定的数,则残差平方和越小,R 2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.故选D.答案: D二、填空题(每小题5分,共10分)5.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.解析: 由相关指数R 2的意义可知,R 2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.答案: 85% 15%6.若施肥量x (kg)与小麦产量y (kg)之间的回归直线方程为y ∧=250+4x ,当施肥量为50 kg 时,预计小麦产量为________.解析: 把x =50代入y ∧=250+4x ,可求得y ∧=450.答案: 450 kg三、解答题(每小题10分,共20分)7.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y ∧=b ∧x +a ∧,其中b ∧=-20,a ∧=y -b ∧x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解析: (1)因为x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,从而a ∧=y +20x =80+20×8.5=250,故y ∧=-20x +250.(2)由题意知,工厂获得利润z =(x -4)y =-20x 2+330x -1 000=-20⎝⎛⎭⎫x -3342+361.25, 所以当x =334=8.25时,z max =361.25(元).即当该产品的单价定为8.25元时,工厂可获得最大利润.8.某种产品的广告费用支出x 与销售额y (单位:百万元)之间有如下的对应数据关系:x /百万元 2 4 5 6 8 y /百万元3040605070(1)画出散点图; (2)求线性回归方程;(3)试预测广告费用支出为10百万元时,销售额多大? 解析: (1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算:i12345合计x i 2 45 6 8 25 y i 30 40 60 50 70 250 x i y i 60 160 300 300 560 1 380 x 2i416253664145所以,x =255=5,y =2505=50,∑i =15x 2i =145,∑i =15x i y i =1 380.于是可得b ∧=∑i =15x i y i -5x y∑i =15x 2i -5x2=1 380-5×5×50145-52×5=6.5,a ∧=y -b ∧x =50-6.5×5=17.5.所以所求的线性回归方程为y ∧=6.5x +17.5.(3)根据上面求得的线性回归方程,当广告费用支出为10百万元时,y ∧=6.5×10+17.5=82.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元.(10分)假设关于某设备的使用年限x 和所支出的维修费用y (万元)有如下的统计资料:使用年限x 2 3 4 5 6 维修费用y2.23.85.56.57.0若由资料知,y 对试求:(1)线性回归方程y ∧=b ∧x +a ∧中的a ∧,b ∧的值; (2)求残差平方和; (3)求相关指数R 2;(4)估计使用年限为10年时,维修费用是多少?解析: y 对x 呈线性相关关系,转化为一元线性相关的方法,根据公式分别计算. (1)由已知数据制成下表:i 1 2 3 4 5 合计 x i 2 3 4 5 6 20 y i 2.2 3.8 5.5 6.5 7.0 25 x i y i 4.4 11.4 22 32.5 42 112.3 x 2i4916253690x =4;y =5;∑i =15x 2i =90;∑i =15x i y i =112.3于是有b ∧=112.3-5×4×590-5×4×4=1.23,a ∧=y -b ∧x =5-1.23×4=0.08,∴y ∧=1.23x +0.08.(2)求公式y ∧1=1.23×2+0.08=2.54y ∧2=1.23×3+0.08=3.77,y ∧3=1.23×4+0.08=5,y ∧4=1.23×5+0.08=6.23,y ∧5=1.23×6+0.08=7.46,e ∧1=2.2-2.54=-0.34,e ∧2=3.8-3.77=0.03,e ∧3=5.5-5=0.5,e ∧4=6.5-6.23=0.27,e ∧5=7.0-7.46=-0.46. ∴残差平方和为:(-0.34)2+0.032+0.52+0.272+(-0.46)2=0.651. (3)R 2=1-0.651(-2.8)2+(-1.2)2+0.52+1.52+22≈0.958 7.(4)回归方程y ∧=1.23x +0.08,当x =10年时,y ∧=1.23×10+0.08=12.38(万元),即估计使用10年时,维修费用是12.38万元.。
人教新课标版数学高二-人教选修2-3练习3-1-1回归分析的基本思想及应用(一)
选修2-3 3.1 第1课时一、选择题1.对于回归分析,下列说法错误的是()A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B.线性相关系数可以是正的,也可以是负的C.回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关D.样本相关系数r∈(-1,1)[答案] D2.对于线性相关系数r,下列说法正确的是()A.|r|∈(-∞,+∞),|r|越大,相关程度越大;反之,相关程度越小B.|r|≤1,r越大,相关程度越大;反之,相关程度越小C.|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小D.以上说法都不正确[答案] C3.已知某车间加工零件的个数x与所花费时间y(h)之间的线性回归方程为y^=0.01x+0.5,则加工600个零件大约需要________h.A.6.5B.5.5C.3.5D.0.5[答案] A4.设有一个回归方程为y^=2-2.5x,则变量x增加一个单位时()A.y平均增加2.5个单位B.y平均增加2个单位C.y平均减少2.5个单位D.y平均减少2个单位[答案] C5.y与x之间的线性回归方程y^=b^x+a^必定过()A.(0,0)点B.(x,0)点C.(0,y)点 D.(x,y)点[答案] D8.2009年春季,某国家HINI流感流行,该国政府采取果断措施,防治结合,很快使病情得到控制,如下表所示是5月1日至5月12日该国每天患HINI流感治愈者数据,根据这些数据绘制出的散点图如图所示.日期 5.1 5.2 5.3 5.4 5.5 5.6人数100109115118121134日期 5.7 5.8 5.9 5.10 5.11 5.12人数141152168175186203下列说法:①根据散点图,可以判断日期与人数具有线性相关关系;②根据散点图,可以判断日期与人数具有一次函数关系.其中正确的为( )A .①B .②C .①②D .以上都不对 [答案] A[解析] 由散点图知时间与人数(治愈人数)具有一定的相关关系,并不是确定性的函数关系,这种相关关系可以通过回归直线进行预测,但不能说具有一次函数关系,故A 正确.二、填空题9.(2010·江苏金陵中学)已知三点(3,10),(7,20),(11,24)的横坐标x 与纵坐标y 具有线性关系,则其线性回归方程是________.[答案] y ^=74x +234.11.已知两个变量x 和y 之间线性相关,5次试验的观测数据如下:那么变量y [答案] y ^=0.575x -14.9三、解答题13.某种产品的广告费支出x 与销售额y (单位:百万元)之间有如下对应数据:x 24568y 3040605070(1)(2)求回归直线方程.[解析](1)(2)y^=6.5x+17.514.(2007·广东)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.x 345 6y 2.534 4.5(1)(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=b^x+a^;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)[解析](1)由题设所给数据,可得散点图如图:(2)由对照数据,计算得∑i =14x 2i =86,x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数b ^=∑i =14x i y i -4x y∑i =14x 2i -4x2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y -b ^ x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y =0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,知降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).[点评] ①本题主要考查最小二乘法求线性回归方程和数据处理、运算求解能力及应用意识.②求回归直线方程的一般步骤:一检验,二系数,三方程,四预测.。
人教版高中数学选修2-3课时训练回归分析的基本思想及其初步应用
课堂练习(十七) 回归分析的基本思想及其初步应用(建议用时:60分钟)[基础达标练]一、选择题1.如图所示的是四张残差图,其中回归模型的拟合效果最好的是( )B[四张残差图中,只有选项A,B中的残差图是水平带状区域分布,且选项B中的残差点散点分布集中在更狭窄的范围内,所以选项B中回归模型的拟合效果最好.] 2.在回归分析中,相关指数R2的值越大,说明残差平方和( )A.越大B.越小C.可能大也可能小D.以上均错B[∵R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2,∴当R2越大时,∑i=1n(y i-y^i)2越小,即残差平方和越小,故选B.]3.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:x/月份1234 5y/万盒55668若x,y线性相关,线性回归方程为y=0.7x+a,估计该制药厂6月份生产甲胶囊产量为( )A.8.0万盒B.8.1万盒C .8.9万盒D .8.6万盒B [回归直线一定过样本点的中心.由已知数据可得x =3,y =6,代入线性回归方程,可得a ^=y -0.7x =3.9,即线性回归方程为y ^=0.7x +3.9.把x =6代入,可近似得y ^=8.1,故选B.]4.某化工厂为预测某产品的回收率y ,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得∑i =18x i =52,∑i =18y i =228,∑i =18x 2i =478,∑i =18x i y i =1 849,则y 与x 的线性回归方程是( )A.y ^=11.47+2.62x B.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62xA [由题中数据得x =6.5,y =28.5,∴b ^=∑i =18x i y i -8x - y-∑i =18x 2i -8x 2=1 849-8×6.5×28.5478-8×6.52=367140≈2.62, a ^=y -b ^x ≈28.5-2.62×6.5=11.47,∴y 与x 的线性回归方程是y ^=2.62x +11.47,故选A.]5.若某地财政收入x 与支出y 满足回归方程y ^=b ^x +a ^+e i (单位:亿元)(i =1,2,…),其中b ^=0.8,a ^=2,|e i |<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )A .10亿元B .9亿元C .10.5亿元D .9.5亿元C [y ^=0.8×10+2+e i =10+e i , ∵|e i |<0.5,∴9.5<y ^<10.5.] 二、填空题6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.1 [根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.] 7.对具有线性相关关系的变量x 和y ,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.y ^=-10+6.5x [由题意知x =2,y =3,b ^=6.5,所以a ^=y -b ^x =3-6.5×2=-10,即回归直线的方程为y ^=-10+6.5x .]8.已知方程y ^=0.85x -82.71是根据女大学生的身高预报她的体重的回归方程,其中x 的单位是cm ,y ^的单位是kg ,那么针对某个体(160,53)的残差是________.-0.29 [把x =160代入y ^=0.85x -82.71, 得y ^=0.85×160-82.71=53.29, 所以残差e ^=y -y ^=53-53.29=-0.29.] 三、解答题9.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x /个 2 3 4 5 加工的时间y /小时2.5344.5(1)(2)求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试预测加工10个零件需要多少时间?(注:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )[解] (1)散点图如图.(2)由表中数据得∑i =14x i y i =52.5,x =3.5,y =3.5,∑i =14x 2i =54,所以b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2=0.7,所以a ^=y -b ^x =1.05. 所以y ^=0.7x +1.05.(3)将x =10代入线性回归方程,得y ^=0.7×10+1.05=8.05,所以预测加工10个零件需要8.05小时.10.关于某设备的使用年限x 和所支出的维修费用y (万元),有如下的统计资料:x 2 3 4 5 6 y2.23.85.56.57.0若由资料可知y 对x (1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?附:a ^=y -b ^x -,b ^=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x 2[解] (1)x =2+3+4+5+65=4,y =2.2+3.8+5.5+6.5+7.05=5,∑i =15x 2i =90,∑i =15x i y i =112.3,b ^=∑i =15x i y i -5x -y-∑i =15x 2i -5x 2=112.3-5×4×590-5×42=1.23. 于是a ^=y -b ^x =5-1.23×4=0.08. 所以线性回归方程为y ^=b ^x +a ^=1.23x +0.08. (2)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即估计使用10年时维修费用是12.38万元.[能力提升练]1.甲、乙、丙、丁4位同学各自对A ,B 两变量进行回归分析,分别得到散点图与残差平方和∑i =1n (y i -y ^i )2如下表:甲 乙 丙 丁散点图残差平方和115106124103A .甲B .乙C .丙D .丁D [根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2的表达式中∑i =1n(y i -y )2为确定的数,则残差平方和越小,R 2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些,故进D.]2.为研究女大学生体重和身高的关系,从某大学随机选取8名女大学生,其身高和体重数据如下表:利用最小二乘法求得身高预报体重的回归方程为y =0.848x -85.632,据此可求得R 2≈0.64.下列说法正确的是( )A .两组变量的相关系数为0.64B .R 2越趋近于1,表示两纽变量的相关关系越强 C .女大学生的身高解释了64%的体重变化 D .女大学生的身高差异有64%是由体重引起的C [用最小二乘法求得身高预报体重的回归方程为y ^=0.848x -85.632,据此可求得R 2≈0.64,即女大学生的身高解释了64%的体重变化,而随机误差贡献了剩余的36%,故选C.]3.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =ebx+a的周围,令z ^=ln y ,求得回归直线方程为z ^=0.25x -2.58,则该模型的回归方程为________.y =e 0.25x -2.58 [因为z ^=0.25x -2.58,z ^=ln y ,所以y =e 0.25x -2.58.]4.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量x (单位:千箱)与单位成本y (单位:元)的资料进行线性回归分析,结果如下:x =72,y =71,∑i =16x 2i =79,∑i =16x i y i =1 481.则销量每增加1 000箱,单位成本下降________元.1.818 2 [由题意知b ^=1 481-6×72×7179-6×⎝ ⎛⎭⎪⎫722≈-1.818 2,a ^=71-(-1.818 2)×72≈77.36,y ^=-1.818 2x +77.36,销量每增加1千箱,则单位成本下降1.818 2元.]5.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)[解] (1)由于x =16×(8+8.2+8.4+8.6+8.8+9)=8.5,y =16×(90+84+83+80+75+68)=80.所以a ^=y -b ^x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20⎝⎛⎭⎪⎫x -3342+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.。
数学课后训练:回归分析的基本思想及其初步应用
课后训练一、选择题1.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是()A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合2.下列四个命题中正确的是( )①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.A.①③B.②④C.①④D.②③3.已知x,y取值如下表:若x,y y=0.95x+a,则a=( )A.0.325 B.2。
6C.2。
2 D.04.某学校开展研究性学习活动,某同学获得一组实验数据如下表:对于表中数据,( )A .y =2x -2B .12xy ⎛⎫= ⎪⎝⎭C .y =log 2xD .y =12(x 2-1)5.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0。
5.如果今年该地区财政收入10亿元,年支出预计不会超过( )A .10亿B .9亿C .10.5亿D .9.5亿6.某产品的广告费用x 与销售额y 的统计数据如下表:y bx a =+b 费用为6万元时销售额为( )A .63.6万元B .65。
5万元C .67.7万元D .72.0万元 二、填空题7.在研究身高和体重的关系时,求得R 2≈______,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.8.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:小李这5的方法,预测小李该月6号打6小时篮球的投篮命中率为__________.三、解答题9.恩格尔系数=食物支出金支出金额总额×100%.在我国,据恩格尔系数判定生活发展阶段的标准为:贫困:>60%,温饱:50%~60%,小康:40%~50%,富裕:<40%.据国家统计局统计显示,随着中国经济的不断发展,城镇居民家庭恩格尔系数不断下降,居民消费已从温饱型向享受型、发展型转变.如下表:(2)预报2013年的恩格尔系数;(3)求R2;(4)作出残差图.10.关于x与y有以下数据:已知x与y 6.5b ,(1)求y与x的线性回归方程;(2)现有第二个线性模型:y=7x+17,且R2=0。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课后导练
基础达标
1.工人月工资(元)依劳动生产率(千元)变化的回归方程为y-=50+80x下列判断正确的是()
(1)劳动生产率为1 000元时,工资为130元
(2)劳动生产率提高1 000元则工资提高80元
(3)劳动生产率提高1 000元则工资提高130元
(4)当月工资为210元时,劳动生产率为2 000元
A.(1)
B.(2)
C.(3)
D.(4)解析:由回归系数b的意义知,b>0时,自变量和因变量按同向变化;b<0时,自变量和因变量按反向变化.B=80,可知只有(2)正确.B
2.相关关系与函数关系的区别是____________.
答案:函数关系是两个变量之间有完全确定的关系,而相关关系是两个变量之间并没有严格的确定关系,当一个变量变化时,另一变量的取值有一定的随机性.
解析:先求出回归方程yˆ=bx+a,令yˆ=6,得x=1.5万元.
答案:1.5万元
4.假设学生在初一和初二数学成绩是线性相关的,若10个学生初一(x)和初二(y)数学分数如下:
试求初一和初二数学分数间的回归方程.
解析:因为x=71,∑2i x=50 520,y=72.3, ∑i i y x=51 467,
所以,b=
2
71
10
50520
3. 72
71
10
10
51457
⨯
-⨯
⨯
⨯
-
≈1.218 2;a=72.3-1.218 2×71=-14.192.
回归直线方程是:
yˆ=1.218 2x-14.192.
试作出该数据的散点图并由图判断可否存在回归直线,若有则求出直线方程. 解析:(图略)由图知,存在回归直线方程.
因为
x=203,∑2i x=416 824,y=64.5, ∑i i y x=132 418,
所以b=
2
203104168245
.6420310132418⨯-⨯⨯-≈0.313 3;
a=64.5-0.313 3×203=0.900 1,回归直线方程是:y
ˆ=0.313 3x+0.900 1. 综合运用
6.电容器充电后,电压达到100 V ,然后开始放电.由经验知道,此后电压U 随时间t 变化的规律用公式u=Ae bt (b <0)表示.现测得时间t(s)时的电压U (V )如下所示: t: 0 1 2 3 4 5 6 7 8 9 10
U:100 75 55 40 30 20 15 10 10 5 5 试求电压U 对时间t 的回归方程. 解析:对u=Ae bt 两边取自然对数得 lnu=lnA+bt 令y=lnu a=lnA
即ln =-0.3t+4.6 ∴u
ˆ=-0.3t+4.6 拓展探究
7.称SST=
∑=-n
i i
y y
1
2
)(为总偏差平方和,SSE=
∑=-n
i i i
y
y
1
2)ˆ(为残差平方和,SSR=
∑=-n
i i i y y 1
2
)ˆ(为回归平方和.在线性回归模型中,有
∑=-n
i i
y y
1
2
)(=∑=-n
i i i y
y 1
2
)ˆ(=∑=-n
i i i y y 1
2)ˆ(. 解释总偏差平方和、残差平方和、回归平方和以及该等式的统计含义.
解析:SST 度量y 自身的差异程度,即数据总的变动.
SSE 度量实际值与拟合值之间的差异程度,即被回归方程解释的部分.
SSR 度量因变量y 的拟合值自身的差异程度,即未被回归方程解释的部分. 统计含义:
如果x 引起的变动部分在y 的总变动中占很大比例,那么x 很好地解释了y ,否则x 不能很好地解释y.即:在总偏差平方和中,回归平方和占所占比重越大,则线性回归效果就越好,否则效果就越差. 备选习题
8.用721分光光度计在730 nm 波长处测定SiO 2含量,得以下数据(见表1) 表1 SiO 含量(x )与吸光度(y)对应关系
2解析:先根据表1数据确定线性回归方程系数a 和b 的计算数据(见表2),然后按以下算式计算a 、b 值.
y =
7
927.1=0.275 x =742
.0=0.06
b=2
2
)(1))((1
∑∑∑∑∑--i i i i i i x n x y x n y x
=2
)42.0(7
1
0364.0)
927.1)(42.0(71
1597.0--=3.94 a=bx y -=0.275-3.94×0.06=0.039
于是求得回归方程:y=0.039+3.94x
9.现随机抽取了我校10名学生在入学考试中数学成绩(x )与入学后的第一次考试数学成绩(y),
数据如下:
解析:因为x =107.8, ∑2i
x
=116 584, y =68,
∑2i
y
=47 384,
∑i
i y x =73 796,所以相关系
数为: r=
)
68104738)(8.10710116584(688.10710737962
2
⨯-⨯-⨯⨯-≈0.750 6,查表:显著性水平0.05,自由度10—2
相应的相关关系临界值r 0.05=0.602 1,由r >r 0.05知,两次数学考试成绩有显著性的线性相关
关系.。