高中数学人教A版选修2-3优化练习:第三章 3.1 回归分析的基本思想及其初步应用 含解析
【优选整合】高中数学人教A版 选修2-3 3.1.1回归分析的基本思想及其初步应用 测试(学生版)
3.1回归分析的基本思想及其初步应用(检测学生版)时间:40分钟 总分:60分班级: 姓名:一、 选择题(共6小题,每题5分,共30分)1.在对两个变量x ,y 进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释; ②收集数据(x i ,y i ),i =1,2,…,n ; ③求线性回归方程; ④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可行性要求能够作出变量x ,y 具有线性相关的结论,则在下列操作顺序中正确的是( ) A .①②⑤③④ B .③②④⑤① C .②④③①⑤ D .②⑤④③①2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ②R 2来刻画回归的效果,R 2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果, 可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好. 其中正确命题的个数是( ) A .0 B .1 C .2D .33.下图是根据变量x ,y 的观测数据(x i ,y i )(i =1,2,…,10)得到的散点图,由这些散点图可以判断变量x ,y 具有相关关系的图是( )A .①②B .①④C .②③D .③④4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A .y ^=0.4x +2.3B .y ^=2x -2.4 C .y ^=-2x +9.5 D .y ^=-0.3x +4.45.某咖啡厅为了了解热饮的销售量y (个)与气温x (℃)之间的关系,随机统计了某4天的销售量与气温,并制作了对照表:由表中数据,得线性回归方程y =-2x +a .当气温为-4 ℃时,预测销售量约为( ) A .68 B .66 C .72D .706.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元D .12.2万元二、填空题(共2小题,每题5分,共10分)7.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.8.下列说法正确的命题是________(填序号).①回归直线过样本点的中心(x ,y );②线性回归方程对应的直线y ^=b ^x +a ^至少经过其样本数据点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点; ③在残差图中,残差点分布的带状区域的宽度越宽,其模型拟合的精度越高; ④在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好. 三、解答题(共2小题,共20分)9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)10.关于x 与y 有以下数据:已知x 与y 线性相关,由最小二乘法得b ^=6.5, (1)求y 与x 的线性回归方程;(2)现有第二个线性模型:y ^=7x +17,且R 2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.。
人教版A版高中数学选修2-3:3.1 回归分析的基本思想及其初步应用
假设线性回归方程为 :yˆ bˆx aˆ
由计算器得:线性回归方程为
yˆ 19.87x 463.73
线性模型
7
Q(aˆ,bˆ) ( yi yˆi ) 2 19818.9
残差
i1
yˆ 19.87x 463.73 100
就转换为z=bx+a
21
23
25
27
29
32
35
z=lgy
0.85 1.04 1.32 1.38 1.82 2.06 2.51
产卵数y/个
7
11
21
24
66
115 325
7
7
x 27.42 z 1.569 xi zi 318.58
xi2 5414
i 1
i 1
由计算器得:
zˆ关于x的线性回归方程为 zˆ 0.118x 1.665 ,
线性回归分析
其回归直线方程 y bx a 的截距和斜
率的最小二乘法估计公式:
n
n
y bˆ =
(xi - x)(yi - y)
i=1 n
=
(xi - x)2
xi
- nxy
i
i=1
n xi2 - nx2
,
i=1
i=1
aˆ = y - bˆx
2.残差eˆ
残差平方和越
对于样本点(xi,yi)的随机误差 小精确度越高
学习目标
1、了解回归模型的选择,进一步理解非线性 模型通过变换转化为线性回归模型的方法;
2、会用残差及相关系数分析回归模型, 体会不同模型拟合数据的效果;
人教版高中数学选修2-3第三章3.1回归分析的基本思想及其初步应用
导入新课在《数学3》中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为:画散点图求回归直线方程用直线方程进行预报提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?函数关系是一种确定性关系,而相关关系是一种非确定性关系.那么,这节课我们就学习对具有相关关系的两个变量进行统计分析的一种常用方法——回归分析.1.1回归分析的基本思想及其初步应用教学目标知识目标通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.了解回归模型和函数模型的区别.任何模型只能近似描述实际问题.了解残差分析和指标R2的含义.能力目标具有初步应用回归分析的能力.情感目标通过对回归分析的基本思想的学习,能够在现实生活中应用此思想.教学重难点(1)了解线性回归模型与函数模型的差异;(2)了解判断刻画模型拟合效果的方法-相关指数和残差分析.解释残差变量的含义,了解偏差平方和分解的思想.探究对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),我们知道回归直线y=bx+a 的斜率和截距的最小二乘估计分别为ˆˆˆn i i i=1n 2i i=1(x -x)(y -y)b =,(x-x)a=y -bx,∑∑其中n ni ii=1i=111x=x,y=y,(x,y) n n∑∑称为样本点的中心,你能推导出这两个计算公式吗?回归直线过样本点的中心从已经学过的知识我们知道,斜距和斜率分别是使aˆb ˆˆi i i i Q(α,β)=y -y=y -(βx +α)取最小时的值.由于α,β∑n 2i i i=1Q(α,β)=[y -βx -(y -βx)+(y -βx)-α]n 2i i i i i=12{[y -βx -(y -βx)]+2[y -βx -(y -βx)][(y -βx)-α]+[(y -βx)-α]}⨯=∑ni i i=1ni i i=1[y -βx -(y -βx)](y -βx -α) =(y -βx -α)[y -βx -(y -βx)]∑∑注意到n ni i i=1i=1=(y -βx -α)[y -βx -n(y -βx)]∑∑=(y -βx-α)[ny -n βx-n(y -βx)]=0,n n 2i i i i i=1i=12=[y -βx -(y -βx)]+2[y -βx -(y -βx)](y -βx-α)+n(y -βx-α),∑∑继续∑n22i i i=1Q(α,β)=[y -βx -(y -βx)]+n(y -βx -α),因此∑∑∑22nn n22i i i i i=1i=1i=1=β(x -x)-2β(x -x)(y -y)+(y -y)+n(y -βx-α)⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦∑∑∑∑∑∑2nn22i i i i n2i=1i=1i nn 22i=1i i i=1i=12ni i=1(x -x)(y -y)[(x -x)(y -y)]=n(y -βx -α)+(x -x)β--(x -x)(x -x) +(y -y)继续在上式中,后两项和无关,而前两项为非负数,因此要使Q 取得最小值,当且仅当前两项的值均为0,即有∑∑nii i=1n2ii=1(x-x)(y -y)β=(x-x)这正是我们所要推导的公式.α,β例题1从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.解答第一步:画散点图020406080150155160165170175180身高/cm体重/k g第二步:求回归方程第三步:代值计算探究身高为172c m的女大学生的体重一定是60.316kg 吗?如果不是,其原因是什么?计算器得:故线性回归方程:当x=172时,0.849.b-85.712,a==ˆˆ85.712.-0.849x y=ˆˆy0.849172-85.712 60.316(kg)=⨯=020406080150155160165170175180身高/cm体重/k g显然,身高172cm 的女大学生的体重不一定是60.316kg ,但一般可以认为她的体重在60.316kg 左右,下图中的样本点和回归直线的相互位置说明了这一点.由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用线性回归模型y=bx+a+e来表示,这里a和b为模型的未知参数,e 是y与bx+a之间的误差.通常e为随机变量,称为随机误差.它的均值E(e)=0,方差D(e)=σ2>0,这样线性回归的完整表达式为y=bx+a+eE(e)=0,D(e)=σ2.注意存在误差的原因(1)随机误差,其大小取决于随机误差的方差. 在线性回归模型中,随机误差e 的方差 2越小,用bx+a 预报真实值y 的精度越高.(2)和为斜率和截距的估计值,它们与真实值a 和b 之间也存在误差.b ˆa ˆ要牢记!探究在线性回归模型中,e 是用bx+a 预报真实值y 的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?在实际应用中,我们用回归方程a ˆxb ˆyˆ+=中的估计bx+a. 由于随机误差e=y-(bx+a),所以是e 的估计值. 对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )yˆy ˆ-y eˆ=而言,它们的随机误差为e i =y i -bx i -a ,i=1,2,…,n ,其估计值为n,1,,2,...,i a ˆx b ˆy y ˆy e ˆi i i i =--=-=i eˆ称为相应于点(x i ,y i )的残差(residual).要牢记!思考如何发现数据中的错误?如何衡量模型的拟合效果?(1)可以利用残差图来分析残差特性;(2)可以利用.ˆˆnn22i i i2i =1i =1nn 22i i i =1i =1(y -y )(y -y)R =1-=(y -y)(y -y)∑∑∑∑来刻画回归的效果.何为残差图?残差图作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.编号12345671020304050607080-10-20-30-40-50-6090100要牢记!对R 2的理解(1)在含有一个解释变量的线性模型中,R 2恰好等于相关系数r 的平方.(2)对于已经获取的样本数据,R 2表达式中的为确定的数.因此R 2越大,意味着残差平方和越小,即模型的拟合效果越好;反之,越差.∑=n1i 2i )y -(y ∑=n1i 2i)y -(y要牢记!用身高预报体重时,需要注意以下问题(1)回归方程只适用于我们所研究的样本总体;(2)我们所建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出解释变量和预报变量的散点图,观察它们之间的关系;(3)由经验确定回归方程的类型;(4)按一定规则估计回归方程中的参数;(5)得出结果后分析残差图是否有异常,若有异常,检查数据是否有误,或模型是否合适等.要牢记!为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型和试比较哪一个模型拟合的效果更好.例题2关于X 与Y 有如下数据:x 24568y3040605070ˆy=6.5x +17.5ˆy =7x +17分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.ˆ∑∑52i i 2i=1152ii=1(y -y )155R =1-=1-=0.8451000(y-y)22R =1-ˆ∑∑52i i i=152i i=1(y -y )180=1-=0.821000(y -y),84.5%>82%,所以甲选用的模型拟合效果较好.解答课堂小结1.数学知识(1)建立回归模型及残差图分析的基本步骤;(2)不同模型拟合效果的比较方法;(3)相关指数和残差的分析.2. 数学思想数形结合的思想,化归思想及整体思想.3.数学方法数形结合法,转化法,换元法.高考链接1. (2007年浙江)某校有学生2000人,其中高三学生500人,为了了解学生身体素质情况,采用按年级分层抽样的方法,从该学生中抽取一个200人的样本,则样本中高三学生的人数为_________.解析:本题考查抽样的方法. 由已知抽样比200/2000=1/10,故样本中高三学生数为500*(1/10)=50.2.(2007年广东)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.x3456y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法y=bx+a .求出y关于x的线性回归方程ˆˆ(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?解析:(1)如下图01234567012345产量能耗66.54.5645342.53(2)y x in1i i =⨯+⨯+⨯+⨯=∑= 4.546543x =+++= 3.544.5432.5y =+++=866543i2222n1i 2x =+++=∑=ˆ266.5-4 4.5 3.566.5-63b ===0.786-4 4.586-81⨯⨯⨯ˆˆa=Y-bX =3.5-0.7 4.5=0.35⨯故线性回归方程为y=0.7x+0.35.(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35.课堂练习1.选择(1)下列说法中正确的有:()C①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(由函数关系),在散点图上各个点均在一条直线上A. ①②B. ②③C. ①③D. ①②③解析:若r>0,表示两个相关变量正相关,x增大时,y也相应增大,故①正确. r<0,表示两个变量负相关,x增大时,y也相应减小,故②错误. |r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故③正确.(2)对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合A效果最好的模型是()A.模型Ⅰ的相关系数r为0.98B.模型Ⅱ的相关系数r为0.80C.模型Ⅲ的相关系数r为0.50D.模型Ⅳ的相关系数r为0.25解析:根据相关系数的定义和计算公式可知,|r|≦1,且|r|越接近于1,相关程度越大,拟合效果越好;|r|越接近于0,相关程度越小,拟合效果越弱.(3)对有线性相关关系的两个变量建立的回归直线方程中,回归系数()A.可以小于0 B.小于0 C.能等于0 D.只能等于0a xb y ˆˆˆ+=b ˆ解析: 时,得r=0,这时不具有线性相关性,但能大于0,也能小于0.ˆb0=ˆbA2.解答题(1)现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试中的数学成绩(y),数据如下:学生号12345678910 x12010811710410311010410599108 y84648468696869465771试问这10个学生的两次数学考试成绩是否具有显著性线性相关关系?查表得自由度为10-2=8相应的相关关系临界值由知,两次数学考试成绩有显著性的线性相关关系.∑==101i 2i116584x∑==101i 2i47384y107.8x =68y =73796yx 101i ii∑==易得则相关系数为解答227379610107.868r 0.7506(11658410107.8)(473841068)-⨯⨯=≈-⨯-⨯0.05r 0.6021 =0.05r r >(2)观察两相关量得如下数据:x-1-2-3-4-553421 y-9-7-5-3-115379求两变量间的回归方程.i 12345678910x i -1-2-3-4-553421y i -9-7-5-3-115379x i y i 9141512551512149解答列表:∑∑∑10101022ii iii=1i=1i=1x =0,y =0,=110,=330,=110.y y xx∑∑10i i i=11022i i=1-10x y 110-100b ===1110-100-10y x x x ⨯⨯⨯a =y -bx =0-b 0=0⨯ˆy=x .所求回归直线方程为习题解答1. 画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.2. 分析残差可以帮助我们解决以下几个问题:(1)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错;(2)分析残差图可以发现模型选择是否合适.3.(1)解释变量和预报变量的关系是线性函数关系;(2)R2=1.。
高中数学人教A版选修2-3练习:3.1 回归分析的基本思想及其初步应用 pdf版含解析
32 4
40
行判断,甲回归方程的数据准确率为40=5,而乙回归方程的数据准确率为60=
2 3.显然甲的准确率高些,因此甲回归方程好些.
【答案】 甲
8.如果某地的财政收入 x 与支出 y 满足线性回归方程 y=bx+a+e(单位:
亿元),其中 b=0.8,a=2,|e|≤0.5,如果今年该地区财政收入为 10 亿元,则
C.y=c+bx D.y=b+cx 【解析】 由 y=aebx 得 ln y=ln(aebx),∴ln y=ln a+ ln ebx,
∴ln y=ln a+bx,∴U=c+bx.故选 A. 【答案】 A
5.为了解儿子身高与其父亲身高的关系,随机抽取 5 对父子的身高数据如
表所示:
父亲身高 x(cm) 174 176 176 176 178
(2)由散点图看出样本点分布在一条指数函数 y=c1ec2x 的周围,于是令 z=ln y,则
x1
2
3
4
5
6
z 1.79 2.48 3.22 3.89 4.55 5.25
^z
^y
由计算器算得, =0.69x+1.112,则有 =e0.69x+1.112.
[能力提升]
1.(2016·青岛一中调研)某学生四次模拟考试中,其英语作文的减分情况如
-x -y 【解析】 回归直线一定过样本点的中心( , ),故 C 正确. 【答案】 C 2.甲、乙、丙、丁四位同学在建立变量 x,y 的回归模型时,分别选择了 4 种不同模型,计算可得它们的相关指数 R2 分别如下表:
甲乙丙丁 R2 0.98 0.78 0.50 0.85 哪位同学建立的回归模型拟合效果最好?( ) A.甲 B.乙 C.丙 D.丁 【解析】 相关指数 R2 越大,表示回归模型的拟合效果越好. 【答案】 A 3.对变量 x,y 进行回归分析时,依据得到的 4 个不同的回归模型画出残 差图,则下列模型拟合精度最高的是( )
高中数学人教A版选修2-3第三章:3.1回归分析的基本思想及其初步应用 课件
从散点图可以看到,样本点散布在某一条直线的 附近,而不是一条直线上,所以不能用一次函数 y=bx+a来描述它们之间的关系。
这时我们用下面的线性回归模型来描述身高和体
重的关系:y=bx+a+e
其中a和b为模型的未知参数,
e是y与 yˆ 之间的误差,通常e称为随机误差。
产生随机误差e的原因是什么?
(1)所用确定性函数模拟不恰当; (2)忽略了某些因素的影响; (3)观测误差,如使用的测量工具不同等。
4.线性回归模型y=bx+a+e中, 把自变量x称为解释变量, 把因变量y称为预报变量。
^
^
5.残差: ei yi yi
n
^
6.残差平方和:
( yi yi )2
i 1
n
7.总偏差平方和: ( yi y)2
i 1
n
^
( yi y)2
8.相关指数:R2
1
i 1 n
( yi y)2
新课讲解
例 从某大学中随机选出8名女大学生,其 身高和体重数据如下表:
编号 1 2 3 4 5 6 7 8 身高 165 165 157 170 175 165 155 170 体重 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的 回归方程,并预报一名身高为172cm的女 大学生的体重。
三、回归直线方程:最小二乘法
1、所求回归直线方程为 yˆ = bˆ x + aˆ ,其中:
n
n
y bˆ =
(xi - x)(yi - y)
i=1 n
=
(xi - x)2
xi
- nxy
i
i=1
高中数学人教A版选修2-3优化练习:第三章 3.1 回归分析的基本思想及其初步应用 Word版含解析
[课时作业] [A 组 基础巩固]1.下列各关系中是相关关系的是 ( )①路程与时间、速度的关系;②加速度与力的关系;③产品成本与产量的关系;④圆周长与圆面积的关系;⑤广告费支出与销售额的关系. A .①②④ B .①③⑤ C .③⑤D .③④⑤解析:①②④都是确定的函数关系. 答案:C2.下列关于残差的叙述正确的是( ) A .残差就是随机误差 B .残差就是方差 C .残差都是正数D .残差可用来判断模型拟合的效果 解析:由残差的相关知识可知D 正确. 答案:D3.由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程为y ^=b ^x +a ^,那么下列说法中不正确的是( ) A .直线y ^=b ^x +a ^必经过点(x -,y -)B .直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点C .直线y ^=b ^x +a ^的斜率为1ni =∑x i y i -n x - y- 1n i =∑x 2i -n x2D .直线y ^=b ^x +a ^的纵截距为y -b ^x解析:由用最小二乘法求回归直线方程的公式可知,A ,C ,D 都正确,B 不正确,回归直线可以不经过样本数据中的任何一个点.故应选B. 答案:B4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:由变量x 与y 正相关知C ,D 均错,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A. 答案:A5.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得y ^=0.577x -0.448(x 为人的年龄,y (单位:%)为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )A .年龄为37岁的人体内脂肪含量都为20.90%B .年龄为37岁的人体内脂肪含量为21.01%C .年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%D .年龄为37岁的大部分的人体内脂肪含量为31.50%解析:当x =37时,y ^=0.577×37-0.448=20.901≈20.90,由此估计:年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%. 答案:C6.如图是x 和y 的样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.解析:经计算,去掉D (3, 10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大. 答案:D (3,10)7.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:由题意知[0.254(x +1)+0.321]-[0.254x +0.321]=0.254. 答案:0.2548.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:月平均气温x (℃) 17 13 8 2 月销售量y (件)24334055由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________. 解析:由表格得(x ,y )为(10,38),又(x ,y )在回归直线y ^=b ^x +a ^上,且b ^≈-2, ∴38=-2×10+a ^,a ^=58,所以y ^=-2x +58,当x =6时,y ^=-2×6+58=46. 答案:469.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如表:温度(x ) 0 10 20 50 70 溶解度(y )66.776.085.0112.3128.0由资料看y 与解析:x =30,y =66.7+76.0+85.0+112.3+128.05=93.6.b ^=51i =∑x i y i -5x -y- 51i =∑x 2i -5x2=17 035-14 0407 900-4 500=2 9953 400≈0.880 9. a ^=y -b ^x =93.6-0.880 9×30=67.173. 故回归方程为y ^=0.880 9x +67.173.10.某地10户家庭的年收入和年饮食支出的统计资料如下表: 年收入x /万元 24466677810年饮食支出y/万元0.91.41.62.02.11.91.82.12.22.3(2)如果某家庭年收入为9万元,预测其年饮食支出.解析:由题意知,年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如下图所示:从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系. (2)x =6,y =1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,b ^≈0.172,a ^=y -b ^x =0.798,从而得到回归直线方程为y ^=0.172x +0.798. 当x =9时,y ^=0.172×9+0.798=2.346(万元).[B 组 能力提升]1.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2如表:A .甲B .乙C .丙D .丁解析:相关指数R 2越大,表示回归模型的拟合效果越好. 答案:A2.在一次试验中,测得(x ,y )的四组值分别是(1,2),(2,3),(3,4),(4,5),则y 与x 间的回归方程为( ) A.y ^=x +1 B.y ^=x +2 C.y ^=2x +1D.y ^=x -1解析:易知变量y 与x 具有线性相关关系,且b ^=1,x =2.5,y =3.5,∴a ^=3.5-1×2.5=1,故可得出线性回归方程为y ^=x +1. 答案:A3.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________. 解析:由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y ^-5=1.23(x -4),即y ^=1.23x +0.08. 答案:y ^=1.23x +0.084.某小卖部为了了解热茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:由表中数据算得线性回归方程y =b x +a 中的b ≈-2,预测当气温为-5 ℃时,热茶销售量为________杯.(已知回归系数b ^=∑i =1nx i y i-n x y∑i =1nx 2i -n x2,a ^=y -b ^x )解析:根据表格中的数据可求得x =14×(18+13+10-1)=10,y =14×(24+34+38+64)=40.∴a ^=y -b ^x =40-(-2)×10=60,∴y ^=-2x +60, 当x =-5时,y ^=-2×(-5)+60=70. 答案:705.某公司利润y (单位:千万元)与销售总额x (单位:千万元)之间有如表对应数据:x 10 15 17 20 25 28 32 y11.31.822.62.73.3(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解析:(1)散点图如图:(2)列表,并利用科学计算器进行有关计算.i 1 2 3 4 5 6 7 x i 10 15 17 20 25 28 32 y i11.31.822.62.73.3x =21,y =2.1∑i =17x 2i =3 447,∑i =17y 2i =34.87,∑i =17x i y i =346.3于是b ^=346.3-7×21×2.13 447-7×212≈0.104.a ^=2.1-0.104×21=-0.084, 因此回归直线方程为y ^=0.104x -0.084.(3)当x =24时,y =0.104×24-0.084=2.412(千万元).6.为探究某弹簧悬挂物体的质量x (单位:g)对弹簧长度y (单位:cm)的影响,分别将6个不同质量的物体悬挂在弹簧下,并测量弹簧的长度,数据如表所示(弹簧的质量忽略不计):x/g 5 10 15 20 25 30 y /cm7.258.128.959.9010.911.8(1)(2)根据散点图判断是否可以用线性回归模型进行拟合,如果可以,求y 与x 之间的回归直线方程;(3)求R 2,并对拟合效果做出评价. 解析:(1)散点图如图所示:(2)由于样本点分布在一条直线附近,所以可以用线性回归模型进行拟合.计算可得x =17.5,y ≈9.487,从而b ^=∑i =16(x i -x )(y i -y )∑i =16(x i -x )2≈0.183,a ^=y -b ^x ≈6.285.因此,y 与x 之间的回归直线方程为y ^=0.183x +6. 285. (3)因为∑i =16(y i -y ^i )2=0.013 175,∑i =16(y i -y )2=14.678 33,所以R 2=1-∑i =16(y i -y ^i )2∑i =16(y i -y )2≈0.999.由于R 2非常接近于1,因此拟合效果较好.。
高中数学人教A版选修2-3第三章3.1回归分析的基本思想及其初步应用 课件(共46张PPT)
现实生活中存在着大量的相关关系。 如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等
探索:水稻产量y与施肥量x之间大致有何规 律?
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
y
500 水稻产量
(3)预报一名身高为172cm的女大学生的体重?
【解】列出下表
编号i 1
23 4
5
6
7
8
身高xi 165 165 157 170 175 165 155 170
体重yi 48 57 50 54 64 61 43 59
xiyi 7920 9405 7850 9180 11200 10065 6665 10030
-1.0 -0.75 -0.25 0 0.25 0.5 1.0
r
负相关程度增加 正相关程度增加
6、用相关指数R2来刻画拟合效果
n
n
( yi yi )2
(yi y)2
R2
1
i 1 n
i1 n
[0,1]
残差平 方和
( yi y)2
( yi y)2
总偏差
i 1
i 1
平方和
1、R2 1,说明回归方程拟合的越好; R20,说明回归方程拟合的越差。
型来拟合
z ax b e
(2) ②用模型y c3 x2 c4来拟合,令t x2, 则y c3t c4,
列出变换后数据表并画出y与t 的散点图:
t 441 529 625 729 841 1024 1225
y 7 11 21 24 66 115 325
环境等因素; 3、身高 y 的观测误差。
【原创】人教A版选修2-3:第三章 3.1 回归分析的基本思想及其初步应用
首页
上一页
下一页
末页
结束
题点二:非线性回归分析 2.为了研究某种细菌随时间 x 变化繁殖个数 y 的变化,收集数据
如下 时间 x/天 1 2 3 4 5 6 繁殖个数 y 6 12 25 49 95 190
(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的 散点图; (2)求 y 与 x 之间的回归方程.
在 y 轴上.
(× )
(3)R2 越小, 线性回归模型的拟合效果越好.
(× )
首页
上一页
下一页
末页
结束
2.从散点图上看,点散布在从左下角到右上角的区域内, 两个变量的这种相关关系称为________. 答案:正相关
3.在残差分析中, 残差图的纵坐标为________. 答案:残差
首页
上一页
下一页
末页
结束
首页
上一页
下一页
末页
结束
预习课本 P80~89,思考并完成以下问题
1.什么是回归分析?
2.什么是线性回归模型?
3.求线性回归方程的步骤是什么?
首页
上一页
下一页
末页
结束
[新知初探]
1.回归分析 (1)回归分析 回归分析是对具有 相关关系 的两个变量进行统计分析的一 种常用方法.
首页
上一页
下一页
首页
上一页
下一页
末页
结束
用已知向量表示未知向量 题点一:线性回归分析 1.为研究质量 x(单位:g)对弹簧长度 y(单位:cm)的影响,
对不同质量的 6 个物体进行测量,数据如表所示: x 5 10 15 20 25 30 y 7.25 8.12 8.95 9.90 10.9 11.8
数学人教A版选修2-3课后导练:3.1回归分析的基本思想及其初步应用含解析
课后导练基础达标1。
工人月工资(元)依劳动生产率(千元)变化的回归方程为y—=50+80x下列判断正确的是()(1)劳动生产率为1 000元时,工资为130元(2)劳动生产率提高1 000元则工资提高80元(3)劳动生产率提高1 000元则工资提高130元(4)当月工资为210元时,劳动生产率为2 000元A.(1)B.(2)C.(3)D.(4)解析:由回归系数b的意义知,b>0时,自变量和因变量按同向变化;b<0时,自变量和因变量按反向变化。
B=80,可知只有(2)正确。
B2.相关关系与函数关系的区别是____________.答案:函数关系是两个变量之间有完全确定的关系,而相关关系是两个变量之间并没有严格的确定关系,当一个变量变化时,另一变量的取值有一定的随机性.3.为考虑广告费用x与销售额y之间的关系,抽取了5家餐厅,得到如下数据:现要使销售额达到6万元,则需广告费用为______________.(保留两位有效数字)解析:先求出回归方程yˆ=bx+a,令yˆ=6,得x=1.5万元.答案:1.5万元4.假设学生在初一和初二数学成绩是线性相关的,若10个学生初一(x)和初二(y)数学分数如下:试求初一和初二数学分数间的回归方程.解析:因为x=71,∑2ix=50 520,y=72.3, ∑i i y x=51 467,所以,b=27110505203. 7271101051457⨯-⨯⨯⨯-≈1。
218 2;a=72。
3-1。
218 2×71=-14。
192.回归直线方程是:yˆ=1.218 2x—14。
192.5。
部分国家13岁学生数学测验平均分数为:试作出该数据的散点图并由图判断可否存在回归直线,若有则求出直线方程。
解析:(图略)由图知,存在回归直线方程。
因为x =203,∑2i x =416 824,y =64.5, ∑i i y x =132 418,所以b=2203104168245.6420310132418⨯-⨯⨯-≈0。
2019-2020年人教A版数学选修2-3学案:第三章 3.1 回归分析的基本思想及其初步应用 学案 Word版含答案
3.1回归分析的基本思想及其初步应用[教材研读]预习教材P80~88,思考以下问题1.什么是回归分析?2.什么是线性回归模型?[要点梳理]1.回归分析(1)回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(2)回归方程的相关计算对于两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n).设其回归直线方程为y^=b^x+a^,其中a^,b^是待定参数,由最小二乘法得b^=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2=∑i=1nx i y i-n x y∑i=1nx2i-n x2,a^=y-b^x. (3)线性回归模型线性回归模型⎩⎪⎨⎪⎧y =bx +a +e ,E (e )=0,D (e )=σ2,其中a ,b 为模型的未知参数,通常e 为随机变量,称为随机误差.x 称为解释变量,y 称为预报变量.2.线性回归分析(1)残差:对于样本点(x i ,y i )(i =1,2,…,n )的随机误差的估计值e ^i =y i -y ^i 称为相应于点(x i ,y i )的残差,∑i =1n(y i -y ^i )2称为残差平方和.(2)残差图:利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.(3)R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2越接近1,表示回归的效果越好.[自我诊断]判断(正确的打“√”,错误的打“×”)1.残差平方和越小,线性回归方程的拟合效果越好.( ) 2.在画两个变量的散点图时,预报变量在x 轴上,解释变量在y 轴上.( )3.R 2越小,线性回归方程的拟合效果越好.( ) [答案] 1.√ 2.× 3.×题型一 求线性回归方程思考:求线性回归方程的步骤是什么?提示:①列表表示x i ,y i ,x i y i ,x 2i ; ②计算x ,y,∑i =1nx 2i ,∑i =1n x i y i ; ③代入公式计算a ^,b ^的值; ④写出线性回归方程.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.⎝⎛⎭⎪⎪⎪⎫相关公式:b^=∑i =1nx i y i -n x ·y∑i =1nx 2i-n x 2,a ^=y -b ^ x [思路导引] 先画散点图,再求回归系数a ^,b ^写出方程. [解] (1)如图:(2)∑i =1nx i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9, y =2+3+5+64=4, ∑i =1nx 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7,a ^=y -b ^ x =4-0.7×9=-2.3, 故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系.(2)求回归系数:若存在线性相关关系,则求回归系数. (3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.【温馨提示】对回归直线的四点说明(1)回归直线过点(x-,y-).(2)回归直线的截距a和斜率b都是通过样本估计而得的,存在着误差,这种误差可能导致预报结果的偏差.(3)线性回归方程y=a+bx中的b表示x增加1个单位时,y的平均变化量为b,而a表示y不随x的变化而变化的部分.(4)可以利用线性回归方程y=a+bx预报在x取某个值时,y的估计值.[跟踪训练](链接教材P81—例1)某种产品的广告费用支出x与销售额y(单位:百万元)之间有如下的对应数据:(2)求线性回归方程;(3)试预测广告费用支出为10百万元时的销售额.[解](1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算:所以,x -=255=5,y -=2505=50,∑i =15x 2i =145,∑i =15x i y i =1380.于是可得b^=∑i =15x i y i -5x -y-∑i =15 x 2i -5x-2=1380-5×5×50145-5×52=6.5,a ^=y --b ^x -=50-6.5×5=17.5.所以所求的线性回归方程为y ^=6.5x +17.5.(3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时,y ^=6.5×10+17.5=82.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元. 题型二 线性回归分析思考:如何用残差图、残差平方和、相关指数R 2分析模型拟合效果?提示:残差图的带状区域的宽度越窄,模型拟合精度越高;残差平方和越小,模型拟合效果越好;R 2越接近于1,模型拟合效果越好.假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求R 2,并说明残差变量对有效穗的影响占百分之几? [解] (1)散点图如下.(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,x -=30.36,y -=43.5,∑i =15x 2i =5101.56,∑i =15y 2i =9511.43.x -y -=1320.66,x -2=921.7296,∑i =15x i y i =6746.76.。
最新整理高中数学人教A版选修2-3课后训练:3.1 回归分析的基本思想及其初步应用 Word版含解析.doc
课后训练一、选择题1.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是()A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合2.下列四个命题中正确的是()①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.A.①③B.②④C.①④D.②③3.已知x,y取值如下表:x 013 4y 2.2 4.3 4.8 6.7若x,y具有线性相关关系,且回归方程为y=0.95x+a,则a=()A.0.325 B.2.6C.2.2 D.04.某学校开展研究性学习活动,某同学获得一组实验数据如下表:x 1.9934 5.1 6.12y 1.5 4.047.51218.01对于表中数据,现给出下列拟合曲线,其中拟合程度最好的是()A.y=2x-2B.12x y⎛⎫= ⎪⎝⎭C.y=log2xD.y=12(x2-1)5.若某地财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5.如果今年该地区财政收入10亿元,年支出预计不会超过()A.10亿B.9亿C.10.5亿D.9.5亿6.某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)423 5销售额y(万元)49263954根据上表可得回归方程y bx a=+中的b为9.4,据此模型预报广告费用为6万元时销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元二、填空题7.在研究身高和体重的关系时,求得R2≈______,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.8.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:时间x 1234 5命中率y 0.40.50.60.60.4小李这5天的平均投篮命中率为__________,用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为__________.三、解答题9.恩格尔系数=食物支出金支出金额总额×100%.在我国,据恩格尔系数判定生活发展阶段的标准为:贫困:>60%,温饱:50%~60%,小康:40%~50%,富裕:<40%.据国家统计局统计显示,随着中国经济的不断发展,城镇居民家庭恩格尔系数不断下降,居民消费已从温饱型向享受型、发展型转变.如下表:恩格尔系数y(%)57.554.253.850.048.844.739.437.737.1年份x 197819901992199419961998200020022003 求:(1)根据年份预报恩格尔系数的线性回归方程;(2)预报2013年的恩格尔系数;(3)求R2;(4)作出残差图.10.关于x与y有以下数据:x 24568y 3040605070已知x与y线性相关,由最小二乘法得 6.5b ,(1)求y与x的线性回归方程;(2)现有第二个线性模型:y=7x+17,且R2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.参考答案1答案:A 解析:都过样本中心点(s ,t ),但斜率不确定.2答案:B 解析:e 是预报变量y 的随机误差,故①不正确;R 2越接近1,拟合的效果越好,故③不正确;故选B .3答案:B 解析:由已知x =2,y =4.5,而回归方程过点(x ,y ),则4.5=0.95×2+a ,∴a =2.6.4答案:D 解析:可以代入检验,残差平方和最小的拟合程度最高.5答案:C 解析:代入数据y =10+e ,因为|e |≤0.5,所以|y |≤10.5,故不会超过10.5亿.6答案:B 解析:∵4926395442359.49.144a y bx ++++++=-=-⨯=,∴回归方程为y =9.4x +9.1.令x =6,得y =9.4×6+9.1=65.5(万元).7答案:0.64 解析:结合相关指数的计算公式R 2=1-2121()()niii nii y y y y ==--∑∑可知,当R 2≈0.64时,身高解释了64%的体重变化.8答案:0.5 0.53 解析:这5天的平均投篮命中率为0.40.50.60.60.40.55y ++++==.1234535x ++++==.51i =∑(x i -x )(y i -y )=(1-3)×(0.4-0.5)+(2-3)×(0.5-0.5)+(3-3)×(0.6-0.5)+(4-3)×(0.6-0.5)+(5-3)×(0.4-0.5)=0.1.51i =∑(x i -x )2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10.b =0.110=0.01,a y bx =-=0.5-0.03=0.47. 所以回归直线方程为y =0.01x +0.47.当x =6时,y =0.01×6+0.47=0.53. 9答案:解:由于问题中要求根据年份预报恩格尔系数,因此选取年份为自变量x ,恩格尔系数为因变量y ,作散点图:由最小二乘法得线性回归方程为y =-0.901 8x +1 845.9.答案:由回归方程可知,2013年恩格尔系数为y =-0.901 8×2 013+1 845.9≈30.6.答案:R 2=1-1122()()ni ni iiiy y y y ==--∑∑≈1-84.6468.1≈0.82. 答案:编号1 2 3 4 5 6 7 8 9 年份1978 1990 1992 1994 1996 1998 2000 2002 2003 恩格尔系数(%)57.5 54.2 53.8 50.0 48.844.7 39.437.737.1 残差e -4.62.9 4.3 2.3 2.9 0.6-2.9 -2.8-2.5残差图如下:10答案:解:依题意设y 与x 的线性回归方程为y =6.5x +a .2456855x ++++==,3040605070505y ++++==,∵y =6.5x +a 经过(x ,y ),∴50=6.5×5+a ,∴a =17.5,∴y 与x 的线性回归方程为y =6.5x +17.5.答案:由(1)的线性模型得y i -i y 与y i -y 的关系如下表:y i -i y -0.5 -3.5 10 -6.5 0.5 y i -y-20-101020所以51i =∑(y i -i y )2=(-0.5)2+(-3.5)2+(-10)2+(-6.5)2+0.52=155.51i =∑(y i -y )2=(-20)2+(-10)2+102+02+202=1 000.所以52211521()155110.8451000()iii ii y y R y y ==-=-=-=-∑∑. 由于21R =0.845,R 2=0.82知21R >R 2, 所以(1)的线性模型拟合效果比较好.。
高中人教A数学选修2-3学案:3.1 回归分析的基本思想及其初步应用 含答案
第三章统计案例,你坐过火车、乘过飞机吗?晕车、晕机与性别有无关系?肺癌是人类的一大杀手,吸烟与患肺癌的关联性究竟有多大?你了解过你们班同学的身高与体重吗,身高与体重是否线性相关?你统计过你们班同学的考试成绩吗,物理成绩的高低与数学成绩关联度有多大?……这些都是统计学研究的内容.本章我们将要学习独立性检验和回归分析的基本思想、方法.学习本章要注意学习收集、整理、分析数据的方法,体会统计分析的基本思想、建模思想和现代计算技术在统计中的应用,体会统计思维和确定性思维的差异.3.1回归分析的基本思想及其初步应用自主预习·探新知情景引入2019年6月17日四川宜宾发生6.1级地震,此后40分钟内连发四次余震,最高震级5.1级,此次地震余震频繁而且震级还高,你知道地震的震级与地震次数之间有什么关系吗?新知导学一、回归直线方程1.回归分析是处理两个变量之间__相关关系__的一种统计方法.若两个变量之间具有线性相关关系,则称相应的回归分析为__线性回归分析__.2.回归直线方程为y^=b^x+a^,其中b^=__∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2__a^=__y-b^x,__(x,y)__称为样本点的中心.3.线性相关关系强与弱的判断:用__相关系数r__来描述线性相关关系的强弱.对于变量x、y随机抽取到的n对数据(x1,y1)、(x2,y2)、…、(x n,y n),其相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2=∑i=1nx i y i-n x y(∑i=1nx2i-n x2)(∑i=1ny2i-n y2).当r>0时,表明两个变量__正相关__;当r<0时,表明两个变量__负相关__.r的绝对值越接近1,表明两个变量的线性相关性越__强__;r的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常当|r|大于__0.75__时,认为两个变量有很强的线性相关关系.二、线性回归分析1.随机误差(1)随机误差的概念:当样本点散布在某一条直线的附近,而不是在一条直线上时,不能用一次函数y=bx+a来描述两个变量之间的关系,而是用线性回归模型__y=bx+a+e__来表示,这里__x__称为解释变量,__y__称为预报变量,__e__称为随机误差,E(e)=__0__,D(e)=__σ2__.(2)随机误差及其产生的原因从散点图中我们可以看到,样本点散布在某一条直线附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,我们用下面的线性回归模型来表示:y=bx +a+e,其中a、b为模型的未知数,e称为随机误差.产生随机误差的主要原因有以下3个方面:①用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型是什么)所引起的误差.可能存在非线性的函数能更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.这种由模型近似所引起的误差包含在e 中.②忽略了某些因素的影响.影响变量y 的因素不只变量x ,可能还包括其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),它们的影响都体现在e 中.③观测误差.由于测量工具等原因,导致y 的观测值产生误差(比如一个人的体重是确定的数,但由于测量工具的影响和测量人技术的影响可能会得到不同的观测值,与真实值之间存在误差),这样的误差也包含在e 中.2.残差对于样本点(x 1,y 1)、(x 2,y 2)、…、(x n ,y n ),其回归方程为y ^=b ^x +a ^,用y ^作为回归模型⎩⎪⎨⎪⎧y =bx +a +e E (e )=0,D (e )=σ2中bx +a 的估计值,随机误差e i =y i -bx i -a 的估计值e ^i =__y i -b ^x i -a ^__(i =1,2,…,n ),称为相应于点(x i ,y i )的残差.3.残差图以__残差__为纵坐标,__样本编号__(或身高数据,或体重的估计值等)为横坐标作出的图形,称为残差图.4.在线性回归模型中,R 2表示解释变量对预报变量变化的__贡献率__.R 2越接近于1,表示解释变量和预报变量的线性相关性越强;反之,R 2越小,说明随机误差对预报变量的效应越大.相关指数R 2的计算公式是R 2=1-∑ni =1 (y i -y ^i )2∑ni =1 (y i -y)2.R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果(即回归效果)越__好__. 在含有一个解释变量的线性模型中,R 2恰好等于__相关系数r __的平方.预习自测1.在对两个变量x ,y 进行线性回归分析时,有下列步骤: ①对所求出的回归直线方程作出解释; ②收集数据(x i ,y i ),i =1,2,…,n ; ③求线性回归方程; ④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可行性要求能够作出变量x ,y 具有线性相关的结论,则在下列操作顺序中正确的是( D )A .①②⑤③④B .③②④⑤①C .②④③①⑤D .②⑤④③①[解析] 对两个变量进行回归分析时,首先收集数据(x i ,y i ),i =1,2,…,n ;根据所搜集的数据绘制散点图. 观察散点图的形状,判断线性相关关系的强弱, 求相关系数,写出线性回归方程, 最后依据所求出的回归直线方程作出解释; 故正确顺序是②⑤④③①, 故选D .2.(2020·南充模拟)已知变量x 与变量y 之间具有相关关系,并测得如下一组数据:则变量x 与y A .y ^=0.7x -2.3 B .y ^=-0.7x +10.3 C .y ^=-10.3x +0.7 D .y ^=10.3x -0.7[解析] 根据表中数据,得; x =14(6+5+10+12)=334,y =14(6+5+3+2)=4,且变量y 随变量x 的增大而减小,是负相关,所以,验证x =334时,y ^=-0.7×334+10.3≈4,即回归直线y ^=-0.7x +10.3过样本中心点(x ,y ). 故选B .3.(2020·武汉高二检测)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:通过计算得到回归方程为y ^=0.577x -0.448,利用这个方程,我们得到年龄37岁时体内脂肪含量为20.90%,那么数据20.90%的意义是( D )A .某人年龄37岁,他体内脂肪含量为20.90%B .某人年龄37岁,他体内脂肪含量为20.90%的概率最大C .某人年龄37岁,他体内脂肪含量的期望值为20.90%D .20.90%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计 [解析] 利用回归方程y ^=0.577x -0.448, 可得x =37时,y ^=20.901,即到年龄37岁时体内脂肪含量约为20.90%,故20.90%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计, 故选D .4.为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2,已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( A )A .l 1和l 2有交点(s ,t )B .l 1与l 2相交,但交点不一定是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合[解析] 由题意知(s ,t )是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心,故选A .5.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据 得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( D )A .y =a +bxB .y =a +bx 2C .y =a +b e xD .y =a +b ln x[解析] 由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y 和温度x 的回归方程类型的是y =a +b ln x .故选D .互动探究·攻重难互动探究解疑 命题方向❶变量间的相关性检测典例1 关于两个变量x 和y 的7组数据如下表所示:x 21 23 25 27 29 32 35 y711212466115325试判断y 与x 是否线性相关.[解析] x -=17(21+23+25+27+29+32+35)≈27.4,y -=17(7+11+21+24+66+115+325)≈81.3,∑i =17x 2i =212+232+252+272+292+322+352=5 414, ∑i =17x i y i =21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542.∑i =17y 2i =72+112+212+242+662+1152+3252=124 393, ∴r =∑i =17x i y i -7x -y-(∑i =17x 2i -7x 2)(∑i =17y 2i -7y 2)=18 542-7×27.4×81.3(5 414-7×27.42)×(124 393-7×81.32)≈2 948.663 520.92=0.863 9.由于r =0.863 9>0.75,∴x 与y 具有线性相关关系.『规律总结』 变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确的判断相关的程度.┃┃跟踪练习1__■现随机抽取了我校10名学生在入学考试中的数学成绩(x )与入学后的第一次考试数学成绩(y ),数据如下表:学生号1 2 3 4 5 6 7 8 9 10 x 120 108 117 104 103 110 104 105 99 108 y 84648468696869465771请问:这10个学生的两次数学考试成绩是否具有显著的线性相关关系? [解析] x -=110(120+108+…+99+108)=107.8,y -=110(84+64+…+57+71)=68,∑i =110x 2i =1202+1082+…+992+1082=116 584, ∑i =110y 2i =842+642+…+572+712=47 384, ∑i =110x i y i =120×84+108×64+…+108×71=73 796,所以,相关系数为 r =73 796-10×107.8×68(116 584-10×107.82)(47 384-10×682)≈0.750 6,由0.750 6>0.75知,两次数学考试成绩有显著的线性相关关系. 命题方向❷求线性回归方程典例2 某班5名学生的数学和物理成绩如表:学生学科成绩 A B C D E 数学成绩(x ) 88 76 73 66 63 物理成绩(y )7865716461(1)(2)求物理成绩y 对数学成绩x 的线性回归方程; (3)一名学生的数学成绩是96,预测他的物理成绩. [解析] (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25 054.∑i =15x 2i =882+762+732+662+632=27 174, 所以=∑i =15x i y i -5x ·y∑i =15x 2i -5x2≈0.625,=y -x ≈67.8-0.625×73.2=22.05, 所以y 对x 的回归直线方程是=0.625x +22.05.(3)当x =96时,=0.625×96+22.05≈82,即可以预测他的物理成绩是82.『规律总结』 1.散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,从图中看它们有无关系,关系的密切程度,再进行相关的回归分析.2.求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.┃┃跟踪练习2__■(2020·湖南郴州质检)为了探究车流量与PM2.5的浓度是否相关,现采集到北方某城市2016年12月份某星期星期一到星期日某一时间段车流量与PM2.5的数据如下表:时间 星期一 星期二 星期三 星期四 星期五 星期六 星期日 车流量x /万辆 1 2 3 4 5 6 7 PM2.5的浓度y (微克/立方米)28303541495662(1)由散点图知y 与x 具有线性相关关系,求y 关于x 的线性回归方程; (2)①利用(1)所求的回归方程,预测该市车流量为8万辆时PM2.5的浓度;②规定:当一天内PM2.5的浓度平均值在(0,50]内,空气质量等级为优;当一天内PM2.5的浓度平均值在(50,100]内,空气质量等级为良.为使该市某日空气质量为优或良,则应控制当天车流量在多少万辆以内?(结果以万辆为单位,保留整数.)参考公式:回归直线的方程是y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x . [解析] (1)由数据可得x =17(1+2+3+4+5+6+7)=4,y =17(28+30+35+41+49+56+62)=43,∑i =17x i y i =1372,∑i =17x 2i =140,b ^=∑i =17x i y i -7x y∑i =17x 2i -7x2=1372-1204140-112=6,a ^=y -b ^x =43-6×4=19,故y 关于x 的线性回归方程为y =6x +19.(2)①当车流量为8万辆,即x =8时,y ^=6×8+19=67.故当车流量为8万辆时,PM2.5的浓度约为67微克/立方米.②根据题意得6x +19≤100,即x ≤13.5,故要使该市某日空气质量为优或良,应控制当天车流量在13万辆以内.命题方向❸线性回归分析典例3 某运动员训练次数与训练成绩之间的数据关系如下:次数(x ) 30 33 35 37 39 44 46 50 成绩(y )3034373942464851(1)(2)求出回归方程; (3)作出残差图;(4)计算R 2,并说明运动员的训练次数对成绩的影响占百分之几.[解析] (1)作出该运动员训练次数x 与成绩y 的散点图,如图所示.由散点图可知,它们之间具有相关关系.(2)x =39.25,y=40.875,∑i =18x 2i =12 656,∑i =18x i y i =13 180,所以b ^=∑i =18(x i -x )(y i -y )∑i =18(x i -x )2≈1.041 5,a ^=y -b ^x =-0.003 875,∴回归直线方程为y ^=1.041 5x -0.003 875.(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.x y e ^=y -y ^30 30 -1.241 1 33 34 -0.365 6 35 37 0.551 4 37 39 0.468 4 39 42 1.385 4 44 46 0.177 9 46 48 0.094 9 5051-1.071 1作残差图如图所示.由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适. (4)计算相关指数R 2≈0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.『规律总结』 1.解答本类题目应先通过散点图来分析两个变量间的关系是否线性相关,再利用求回归方程的公式求解回归方程,并利用残差图或R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.2.“R 2、残差图”在回归分析中的作用:(1)R 2是用来刻画回归效果的,由R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2可知R 2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.┃┃跟踪练习3__■为研究质量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同质量的6个物体进行测量,数据如表所示:x 5 10 15 20 25 30 y7.258.128.959.9010.911.8(1)作出散点图,并求线性回归方程; (2)求出R 2; (3)进行残差分析.[解析] (1)散点图如图所示.因为x -=16×(5+10+15+20+25+30)=17.5,y -=16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i =16x 2i =2275,∑i =16x i y i =1 076.2 计算得,b ^≈0.183,a ^≈6.285, 所求线性回归方程为y ^=0.183x +6.285. (2)列表如下:y i -y ^i 0.05 0.005 -0.08 -0.045 0.04 0.025 y i -y --2.24-1.37-0.540.411.412.31所以∑i=16(y i-y^i)2≈0.013 18,∑i=16(y i-y-)2=14.678 4.所以,R2=1-0.013 1814.678 4≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系.命题方向❹非线性回归问题典例4有一测量水流的实验装置——量水堰,测得试验数据如下表:i 1234567水高h(厘米)0.7 1.1 2.5 4.98.110.213.5流量Q(升/分)0.0820.25 1.811.237.866.5134 根据表中数据,建立Q与h之间的回归方程.[思路分析]作散点图,观察确定y与x的近似函数关系,作变量替换,列出新的对应值表求出对应的线性回归方程,再作变量替换得回归方程.[解析]根据测得数据作出散点图,如图,根据已有的函数知识,可以发现样本点分布在某一条幂函数型曲线Q=αhβ(α、β是待定的正常数)①的周围.为此将Q=αhβ两边取对数,得到lg Q=βlg h+lgα②,令lg Q=y,lg h=x,于是②式可化为y=βx+lgα.这样y就是x的线性函数了.可以利用线性回归模型来建立y和x之间的线性回归方程y=bx+a(β=b,lgα=a)了.i h i Q i x i=lg h i y i=lg Q i x2i x i y i10.70.082-0.154 9-1.086 20.0240.168 32 1.10.250.041 4-0.602 10.001 7-0.024 93 2.5 1.80.397 90.255 30.158 30.101 64 4.911.20.690 2 1.049 20.476 40.724 2 58.137.80.9085 1.574 00.825 4 1.430 0610.2 66.5 1.008 6 1.822 8 1.017 3 1.838 5 7 13.5 1341.130 32.127 11.277 62.404 3∑∑i =17x i =4.022∑i =17y i =5.140 1∑i =17x 2i =3.780 7 ∑i =17x i y i =6.642先作出上面数据表,由表得到β ≈2.509 7,lg α≈-0.707 7,则α≈0.196 0.于是所得的回归方程为Q =0.193h 2.509 7.『规律总结』 1.在建立经验公式时,选择合适的函数类型是十分重要的.通常是根据实验数据,画出散点图,从中观察其变化规律,并与已知函数的图象对比,看接近于什么函数,根据实践经验来决定选取公式的类型,所选的类型是否符合实际,还需要通过实践来检验.有时候还需要选择不同的模拟函数作比较.2.如果观察散点图,发现点的分布不呈条状分布,而是与某种曲线相近,这时可选择这条曲线对应的函数作为拟合函数,作恰当变换,转化为线性函数,用线性回归模型求解.例如:①反比例函数y =a +b x 可作变换t =1x,得y =a +bt .②幂函数型y =ax b (a >0)可作变换Y =ln y ,m =ln a ,t =ln x ,则有 Y =m +bt .③指数型函数y =ka bx (a >0且a ≠1,k >0)可作变换Y =ln y ,m =ln k ,则有:Y =m +(b ln a )x ┃┃跟踪练习4__■为了研究某种细菌随时间x 的变化繁殖个数y 的变化,收集数据如下:时间x /天 1 2 3 4 5 6 繁殖个数y612254995190(1)将天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图; (2)描述解释变量与预报变量之间的关系; (3)计算残差、相关指数R 2.[解析] (1)由表中数据作散点图如下图所示.(2)由散点图看出样本点分布在一条指数函数y =c 1ec 2x 的图象的周围,其中c 1和c 2是待定系数.于是令z=ln y,则z=bx+a (a=ln c1,b=c2),因此变换后的样本点应该分布在直线z =bx+a的周围,因此可以用线性回归模型来拟合z与x的关系,则变换后的样本数据如下表:x 12345 6z 1.79 2.48 3.22 3.89 4.55 5.25由表中数据得到线性回归方程z=0.69x+1.115.因此细菌繁殖个数关于时间的回归方程为y^=e0.69x+1.115.(3)列出残差表:编号i 12345 6y^i6.0812.1224.1748.1896.06191.52y i612254995190e^i-0.08-0.120.830.82-1.06-1.52∑i=16e^2i=∑i=16(y i-y^i)2=4.8161,∑i=16(y i-y-)2=24630.1,R2=1-4.816124630.1≈0.9998.故解释变量天数对预报变量繁殖个数解释了99.98%,说明该回归模型拟合效果非常好.学科核心素养利用线性回归方程进行预报变量的估计(规律方法)利用线性回归方程可以进行预报,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制的依据.典例5(2020·福州模拟)对具有线性相关关系的变量x,y,测得一组数据如下表:x 24568y 2040607980根据上表,利用最小二乘法得它们的回归直线方程为y=10.5x+a^,据此模型来预测当x =20时,y的估计值为(C)A.210B.210.5C.211.5D.212.5[解析] 由已知得x =5,y =54,则(5,54)满足回归直线方程y ^=10.5x +a ^,解得a ^=1.5.因此y ^=10.5x +1.5,当x =20时,y ^=10.5×20+1.5=211.5.故选C .『规律总结』 已知变量的某个值去预测相应预报变量的某个值时,先求出其所满足的回归直线方程y ^=b ^x +a ^,把已知x 取某一个值代入回归方程y ^=b ^x +a ^中,从而可求出y 的估计值.┃┃跟踪练习5__■某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了4次试验,得到数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试预测加工10个零件需要的时间.参考公式:⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x2a ^=y -b ^x[解析] (1)散点图如图所示:(2)由题中表格数据得x=3.5,y =3.5,∑i =14 (x i -x )(y i -y )=3.5,∑i =14(x i -x )2=5.由公式计算得b ^=∑i =14(x i -x )(y i -y )∑i =14(x i -x )2=0.7,a ^=y -b ^x ,所以所求线性回归方程为y ^=b ^x +a ^=0.7x +1.05. (3)当x =10时,y ^=b ^x +a ^=0.7×10+1.05=8.05, 所以预测加工10个零件需要8.05小时.易混易错警示 求回归方程典例6 在一化学反应过程中,某化学物质的反应速度y (g/min)与一种催化剂的量x (g)有关,现收集了如表所示的8组数据,则y 与x 的回归方程是__y ^=e 0.1812x -0.8485__.催化剂是x (g) 15 18 21 24 27 30 33 36 化学物质反应速度y (g/min) 6830277020565350[错解] 由表中数据可得x =25.5,y=95.125,∑i =18x 2i =5580,∑i =18x i y i =24297,所以b ^=∑i =18x i y i -8x y∑i =18x 2i -8x2≈12.94,a ^=y -b ^x =-234.845.所以回归方程式为y ^=-234.845+12.94x .[辨析] 错误原因:未画散点图来确定回归类型,题中要求回归方程但不一定是回归直线方程,错解中盲目地求成了回归直线方程.防范措施:回归分析时,必须先画散点图,确定两个变量是否有关系,有什么样的关系,然后确定是哪种回归模型才能进一步求解.[正解] 根据收集的数据作散点图,如图所示.根据样本点的分布情况,可选用指数型函数模型y =c 1e c 2x =(c 1,c 2为待定的参数),令z =ln y ,则z =c 2x +ln c 1,即变换后样本点应该分布在直线z =bx +a (a =ln c 1,b =c 2)的周围,由y 与x 的数据表得z 与x 的数据表如下:x 15 18 21 24 27 30 33 36 z1.7922.0793.4013.2964.2485.3234.1745.858作出z 与x 的散点图,如图所示,由图可以看出变换后的样本点分布在一条直线附近,所以可用线性回归方程来拟合.由表中数据可得b ^≈0.181 2,a ^≈-0.848 5,故z ^=0.181 2x -0.848 5,所以y ^=e 0.181 2x -0.848 5,因此该化学物质的反应速度与催化剂的量的非线性回归方程为y ^=e 0.181 2x -0.848 5.课堂达标·固基础1.关于回归分析,下列说法错误的是( D ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,预报变量在y 轴 C .回归模型中一定存在随机误差 D .散点图能明确反映变量间的关系[解析] 用散点图反映两个变量间的关系时,存在误差.2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:A .甲B .乙C .丙D .丁[解析] 相关指数R 2越大,表示回归模型的效果越好.3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( D )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg[解析] A ,B ,C 均正确,是回归方程的性质,D 项是错误的,线性回归方程只能预测学生的体重,选项D 应改为“若该大学生某女生身高为170 cm ,则估计其体重大约为58.79 kg ”.4.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得线性回归方程y ^=bx +a 中b =-2,预测当气温为-4 ℃时,用电量的度数约为__68__.[解析] x =10,y =40,回归方程过点(x ,y ), ∴40=-2×10+a . ∴a =60.∴y ^=-2x +60.令x =-4,∴y ^=(-2)×(-4)+60=68.。
2019-2020学年高中数学人教A版选修2-3练习:3.1 回归分析的基本思想及其初步应用 Word版含解析
学业分层测评(建议用时:45分钟)[学业达标]一、选择题1.为了研究变量x和y的线性相关性,甲、乙两人分别利用线性回归方法得到回归直线l1和l2,已知两人计算过程中x-,y-分别相同,则下列说法正确的是( )A.l1与l2一定平行B.l1与l2重合C.l1与l2相交于点(x-,y-)D.无法判断l1和l2是否相交-,y-),故C正确.【解析】回归直线一定过样本点的中心(x【答案】 C2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:A.甲B.乙C.丙D.丁【解析】相关指数R2越大,表示回归模型的拟合效果越好.【答案】 A3.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )【解析】用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.【答案】 A4.对于指数曲线y =a e bx ,令U =lny ,c =lna ,经过非线性化回归分析后,可转化的形式为( )A .U =c +bxB .U =b +cxC .y =c +bxD .y =b +cx【解析】 由y =a e bx 得ln y =ln(a e bx ),∴ln y =ln a + ln e bx ,∴ln y =ln a +bx ,∴U =c +bx .故选A. 【答案】 A5.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如表所示:则y 对x A.y^=x -1 B.y ^=x +1 C.y ^=88+12x D.y^=176 【解析】 设y 对x 的线性回归方程为y^=b ^x +a ^,因为b ^=错误!=错误!,错误!=176-错误!×176=88,所以y 对x 的线性回归方程为错误!=12x +88.【答案】 C 二、填空题6.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性进行分析,并用回归分析的方法分别求得相关指数R 2与残差平方和Q (a^,b ^)如下表:则能体现A ,B【解析】丁同学所求得的相关指数R2最大,残差平方和Q(a^,b^)最小.此时A,B两变量线性相关性更强.【答案】丁7.在对两个变量进行回归分析时,甲、乙分别给出两个不同的回归方程,并对回归方程进行检验.对这两个回归方程进行检验时,与实际数据(个数)对比结果如下:【解析】可以根据表中数据分析,两个回归方程对数据预测的正确率进行判断,甲回归方程的数据准确率为3240=45,而乙回归方程的数据准确率为4060=23.显然甲的准确率高些,因此甲回归方程好些.【答案】甲8.如果某地的财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0. 8,a=2,|e|≤0.5,如果今年该地区财政收入为10亿元,则年支出预计不会超过________亿元. 【导学号:97270060】【解析】∵x=10时,y=0.8×10+2+e=10+e,∵|e|≤0.5,∴y≤10.5.【答案】10.5三、解答题9.某服装店经营某种服装,在某周内纯获利y(元)与该周每天销售这种服装件数x之间的一组数据如下表:(1)(2)画出散点图;(3)求纯获利y与每天销售件数x之间的回归方程.【解】(1)x-=6,y-≈79.86,样本点的中心为(6,79.86).(2)散点图如下:(3)因为b^=错误!≈4.75,错误!=错误!-错误!错误!≈51.36,所以y^=4.75x+51.36.10.为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下:(1)(2)求y与x之间的回归方程.【解】(1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y=c1e c2x的周围,于是令z=ln y,则由计算器算得,z^=0.69x+1.112,则有y^=e0.69x+1.112.[能力提升]1.(2016·青岛一中调研)某学生四次模拟考试中,其英语作文的减分情况如表:显然所减分数y( ) A.y=0.7x+5.25 B.y=-0.6x+5.25C.y=-0.7x+6.25 D.y=-0.7x+5.25【解析】由题意可知,所减分数y与模拟考试次数x之间为负相关,所以排除A.考试次数的平均数为x=14(1+2+3+4)=2.5,所减分数的平均数为y =14(4.5+4+3+2.5)=3.5,即直线应该过点(2.5,3.5),代入验证可知直线y =-0.7x +5.25成立,故选D. 【答案】 D2.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:若x 与y【解析】 ∑i =1nx i y i =6×2+8×3+10×5+12×6=158,x -=6+8+10+124=9,y -=2+3+5+64=4,∑i =1nx2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7,a ^=y --b ^x -=4-0.7×9=-2.3, 故线性回归方程为y ^=0.7x -2.3. 【答案】 y ^=0.7x -2.33.某品牌服装专卖店为了解保暖衬衣的销售量y (件)与平均气温x (℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:由表中数据算出线性回归方程y ^=b ^x +a ^中的b ^=-2,样本中心点为(10,38). (1)表中数据m =__________.(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为__________件.【解析】 (1)由y =38,得m =40. (2)由a^=y -b ^ x ,得a ^=58, 故y^=-2x +58, 当x =22时,y^=14,故三月中旬的销售量约为14件. 【答案】 (1)40 (2)14 4.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图3-1-2表中w i =xi ,w ]=18∑i =18 w i .(1)根据散点图判断,y =a +bx 与y =c +d x哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i-u )(v i-v )∑i =1n (u i -u )2,α^=v -β^ u . 【解】 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d^=错误!=错误!=68, c^=y -d ^ w =563-68×6.8=100.6, 所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时, 年销售量y 的预报值y^=100.6+6849=576.6,年利润z 的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
高中数学人教A版选修2-3作业3-1回归分析的基本思想及其初步应用3
3.1 回归分析的基本思想及其初步应用1. 关于回归分析,下列说法错误的是()A.回归分析是研究两个具有相关关系的变量的方法B.散点图中,解释变量在x轴,预报变量在y轴C.回归模型中一定存在随机误差D.散点图能明确反映变量间的关系解析:用散点图反映两个变量间的关系时,存在误差.答案:D2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关系数r分别如下表:A.甲B.乙C.丙D.丁解析:相关系数r越大,表示回归模型的效果越好.答案:A3. 某学校以模拟考试的数学成绩预报高考数学成绩的回归方程为y=0.5x+62.5,用这个方程预报一位模拟考试数学成绩为100分的同学的高考数学成绩,下列叙述正确的是()A.该同学的高考数学成绩一定是112.5分B.该同学的高考数学成绩在112.5分以上C.该同学的高考数学成绩在112.5分以下D.该同学的高考数学成绩在112.5分左右解析:根据回归直线方程的特征,回归直线不一定经过样本点,但一定经过样本点的中心,当x =100时,y =62.5+0.5×100=112.5,所以该同学的高考数学成绩在112.5分左右,故选D.答案:D4.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:4 ℃时,用电量的度数约为________.解析:x -=10,y -=40,回归方程过点(x -,y -),∴40=-2×10+a .∴a =60.∴y =-2x +60.令x =-4,∴y =(-2)×(-4)+60=68.答案:685. 五个学生的数学与物理成绩如下表,求其相关系数.解:由表中给出数据可以得出:x =70;y =66;∑i =15x 2i =24750;∑i =15y 2i =21820;∑i =15x i y i =23190. ∴r =∑i =15x i y i -5x y(∑i =15x 2i -5x 2)(∑i =15y 2i -5y 2)=23190-5×70×66(24750-5×702)(21820-5×662)=0.9.。
数学人教A版选修2-3教材梳理:3.1回归分析的基本思想及其初步应用含解析
庖丁巧解牛知识·巧学一、回归直线方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程的截距和斜率的最小二乘估计公式分别为:aˆ=x b y ˆ=, =∑∑==---ni i i ni ix x y y x x121)()()(。
回归直线方程中的x =),(,1,111y x y n y x n ni i n i i ∑∑===称为样本点的中心。
回归直线过样本点的中心.二、相关系数及相关检验给定(x i ,y i )(i=1,2,…,n ),只要x 1,x 2,…,x n 不全相等,就能求出一条回归直线,因此它有无意义就是个大问题。
由于根据散点图看数据是否大致在一直线附近主观性太强,可利用下面量化的检验法。
当x i 不全相等,y i 也不全相等时,r=21121)()())((∑∑∑===----ni ni iini i iy yx xy y x x。
叫做变量y与x之间的样本相关系数(简称相关数),|r|≤1. 当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关。
r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近0时,表明两个变量之间几乎不存在线性相关关系. 通常,当r的绝对值大于0.75时认为两个变量有很强的线性相关关系.联想发散 注意此处空半格当|r|与1接近到什么程度才表明Y 与x之间具有线性相关关系呢?为明确这一点,常通过相关性检验的方法,其步骤如下:(1)作统计假设:x与Y 不具有线性相关关系;(2)根据小概率0.05与n-2在附表中查出r的一个临界值r 0.05; (3)根据样本相关系数计算公式算出r的值;(4)作统计推断,如果|r|>r 0.05,表明有95%的把握认为x与y 之间具有线性相关关系。
如果|r|≤r 0.05,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的. 三、回归分析 1.随机误差在线性回归模型y=bx+a+e 中,a 和b 为模型的未知参数,e 是y 与yˆ=bx+a 之间的误差,通常e为随机变量,称为随机误差.它的均值E(e)=0,方差D (e)=σ2>0.线性回归模型的完整表达形式为⎩⎨⎧==++=.)(,0)(,2σe D e E e a bx y 在此模型中,随机误差r的方差σ2越小,通过回归直线=bx+a 预报真实值y的精度越高。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[课时作业] [A 组 基础巩固]1.下列各关系中是相关关系的是 ( )①路程与时间、速度的关系;②加速度与力的关系;③产品成本与产量的关系;④圆周长与圆面积的关系;⑤广告费支出与销售额的关系. A .①②④ B .①③⑤ C .③⑤D .③④⑤解析:①②④都是确定的函数关系. 答案:C2.下列关于残差的叙述正确的是( ) A .残差就是随机误差 B .残差就是方差 C .残差都是正数D .残差可用来判断模型拟合的效果 解析:由残差的相关知识可知D 正确. 答案:D3.由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程为y ^=b ^x +a ^,那么下列说法中不正确的是( ) A .直线y ^=b ^x +a ^必经过点(x -,y -)B .直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点C .直线y ^=b ^x +a ^的斜率为1ni =∑x i y i -n x - y-1ni =∑x 2i -nx2D .直线y ^=b ^x +a ^的纵截距为y -b ^x解析:由用最小二乘法求回归直线方程的公式可知,A ,C ,D 都正确,B 不正确,回归直线可以不经过样本数据中的任何一个点.故应选B. 答案:B4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:由变量x 与y 正相关知C ,D 均错,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A. 答案:A5.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得y ^=0.577x -0.448(x 为人的年龄,y (单位:%)为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )A .年龄为37岁的人体内脂肪含量都为20.90%B .年龄为37岁的人体内脂肪含量为21.01%C .年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%D .年龄为37岁的大部分的人体内脂肪含量为31.50%解析:当x =37时,y ^=0.577×37-0.448=20.901≈20.90,由此估计:年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%. 答案:C6.如图是x 和y 的样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.解析:经计算,去掉D (3, 10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大. 答案:D (3,10)7.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:由题意知[0.254(x +1)+0.321]-[0.254x +0.321]=0.254. 答案:0.2548.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________. 解析:由表格得(x ,y )为(10,38),又(x ,y )在回归直线y ^=b ^x +a ^上,且b ^≈-2, ∴38=-2×10+a ^,a ^=58,所以y ^=-2x +58,当x =6时,y ^=-2×6+58=46. 答案:469.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如表:由资料看y 与解析:x =30,y =66.7+76.0+85.0+112.3+128.05=93.6.b ^=51i =∑x i y i -5x -y-51i =∑x 2i -5x2=17 035-14 0407 900-4 500=2 9953 400≈0.880 9. a ^=y -b ^x =93.6-0.880 9×30=67.173. 故回归方程为y ^=0.880 9x +67.173.10.某地10户家庭的年收入和年饮食支出的统计资料如下表:(2)如果某家庭年收入为9万元,预测其年饮食支出.解析:由题意知,年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如下图所示:从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系. (2)x =6,y =1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,b ^≈0.172,a ^=y -b ^x =0.798,从而得到回归直线方程为y ^=0.172x +0.798. 当x =9时,y ^=0.172×9+0.798=2.346(万元).[B 组 能力提升]1.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2如表:A .甲B .乙C .丙D .丁解析:相关指数R 2越大,表示回归模型的拟合效果越好. 答案:A2.在一次试验中,测得(x ,y )的四组值分别是(1,2),(2,3),(3,4),(4,5),则y 与x 间的回归方程为( ) A.y ^=x +1 B.y ^=x +2 C.y ^=2x +1D.y ^=x -1解析:易知变量y 与x 具有线性相关关系,且b ^=1,x =2.5,y =3.5,∴a ^=3.5-1×2.5=1,故可得出线性回归方程为y ^=x +1. 答案:A3.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________. 解析:由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y ^-5=1.23(x -4),即y ^=1.23x +0.08. 答案:y ^=1.23x +0.084.某小卖部为了了解热茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:由表中数据算得线性回归方程y =b x +a 中的b ≈-2,预测当气温为-5 ℃时,热茶销售量为________杯.(已知回归系数b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y -b ^x )解析:根据表格中的数据可求得x =14×(18+13+10-1)=10,y =14×(24+34+38+64)=40.∴a ^=y -b ^x =40-(-2)×10=60,∴y ^=-2x +60, 当x =-5时,y ^=-2×(-5)+60=70. 答案:705.某公司利润y (单位:千万元)与销售总额x (单位:千万元)之间有如表对应数据:(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解析:(1)散点图如图:(2)列表,并利用科学计算器进行有关计算.于是b ^=346.3-7×21×2.13 447-7×212≈0.104.a ^=2.1-0.104×21=-0.084, 因此回归直线方程为y ^=0.104x -0.084.(3)当x =24时,y =0.104×24-0.084=2.412(千万元).6.为探究某弹簧悬挂物体的质量x (单位:g)对弹簧长度y (单位:cm)的影响,分别将6个不同质量的物体悬挂在弹簧下,并测量弹簧的长度,数据如表所示(弹簧的质量忽略不计):(1)(2)根据散点图判断是否可以用线性回归模型进行拟合,如果可以,求y 与x 之间的回归直线方程;(3)求R 2,并对拟合效果做出评价. 解析:(1)散点图如图所示:(2)由于样本点分布在一条直线附近,所以可以用线性回归模型进行拟合.计算可得x =17.5,y ≈9.487,从而b ^=∑i =16(x i -x )(y i -y )∑i =16(x i -x )2≈0.183,a ^=y -b ^x ≈6.285.因此,y 与x 之间的回归直线方程为y ^=0.183x +6. 285. (3)因为∑i =16(y i -y ^i )2=0.013 175,∑i =16(y i -y )2=14.678 33,所以R 2=1-∑i =16(y i -y ^i )2∑i =16(y i -y )2≈0.999.由于R 2非常接近于1,因此拟合效果较好.。