步步高高中数学 步步高选修2-3 3.1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.1 回归分析的基本思想及其初步应用
[学习目标]
1.了解随机误差、残差、残差图的概念.
2.会通过分析残差判断线性回归模型的拟合效果. 3.掌握建立线性回归模型的步骤. [知识链接]
1.什么叫回归分析?
答 回归分析是对具有相关关系的两个变量进行统计分析的一种方法. 2.回归分析中,利用线性回归方程求出的函数值一定是真实值吗?
答 不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食、是否喜欢运动等. [预习导引] 1.线性回归模型
(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系. (2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. (3)对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑n
i =1 (x i -x -)(y i -y -
)∑n
i =1 (x i -x -)2
=∑n
i =1x i y i -nx -
y -
∑n
i =1x 2i
-nx -2,a ^=y --b ^
x -,其中(x -,y -
)称为样本点的中心.
(4)线性回归模型y =bx +a +e ,其中a 和b 是模型的未知参数,e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量. 2.残差的概念
对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差. 3.刻画回归效果的方式 (1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高. (2)残差平方和法
残差平方和∑n
i =1 (y i -y ^i )2,残差平方和越小,模型拟合效果越好. (3)利用R 2刻画回归效果
R 2=1-∑n
i =1
(y i -y ^
i )2∑n i =1 (y i -y -
)2
;R 2表示解释变量对于预报变量变化的贡献率.R 2越接近于1,表示回归的效果越好.
要点一 求线性回归方程
例1 某班5名学生的数学和物理成绩如下表:
(1)画出散点图;
(2)求物理成绩y 对数学成绩x 的回归直线方程; (3)一名学生的数学成绩是96,试预测他的物理成绩. 解 (1)散点图如图.
(2)x -=1
5×(88+76+73+66+63)=73.2,
y -
=1
5×(78+65+71+64+61)=67.8.
∑5
i =1x i y i
=88×78+76×65+73×71+66×64+63×61=25 054. ∑5
i =1x 2i =882+762+732+662+632=27 174. 所以b ^
=∑5
i =1x i y i -5x - y -
∑5i =1x 2i
-5x -2=25 054-5×73.2×67.827 174-5×73.2
2
≈0.625. a ^=y --b ^
x -≈67.8-0.625×73.2=22.05.
所以y 对x 的回归直线方程是y ^=0.625x +22.05. (3)x =96,则y ^=0.625×96+22.05≈82, 即可以预测他的物理成绩是82.
规律方法 (1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.
(2)求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.
跟踪演练1 以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为150 m 2时的销售价格. 解 (1)数据对应的散点图如下图所示:
(2)x -=15∑5
i =1x i =109,∑5i =1
(x i -x -)2=1 570, y -
=23.2,∑5
i =1 (x i -x -)(y i -y -
)=308. 设所求回归直线方程为y ^=b
^x +a ^, 则b ^=∑5
i =1 (x i -x -)(y i -y -
)∑5
i =1
(x i -x -)2
=3081 570≈0.196 2, a ^=y --b ^
x -
=0.181 42.
故所求回归直线方程为y ^
=0.196 2x +1.814 2. 回归直线如上图所示.
(3)据(2),当x =150 m 2时,销售价格的估计值为 y ^
=0.196 2×150+1.814 2=31.244 2(万元). 要点二 线性回归分析
例2 为研究重量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
(1)作出散点图并求线性回归方程; (2)求出R 2; (3)进行残差分析. 解 (1)散点图如图
x -
=1
6(5+10+15+20+25+30)=17.5,
y -
=1
6(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
∑6
i =1x 2
i =2 275,∑6
i =1x i y i
=1 076.2 计算得,b
^≈0.183,a ^≈6.285, 所求回归直线方程为y ^=0.183x +6.285. (2)列表如下:
所以∑6
i =1 (y i -y ^i )2≈0.013 18,∑6
i =1
(y i -y -)2
=14.678 4. 所以,R 2=1-0.013 1814.678 4≈0.999 1,
回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.
规律方法 在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,通过残差e ^1,e ^2,…,e
^n
来判断模型拟合的效果,判断原始数据中是否存在可疑数据.若残差点比较均
匀地分布在水平带状区域内,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.
跟踪演练2 已知某种商品的价格x (元)与需求量y (件)之间的关系有如下一组数据:
求y 对x 的回归直线方程,并说明回归模型拟合效果的好坏. 解 x -
=1
5(14+16+18+20+22)=18,
y -
=1
5(12+10+7+5+3)=7.4,
∑5
i =1x 2i
=142+162+182+202+222=1 660, ∑5
i =1x i y i
=14×12+16×10+18×7+20×5+22×3=620, 所以b ^
=∑5
i =1x i y i -5x - y -
∑5i =1x 2i -5x -2
=620-5×18×7.41 660-5×182=-1.15. a
^=7.4+1.15×18=28.1,
所以所求回归直线方程是y ^=-1.15x +28.1. 列出残差表:
所以,∑5
i =1 (y i -y ^i )2
=0.3,∑5
i =1
(y i -y -)2=53.2, R 2=1-∑5
i =1
(y i -y ^i )2
∑5i =1 (y i -y -
)2
≈0.994, 所以回归模型的拟合效果很好. 要点三 非线性回归分析 例3 下表为收集到的一组数据:
(1)作出x 与y 的散点图,并猜测x 与y 之间的关系; (2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预报x =40时y 的值.
解(1)作出散点图如下图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1e c2x的周围,其中c1,c2为待定的参数.
(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a(a=ln c1,b=c2)的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为
^=0.272x-3.849,
求得回归直线方程为z
^=e0.272x-3.849.
∴y
残差
(3)当x=40时,y=e0.272x-3.849≈1 131.
规律方法解决非线性回归问题的方法及步骤
(1)确定变量:确定解释变量为x,预报变量为y;
(2)画散点图:通过观察散点图并与学过的函数(幂、指数、对数函数、二次函数)作比较,选取拟合效果好的函数模型;
(3)变量置换:通过变量置换把非线性回归问题转化为线性回归问题;
(4)分析拟合效果:通过计算相关指数等来判断拟合效果;
(5)写出非线性回归方程.
跟踪演练3为了研究某种细菌随时间x变化时,繁殖个数y的变化,收集数据如下:
(1)用天数x 作解释变量,繁殖个数y 作预报变量,作出这些数据的散点图; (2)描述解释变量x 与预报变量y 之间的关系; (3)计算相关指数.
解 (1)作散点图如图所示.
(2)由散点图看出样本点分布在一条指数函数y =c 1e c 2x 的周围,于是令z =ln y ,则有变换后的样本点应分布在直线z =bx +a (a =ln c 1,b =c 2)的周围,这样就可以利用线性回归模型来建立y 与x 之间的非线性回归方程了,数据可以转化为
由计算器得:z ^=0.69x +1.115,则有y ^=e 0.69x +
1.115. (3)
y -
=3776,∑n i =1 e ^21=∑n i =1
(y i -y ^)2=4.816 1, ∑n i =1 (y i -y -)2=24 642.8,R 2
=1-4.816 124 642.8≈0.999 8, 即解释变量天数对预报变量繁殖细菌个数解释了99.98%.
1.下列各组变量之间具有线性相关关系的是( ) A .出租车费与行驶的里程 B .学习成绩与学生身高
C .身高与体重
D .铁的体积与质量 答案 C
2.若劳动生产率x (千元)与月工资y (元)之间的线性回归方程为y ^=50+80x ,则下列判断正确的是( )
A .劳动生产率为1 000元时,月工资为130元
B .劳动生产率提高1 000元时,月工资平均提高80元
C .劳动生产率提高1 000元时,月工资平均提高130元
D .月工资为210元时,劳动生产率为2 000元 答案 B
3.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( ) A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200 D.y ^=10x -200 答案 A
解析 由于销售量y 与销售价格x 成负相关,故排除B 、D.又当x =10时,A 中y =100,而C 中y =-300,C 不符合题意,故选A.
4.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
(1)求年推销金额y 关于工作年限x 的线性回归方程;
(2)若第6名推销员的工作年限为11年,试估计他的年推销金额. 解 (1)设所求的线性回归方程为y ^=b ^x +a ^, 则b ^=∑5
i =1 (x i -x -)(y i -y -
)∑5
i =1
(x i -x -)2
=1020=0.5, a ^=y --b ^
x -
=0.4.
所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4.
(2)当x=11时,y^=0.5x+0.4=0.5×11+0.4=5.9(万元).
所以可以估计第6名推销员的年推销金额为5.9万元.
回归分析的基本思路
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y^=b^x+a^);
(4)按一定规则估计回归方程中的参数;
(5)提出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.
一、基础达标
1.在下列各量之间,存在相关关系的是()
①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;
③人的身高与年龄之间的关系;④家庭的支出与收入之间的关系;⑤某户家庭用电量与电价之间的关系.
A.②③B.③④C.④⑤D.②③④
答案D
2.设某大学的女生体重y(单位:kg)与身高x(单位:cm)有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x -85.71,下列结论中不正确的是()
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(x-,y-)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D
解析 由回归方程为y ^=0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正
的线性相关关系;由最小二乘法建立回归方程的过程知y ^=b ^x +a ^=b ^x +y --b ^x -
(a ^
=y -
-b ^
x -),所以回归直线过样本点的中心(x -,y -);利用回归方程可以估计总体,所以D 不正确.
3.某产品的广告费用x 与销售额y 的统计数据如下表:
根据上表可得回归方程y ^=b ^x +a ^中的b ^
为9.4,据此模型预报广告费用为6万元时销售额为( )
A .63.6万元
B .65.5万元
C .67.7万元
D .72.0万元 答案 B
解析 ∵x -
=4+2+3+54=72,y -=49+26+39+544=42,
又y ^=b ^x +a ^必过(x -,y -
),∴42=72×9.4+a
^,∴a ^=9.1.
∴线性回归方程为y ^=9.4x +9.1.
∴当x =6(万元)时,y ^=9.4×6+9.1=65.5(万元).
4.甲、乙、丙、丁四位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑n
i =1
(y i -y ^i )2如下表
哪位同学的实验结果体现拟合A ,B 两变量关系的模型拟合精度高?( )
A .甲
B .乙
C .丙
D .丁 答案 D
5.如果散点图的所有点都在一条直线上,则残差均为________,残差平方和为________,相关指数为________. 答案 0 0 1
6.对具有线性相关关系的变量x 和y ,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________. 答案 y ^=-10+6.5x
解析 由题意知x -
=2,y -
=3,b ^=6.5,所以a ^=y --b ^
x -
=3-6.5×2=-10,即回归
直线的方程为y ^=-10+6.5x .
7.某个服装店经营某种服装,在某周内纯获利y (元)与该周每天销售这种服装件数x 之间的一组数据如下表:
(1)求样本中心点; (2)画出散点图;
(3)求纯获利y 与每天销售件数x 之间的回归方程.
解 (1)x -
=6,y -
=79.86,中心点(6,79.86). (2)散点图如下:
(3)因为b ^=∑7
i =1 (x i -x -)(y i -y -
)∑7
i =1
(x i -x -)2
≈4.75, a ^=y --b ^
x -
≈51.36,所以y ^=4.75x +51.36.
二、能力提升
8.(2013·福建)已知x 与y 之间的几组数据如下表:
假设根据上表数据所得线性回归直线方程为y ^=b ^x +a ^.若某同学根据上表中的前
两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( ) A.b
^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′ 答案 C
解析 x -
=
1+2+3+4+5+66
=7
2,
y -
=0+2+1+3+3+46
=136,
b ^
=∑n
i =1x i y i -nx - y -
∑n i =1x 2i
-nx -
2=57, a ^=y --b ^
x -
=-13,
b ′=
2-02-1
=2>b ^,a ′=-2<a ^.
9.下表是x 和y 之间的一组数据,则y 关于x 的回归方程必过( )
A.点(2,3) B .点(1.5,4) C .点(2.5,4) D .点(2.5,5) 答案 C
解析 回归方程必过样本点的中心(x -
,y -
),即(2.5,4).
10.如图是x 和y 的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.
答案 D (3,10)
解析 去掉D (3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大. 11.某地最近十年粮食需求量逐年上升,下表是部分统计数据:
(1)利用所给数据求年需求量与年份之间的回归直线方程y ^=b ^x +a ^;
(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.
解 (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,先将数据处理如下:
对处理的数据,容易算得x -
=0,y -
=3.2,
b
^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5,
a ^=y --
b ^
x -
=3.2.由上述计算结果,知所求回归直线方程为y ^-257=6.5(x -2 006)
+3.2.
即y ^=6.5(x -2 006)+260.2.
(2)利用所求得的直线方程,可预测2012年的粮食需求量为6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).
12.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
(1)求回归直线方程y ^=b ^x +a ^,其中b ^=-20,a ^=y --b ^
x -
;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入—成本)
解 (1)x -
=8+8.2+8.4+8.6+8.8+96=8.5,y -
=
1
6(90+84+83+80+75+68)=80
∵b ^=-20,a ^=y ^-b ^
x -
,
∴a
^=80+20×8.5=250 ∴回归直线方程y ^=-20x +250;
(2)设工厂获得的利润为L 元,则L =x (-20x +250)-4(-20x +250)=-20(x -334)2
+361.25
∴该产品的单位应定为33
4元,工厂获得的利润最大. 三、探究与创新
13.(2013·重庆卷)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑10i =1x i =80,∑10i =1y i =20,∑10
i =1x i y i =184,∑10
i =1x 2i
=720. (1)求家庭的月储蓄y 对月收入x 的线性回归方程y ^=b ^x -
+a
^;
(2)判断变量x 与y 之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 附:线性回归方程y ^=b ^x +a ^中,b ^=∑n
i =1x i y i -nx - y -
∑n i =1x 2i
-nx -
2,a ^
=y --bx -, 其中x -
,y -
为样本平均值. 解 (1)由题意知
n =10,x -
=1n ∑n i =1x i =8010=8,y -
=1n ∑n i =1y i =20
10=2,
又
l xx =∑n
i =1x 2i
-nx -
2=720-10×82=80, l xy =∑n
i =1x i y i
-nx -
y -
=184-10×8×2=24, 由此得b ^=l xy l xx
=2480=0.3,a ^=y --b ^
x -
=2-0.3×8=-0.4,
故所求回归方程为y ^=0.3x -0.4.
(2)由于变量y 的值随x 的值增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄为y ^=0.3×7-0.4=1.7(千元).。