高中数学第1章统计案例1.1回归分析的基本思想及其初步应用学案新人教A版选修1_220180914134
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1 回归分析的基本思想及其初步应用
学习目标:1.了解随机误差、残差、残差图的概念.(重点)2.会通过分析残差判断线性回归模型的拟合效果.(重点)3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)
[自 主 预 习·探 新 知]
1.回归分析的相关概念 (1)回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. (2)回归直线方程
方程y ^=b ^x +a ^
是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,
y n )的回归方程,其中a ^,b ^
是待定参数,其最小二乘估计分别为:
⎩⎪⎨⎪⎧
b ^=∑i =1
n
x i
-
x y i
-y ∑i =1
n
x i
-x 2
=
∑i =1
n
x i y i -n x y
∑i =1
n
x 2i -n x 2
,
a ^=y -
b ^
x ,
其中x =1
n ∑i =1n
x i ,y =1n ∑i =1
n
y i ,(x ,y )称为样本点的中心.
(3)线性回归模型
样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y =bx +
a 来描述它们之间的关系,而是用线性回归模型y =bx +a +e 来表示,其中a 和
b 为模型的
未知参数,e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量.
思考:在线性回归模型y =bx +a +e 中,e 产生的原因主要有哪几种? [提示]随机误差产生的原因主要有以下几种: (1)所用的确定性函数不恰当引起的误差; (2)忽略了某些因素的影响; (3)存在观测误差. 2.残差的概念
对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,
i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^
i 称为相应于点(x i ,y i )的残差.
3.刻画回归效果的方式 R 2
=1-
∑i =1
n
y i -y ^
i
2
∑i =1
n
y i -
y
2
,R 2表示解释变量对于预报变量变化的贡献率,R 2
越接近
于1,表示模型的拟合效果越好
1.思考辨析
(1)相关指数R 2
越小,线性回归方程的拟合效果越好.
( )
(2)在线性回归模型中,e 是bx +a 预报真实值y 的随机误差,它是一个可观测的量. (3)线性回归方程y ^=b ^x +a ^
必过样本点的中心(x ,y ). ( )
[答案] (1)× (2)× (3)√
2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2
分别如下表:
【导学号:48662000】
A .甲
B .乙
C .丙
D .丁
A [相关指数R 2
越大,表示回归模型的拟合效果越好.]
3.甲、乙、丙、丁4位同学各自对A 、B 两变量做回归分析,分别得到散点图与残差平
方和∑i =1
n
(y i -y ^
i )2
如表所示:
模型拟合精度高.
丁 [根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和
越小(对于已经获取的样本数据,R 2
表达式中 i =1
n
(y i -y )2
为确定的数,则残差平方和越小,
R 2越大),由回归分析建立的线性回归模型的拟合效果就越好,由试验结果知丁要好些.]
4.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^
=0.85x -85.71,则下列结论中正确的是________(填序号).
【导学号:48662001】
(1)y 与x 具有正的线性相关关系; (2)回归直线过样本点的中心(x ,y
)
;
(3)若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ; (4)若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg.
(1)(2)(3) [回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,(1)正确;
由回归方程系数的意义可知回归直线过样本点的中心(x ,y ),(2)正确;
依据回归方程中b ^的含义可知,x 每变化1个单位,y ^
相应变化约0.85个单位,(3)正确; 用回归方程对总体进行估计不能得到肯定结论,故(4)不正确.]
[合 作 探 究·攻 重 难
]
(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^
; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
【导学号:48662002】
[解] (1)如图:
(2)∑i =1
n
x i y i =6×2+8×3+10×5+12×6=158,
x =
6+8+10+124=9,y =2+3+5+6
4
=4,
∑i =1
n
x 2
i =62+82+102+122
=344, b ^=158-4×9×4344-4×9
2=
1420
=0.7, a ^=y -b ^
x =4-0.7×9=-2.3,
故线性回归方程为y ^
=0.7x -2.3.
(3)由(2)中线性回归方程当x =9时,y ^
=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.
列出散点图,从直观上分析数据间是否存在线性相关关系计算:
代入公式求出^^
^
^写出线性回归方程并对实际问题作出估计提醒:只有在散点图大致呈线性时,程毫无意义
.
1.某种产品的广告费用支出x 与销售额y (单元:百万元)之间有如下的对应数据:
(2)求线性回归方程;
(3)试预测广告费用支出为10百万元时的销售额. [解] (1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
所以,x =255=5,y =2505=50,∑i =1
5
x 2
i =145,
∑i =1
5
x i y i =1 380.
于是可得b ^
=
∑i =1
5
x i y i -5x y
∑i =1
5
x 2i -5x 2
=1 380-5×5×50
145-5×5
2
=6.5, a ^=y -b ^
x =50-6.5×5=17.5.
所以所求的线性回归方程为y ^
=6.5x +17.5.
(3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时,
y ^
=6.5×10+17.5=82.5(百万元),
即广告费用支出为10百万元时,销售额大约为82.5百万元.
个物体进行测量,数据如下表所示:
(2)求出R 2
; (3)进行残差分析.
【导学号:48662003】
[解] (1)散点图如图.
x =16(5+10+15+20+25+30)=17.5,
y =16
(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
∑i =1
6
x 2
i =2 275,∑i =1
6
x i y i =1 076.2,
计算得,b ^≈0.183,a ^≈6.285, 所求回归直线方程为y ^
=0.183x +6.285. (2)列表如下:
所以∑i =1
6
(y i -y ^i )2≈0.013 18,∑i =1
6
(y i -y )2
=14.678 4.
所以,R 2
=1-0.013 1814.678 4≈0.999 1,
回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.
y i -i
2
y i -2
可知,.残差图也是用来刻画回归效果的,判断依据是残差点比较均匀地分布在水平带状区2.关于x 与y 有如下数据:
有如下的两个线性模型:(1)y =6.5x +17.5;(2)y =7x +17.试比较哪一个拟合效果更好.
[解] 由(1)可得y i -y ^
i 与y i -y 的关系如下表:
∴∑i =1
5
(y i -y ^
i )2
=(-0.5)2
+(-3.5)2
+102
+(-6.5)2
+0.52
=155,
∑i =1
5
(y i -y )2=(-20)2+(-10)2+102+02+202=1 000.
∴R 21
=1-
∑i =1
5
y i -y ^
i
2
∑i =1
5
y i -y
2
=1-1551 000
=0.845.
由(2)可得y i -y ^
i 与y i -y 的关系如下表:
∴∑i =1
5
(y i -y ^
i )2
=(-1)2
+(-5)2
+82
+(-9)2
+(-3)2
=180,
∑i =1
5
(y i -y )2=(-20)2+(-10)2+102+02+202=1 000.
∴R 22
=1-
∑i =1
5
y i -y ^
i
2
∑i =15
y i -y
2
=1-1801 000
=0.82,
由于R 2
1=0.845,R 2
2=0.82,0.845>0.82,∴R 21>R 2
2. ∴(1)的拟合效果好于(2)的拟合效果.
1.已知x 和y 之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?
2③y =4x;
④y =x 2
.
提示:观察散点图中样本点的分布规律可判断样本点分布在曲线y =3×2x -1
附近.所以
模拟效果最好的为①.
2.如何将上题函数变换为线性函数? 提示:将y =3×2
x -1
两边取自然对数得ln y =ln 3+(x -1)ln 2.
令⎩⎪⎨⎪⎧
y ′=ln y ,x ′=x ,
则原方程变为y ′=ln 3+x ′ln 2-ln 2=ln 3
2
+x ′ln 2.这样y ′
与x ′成线性函数关系.
为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:
断:y =a +bx 与y =c 1e c 2x 哪一个作为繁殖的个数y 关于时间x 变化的回归方程类型为最佳?(给出判断即可,不必说明理由)
其中z i =ln y i ;z =
16∑i =1
6
z i .
(2)根据(1)的判断最佳结果及表中的数据,建立y 关于x 的回归方程.
【导学号:48662004】
参考公式:b ^
=
∑i =1
n
x i -x
y i -y
∑i =1
n
x i -x
2
,a
^=y -b ^
x .
思路探究:(1)根据收集数据,可得数据的散点图;
(2)由散点图看出样本点分布在一条指数型曲线y =c e bx
(c >0)的周围,则ln y =bx +ln
c .变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合,即可求出y 对x 的回归方程.
[解] (1)作出散点图,如图1所示.
图1 图2
由散点图看出样本点分布在一条指数函数y =c 1e c 2x 的周围,于是选择y =c 1e c 2x . (2)令z =ln y ,则z =bx +a .
从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.
由b ^
=
∑i =1
6
x i -x
z i -z
∑i =1
6
x i -x
2
≈0.69,
a ^=z -
b ^
x =1.115,得z =0.69x +1.115;
则有y ^
=e
0.69x +1.115
.
母题探究:1.(变结论)在本例条件不变的情况下,试估计第7天细菌繁殖个数. [解] ∵y ^
=e
0.69x +1.115
,
∴当x =7时,y ^
≈382(个)
即第7天细菌繁殖个数约为382个. 2.(变结论)计算相关指数. [解] 残差计算如下表:
即解释变量“天数”对预报变量“繁殖细菌个数”解释了99.98%. 确定变量:确定解释变量为画散点图:通过观察散点图并与学过的函数幂、指数、对数函数、二次函数
作比较,选取拟合效果好的函数模型;变量置换:通过变量置换把非线性回归问题转化为线性回归问题;分析拟合效果:通过计算相关指数等来判断拟合效果;写出非线性回归方程1.下表是x 和y 之间的一组数据,则y 关于x 的线性回归方程必过点( )
【导学号:48662005】
C .(2.5,4)
D .(2.5,5)
C [线性回归方程必过样本点的中心(x ,y ),即(2.5,4),故选C.]
2.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
A B
C D
A [用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.]
3.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.
1 [∵e i 恒为0,∴样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )均落在直线y =bx +a 上, ∴变量x ,y 成函数关系,即R 2=1.]
4.已知回归方程y ^
=2x +1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和等于________.
0.03 [(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.]
5.已知x ,y 之间的一组数据如下表:
(1)分别计算:x 、y 、x 1y 1+x 2y 2+x 3y 3+x 4y 4、x 21+x 22+x 23+x 24;
【导学号:48662006】
(2)已知变量x 与y 线性相关,求出回归方程.
[解] (1)x =0+1+2+34=1.5,y =1+3+5+74
=4, x 1y 1+x 2y 2+x 3y 3+x 4y 4=0×1+1×3+2×5+3×7=34,
x 2
1+x 22+x 23+x 24=02+12+22+32=14.
(2)b ^=34-4×1.5×414-4×1.5
2=2, a ^=y -b ^x =4-2×1.5=1,
故y ^
=2x +1.
精美句子
1、善思则能“从无字句处读书”。
读沙漠,读出了它坦荡豪放的胸怀;读太阳,读出了它普照万物的无私;读春雨,读出了它润物无声的柔情。
读大海,读出了它气势磅礴的豪情。
读石灰,读出了它粉身碎骨不变色的清白。
2、幸福幸福是“临行密密缝,意恐迟迟归”的牵挂;幸福是“春种一粒粟,秋收千颗子”的收获. 幸福是“采菊东篱下,悠然见南山”的闲适;幸福是“奇闻共欣赏,疑义相与析”的愉悦。
幸福是“随风潜入夜,润物细无声”的奉献;幸福是“夜来风雨声,花落知多少”的恬淡。
幸福是“零落成泥碾作尘,只有香如故”的圣洁。
幸福是“壮志饥餐胡虏肉,笑谈渴饮匈奴血”的豪壮。
幸福是“先天下之忧而忧,后天下之乐而乐”的胸怀。
幸福是“人生自古谁无死,留取丹心照汗青”的气节。
3、大自然的语言丰富多彩:从秋叶的飘零中,我们读出了季节的变换;从归雁的行列中,我读出了集体的力量;从冰雪的消融中,我们读出了春天的脚步;从穿石的滴水中,我们读出了坚持的可贵;从蜂蜜的浓香中,我们读出了勤劳的甜美。
4、成功与失败种子,如果害怕埋没,那它永远不能发芽。
鲜花,如果害怕凋谢,那它永远不能开放。
矿石,如果害怕焚烧(熔炉),那它永远不能成钢(炼成金子)。
蜡烛,如果害怕熄灭(燃烧),那它永远不能发光。
航船,如果害怕风浪,那它永远不能到达彼岸。
5、墙角的花,当你孤芳自赏时,天地便小了。
井底的蛙,当你自我欢唱时,视野便窄了。
笼中的鸟,当你安于供养时,自由便没了。
山中的石!当你背靠群峰时,意志就坚了。
水中的萍!当你随波逐流后,根基就没了。
空中的鸟!当你展翅蓝天中,宇宙就大了。
空中的雁!当你离开队伍时,危险就大了。
地下的煤!你燃烧自己后,贡献就大了
6、朋友是什么?
朋友是快乐日子里的一把吉它,尽情地为你弹奏生活的愉悦;朋友是忧伤日子里的一股春风,轻轻地为你拂去心中的愁云。
朋友是成功道路上的一位良师,热情的将你引向阳光的地带;朋友是失败苦闷中的一盏明灯,默默地为你驱赶心灵的阴霾。
7、一粒种子,可以无声无息地在泥土里腐烂掉,也可以长成参天的大树。
一块铀块,可以平庸无奇地在石头里沉睡下去,也可以产生惊天动地的力量。
一个人,可以碌碌无为地在世上厮混日子,也可以让生命发出耀眼的光芒。
8、青春是一首歌,她拨动着我们年轻的心弦;青春是一团火,她点燃了我们沸腾的热血;青春是一面旗帜,她召唤着我们勇敢前行;青春是一本教科书,她启迪着我们的智慧和心灵。