【分析】2020学年高中数学第一章统计案例11回归分析的基本思想及其初步应用教学案新人教A版选修12
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【关键字】分析
1.1 回归分析的基本思想及其初步应用
[核心必知]
1.预习教材,问题导入
根据以下提纲,预习教材P2~P8的内容,回答下列问题.
(1)在数学《必修3》中,我们利用返回分析的方法对两个具有线性相关关系的变量进行了研究,其步骤是什么?所求出的线性返回方程是什么?
提示:步骤为:画出两个变量的散点图,求返回直线方程,并用返回直线方程进行预报.线性返回方程为=x+.
(2)所有的两个相关变量都可以求返回方程吗?
提示:不一定.
2.归纳总结,核心必记
(1)返回分析
返回分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)返回直线方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的返回方程,其中,是待定参数,其最小二乘估计分别为:
其中=i,=i,(,)称为样本点的中心.
(3)线性返回模型
线性返回模型用y=bx+a+e来表示,其中a和b为模型的未知参数,e称为随机误差.
(4)刻画返回效果的方式
相关指数R2R2=1-
∑
i=1
n
y i-y^i2
∑
i=1
n
y i-y2
,R2表示解释变量对于预报变量变化的贡献率,R2
越接近于1,表示回归的效果越好
[问题思考]
(1)通过教材P2中的例1计算出的返回方程=0.849x-85.712可以预报身高为的女大学生的体重为60.3.请问,身高为的女大学生的体重一定是吗?为什么?
提示:不一定.从散点图可以看出,样本点散布在一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a表示.
(2)下列说法正确的有哪些?
①在线性返回模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量;
②残差平方和越小的模型,拟合的效果越好;③用R2来刻画返回效果,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,说明模型拟合精度越高,返回方程的预报精度越高.提示:e是一个不可观测的量,故①不正确;R2越小,残差平方和越大,即模型的拟合效果越差,故③不正确;②④是正确的.
[课前反思]
(1)返回分析的定义是什么?如何求返回直线方程?
(2)线性返回模型是什么?
(3)残差、残差图的定义是什么?如何作残差图?
(4)残差平方和和相关指数R2的定义是什么?它们与返回效果有什么关系?
[思考] 求线性返回方程的步骤是什么?
名师指津:(1)列表表示xi,yi,xiyi,x;
(2)计算,,,iyi;
(3)代入公式计算,的值;
(4)写出线性返回方程.
讲一讲
1.(链接教材P2-例1)某种产品的广告费用支出x与销售额y(单位:百万元)之间有如下的对应数据:
x/百万元24568
y/百万元3040605070
(1)画出散点图;
(2)求线性返回方程;
(3)试预测广告费用支出为10百万元时的销售额.
[尝试解答] (1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
i 12345合计
x i2456825
y i3040605070250
x i y i60160300300560 1 380
x2i416253664145
所以,==5,==50,=145,
iyi=1 380.
于是可得=
==6.5,
=-=50-6.5×5=17.5.
所以所求的线性返回方程为=6.5x+17.5.
(3)根据(2)中求得的线性返回方程,当广告费用支出为10百万元时,
=6.5×10+17.5=82.5(百万元),
即广告费用支出为10百万元时,销售额大约为82.5百万元.
(1)求线性返回方程前必须判断两个变量是否线性相关,如果两个变量本身不具备相关关系,或者它们之间的相关关系不显著,那么即使求出返回方程也是毫无意义的.
(2)写出返回直线方程=x+,并用返回直线方程进行预测说明:当x取x0时,由线性返回方程可得0的值,从而可进行相应的判断.
练一练
1.某班5名学生的数学和物理成绩如下表:
学生
学科成绩
A B C D E
数学成绩(x)8876736663
物理成绩(y)7865716461
(1)
(2)求物理成绩y对数学成绩x的回归直线方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩.
解:(1)如图所示.
(2)因为x=1
5
×(88+76+73+66+63)=73.2,
y =15
×(78+65+71+64+61)=67.8,
∑i =1
5
x i y i =88×78+76×65+73×71+66×64+63×61
=25 054,
∑i =1
5
x 2
i =882+762+732+662+632
=27 174. 所以b ^=
∑i =1
5
x i y i -5x -y
-
∑i =1
5
x 2i -5x 2
=25 054-5×73.2×67.827 174-5×73.2
2
≈0.625,a ^=y -b ^x -
≈67.8-0.625×73.2=22.05. 故y 对x 的回归直线方程是y ^
=0.625x +22.05. (3)x =96,则y ^
=0.625×96+22.05≈82, 即可以预测他的物理成绩是82.
[思考] 如何用残差图、残差平方和、相关指数R 2
分析拟合效果?
名师指津:残差图的带状区域的宽度越窄,模型拟合精度越高;残差平方和越小,模型拟合效果越好;R 2
越接近于1,模型拟合效果越好.
讲一讲
2.假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:
x 15.0 25.8 30.0 36.6 44.4 y
39.4
42.9
42.9
43.1
49.2
(1)以x (2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;
(4)求R 2
,并说明残差变量对有效穗的影响占百分之几? [尝试解答] (1)散点图如下.
(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为y ^=b ^x +a ^
.x =30.36,y =43.5,
∑i =1
5
x 2
i =5 101.56,∑i =1
5
y 2i =9 511.43. x -y -
=1 320.66,x 2=921.729 6,
∑i =1
5
x i y i =6 746.76.
则b ^=
∑i =1
5
x i y i -5x y
∑i =1
5
x 2i -5x 2
≈0.29,a ^=y -b ^
x ≈34.70.
故所求的回归直线方程为y ^
=0.29x +34.70. 当x =56.7时,y ^
=0.29×56.7+34.70=51.143. 估计成熟期有效穗为51.143.
(3)由于y ^i =b ^x i +a ^,可以算得e ^i =y i -y ^i 分别为e ^1=0.35,e ^2=0.718,e ^3=-0.5,e ^
4=-2.214,e ^5=1.624,残差平方和:∑i =15
e ^2
i ≈8.43.
(4)∑i =1
5
(y i -y )2
=50.18,
故R 2
=1-8.4350.18
≈0.832.
所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约1-83.2%=16.8%.
(1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差e ^1,e ^2,…,e ^
n 来判断模型拟合的效果.
(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.
练一练
2.某运动员训练次数与运动成绩之间的数据关系如下:
次数(x ) 30 33 35 37 39 44 46 50 成绩(y )
30
34
37
39
42
46
48
51
(1)作出散点图; (2)求出线性回归方程;
(3)作出残差图,并说明模型的拟合效果; (4)计算R 2
,并说明其含义.
解:(1)作出该运动员训练次数x 与成绩y 之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.
(2)∵x =39.25,y =40.875,∑i =1
8
x 2
i =12 656,
∑i =1
8
y 2
i =13 731,∑i =1
8
x i y i =13 180,
∴b ^=
∑i =1
8
x i -x
y i -y
∑i =1
8
x i -x
2
=
∑i =1
8
x i y i -8x -y
-
∑i =1
8
x 2i -8x 2
≈1.041 5,
a ^
=y -b ^
x ≈-0.003 875,
∴线性回归方程为y ^
=1.041 5x -0.003 875. (3)残差分析
计算得e ^1≈-1.24,e ^2≈-0.366,e ^3≈0.551,e ^4≈0.468,e ^5≈1.385,e ^6≈0.178,e
^
7
≈0.095,e ^
8≈-1.071.作残差
图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比
较合适.
(4)计算相关指数R 2
计算相关指数R 2
≈0.985 5,说明了该运动员成绩的差异有98.55%是由训练次数引起的. 讲一讲
3.(链接教材P 6-例2)某地区六年来轻工业产品利润总额y 与年次x 的试验数据如下表所示:
年次x 1 2 3 4 5 6 利润总额y
11.35
11.85
12.44
13.07
13.59
14.41
x
0a ,b 均为正数,求y 关于x 的回归方程.
[思路点拨] 解答此题可根据散点图选择恰当的拟合函数,而本题已经给出,只需将其
转化为线性函数,利用最小二乘法求得回归直线方程,再将其还原为非线性回归方程即可.
[尝试解答] 对y =ab x
e 0两边取自然对数,得ln y =ln ae 0+x ln b ,令z =ln y ,则z 与x 的数据如下表:
x 1 2 3 4 5 6 z
2.43
2.47
2.52
2.57
2.61
2.67
由z =ln ae 0+x ln b 及最小二乘法公式,得 ln b ≈0.047 7,ln ae 0=2.378,
即z ^=2.378+0.047 7x ,故y ^=10.8×1.05x
.
非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:
练一练
3.某电容器充电后,电压达到100 V ,然后开始放电,由经验知道,此后电压U 随时间t 变化的规律用公式U =A e bt
(b <0)表示,现测得时间t (s)时的电压U (V)如下表:
t /s 0 1 2 3 4 5 6 7 8 9 10 U /V
100
75
55
40
30
20
15
10
10
5
5
试求:电压U 对时间t 的回归方程(提示:对公式两边取自然对数,把问题转化为线性回归分析问题).
解:对U =A e bt
两边取对数得ln U =ln A +bt , 令y =ln U ,a =ln A ,x =t , 则y =a +bx ,y 与x 的数据如下表:
x 0 1 2 3 4 5 6 7 8 9 10 y
4.6
4.3
4.0
3.7
3.4
3.0
2.7
2.3
2.3
1.6
1.6
根据表中数据画出散点图,
如图所示,从图中可以看出,y 与x 具有较好的线性相关关系, 由表中数据求得x =5,y ≈3.045,
由公式计算得b ^≈-0.313,a ^=y -b ^x -
=4.61, 所以y 对x 的线性回归方程为y ^
=-0.313x +4.61. 所以ln U ^
=-0.313t +4.61, 即U ^=e -0.313t +4.61=e -0.313t ·e 4.61,
因此电压U 对时间t 的回归方程为U ^=e -0.313t ·e 4.61
.
————————————[课堂归纳·感悟提升]————————
1.本节课的重点是线性回归方程的求法及线性回归分析,难点是残差分析和非线性回归分析问题.
2.本节课要重点掌握的规律方法 (1)线性回归分析,见讲1; (2)残差分析,见讲2; (3)非线性回归分析,见讲3.
课下能力提升(一) [学业水平达标练]
题组1 线性回归分析
1.关于回归分析,下列说法错误的是( )
A .在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
B .线性相关系数可以是正的也可以是负的
C .在回归分析中,如果r 2
=1或r =±1,说明x 与y 之间完全线性相关 D .样本相关系数r ∈(-1,1)
解析:选D 样本的相关系数应满足-1≤r ≤1.
2.为了研究变量x 和y 的线性相关性,甲、乙两人分别利用线性回归方法得到回归直线l 1和l 2,已知两人计算过程中x ,y 分别相同,则下列说法正确的是( )
A .l 1与l 2一定平行
B .l 1与l 2重合
C .l 1与l 2相交于点(x ,y )
D .无法判断l 1和l 2是否相交
解析:选C 回归直线一定过样本点的中心(x ,y ),故C 正确.
3.若某地财政收入x 与支出y 满足回归方程y ^=b ^x +a ^
+e i (单位:亿元)(i =1,2,…),其中b ^=0.8,a ^=2,|e i |<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A .10亿元
B .9亿元
C .10.5亿元
D .9.5亿元
解析:选C y ^
=0.8×10+2+e i =10+e i , ∵|e i |<0.5,
∴9.5<y ^
<10.5.
4.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2
分别如下表:
A .甲
B .乙
C .丙
D .丁
解析:选A 相关指数R 2
越大,表示回归模型的拟合效果越好.
5.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解:(1)由于x =1
6
(8+8.2+8.4+8.6+8.8+9)=8.5,
y =16
(90+84+83+80+75+68)=80.
所以a ^=y -b ^x =80+20×8.5=250,从而回归直线方程为y ^
=-20x +250. (2)设工厂获得的利润为L 元,依题意得
L =x (-20x +250)-4(-20x +250)
=-20x 2
+330x -1 000
=-20⎝
⎛⎭⎪⎫x -3342
+361.25.
当且仅当x =8.25时,L 取得最大值.
故当单价定为8.25元时,工厂可获得最大利润. 题组2 残差分析
6.关于残差图的描述错误的是( ) A .残差图的横坐标可以是样本编号
B .残差图的横坐标也可以是解释变量或预报变量
C .残差点分布的带状区域的宽度越窄相关指数越小
D .残差点分布的带状区域的宽度越窄残差平方和越小
解析:选C 残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方
和越小,此时,相关指数R 2
的值越大,故描述错误的是选项C.
7.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
解析:选A 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
8.在回归分析中,相关指数R 2
的值越大,说明残差平方和( ) A .越大 B .越小 C .可能大也可能小 D .以上均错
解析:选B 因为R 2
=1-
∑i =1n
y i -y ^
i
2
∑i =1
n
y i -y
2
,
所以当R 2
越大时,∑i =1
n
(y i -y ^i )2
越小,
即残差平方和越小.
9.通过下面的残差图,我们发现在采集样本点的过程中,样本点数据不准确的为( ) A .第四个 B .第五个 C .第六个 D .第七个
解析:选C 由题图可知第六个数据的偏差最大,故选C.
10.在一段时间内,某淘宝网店一种商品的销售价格x 元和日销售量y 件之间的一组数据为:
价格x 元 22 20 18 16 14 日销售量y 件
37
41
43
50
56
求出y 关于x 参考数据:∑i =1
5
x i y i =3 992,∑i =1
5
x 2
i =1 660.
解:作出散点图(此处略),观察散点图,可知这些点散布在一条直线的附近,故可用线性回归模型来拟合数据.
因为x =
22+20+18+16+14
5
=18,
y =
37+41+43+50+56
5
=45.4.
所以b ^=3 992-5×18×45.41 660-5×182
=-2.35, a ^
=45.4-(-2.35)×18=87.7.
所以回归方程为y ^
=-2.35x +87.7.
y i -y ^i 与y i -y -
的值如下表:
y i -y ^
i 1 0.3 -2.4 -0.1 1.2 y i -y
-8.4
-4.4
-2.4
4.6
10.6
计算得∑i =1
5
(y i -y ^i )2
=8.3,
∑i =1
5
(y i -y -
)2=229.2,
所以R 2
=1-8.3229.2
≈0.964.
因为0.964很接近于1,所以该模型的拟合效果比较好.
[能力提升综合练]
1.如图所示是四个残差图,其中回归模型的拟合效果最好的是( )
解析:选B 选项A 与B 中的残差图都是水平带状分布,并且选项B 的残差图散点分布集中,在更狭窄的范围内,所以B 中回归模型的拟合效果最好,选B.
2.某产品的广告费用x 与销售额y 的统计数据如下表:
广告费用x (万元) 4 2 3 5 销售额y (万元)
49
26
39
54
根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )
A .63.6万元
B .65.5万元
C .67.7万元
D .72.0万元
解析:选B 样本点的中心是(3.5,42), 则a ^=y -
-b ^
x -
=42-9.4×3.5=9.1, 所以回归直线方程是y ^
=9.4x +9.1, 把x =6代入得y ^
=65.5.
3.某饮料店的日销售收入y (单位:百元)与当天平均气温x (单位:度)之间有下列数据:
x -2 -1 0 1 2 y
5
4
2
2
1
甲、乙、丙三位同学对上述数据进行了研究,分别得到了x 与y 之间的三个线性回归方程:①y ^=-x +2.8,②y ^=-x +3,③y ^
=-1.2x +2.6;其中正确的是( )
A .①
B .②
C .③
D .①③
解析:选A 回归方程y ^=b ^x +a ^
表示的直线必过点(x ,y ),即必过点(0,2.8),而给出的三个线性回归方程中,只有①表示的直线过点(0,2.8),故正确的是①,故选A.
4.已知x 与y 之间的几组数据如下表:
x 1 2 3 4 5 6 y
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为y ^=b ^x +a ^
,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y ′=b ′x +a ′,则以下结论正确的是( )
A.b ^>b ′,a ^>a ′
B.b ^>b ′,a ^
<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^
<a ′
解析:选C 过(1,0)和(2,2)的直线方程为y ′=2x -2, 画出六点的散点图,回归直线的大概位置如图所示, 显然,b ′>b ^,a ^
>a ′,故选C.
5.某种商品的广告费支出x 与销售额y 之间有如下关系:(单位:万元)
x 2 4 5 6 8 y
30
40
60
50
70
y 与x 的线性回归方程为y ^
=6.5x +17.5,当广告费支出5万元时,残差为________.
解析:当广告费x =5时,y ^
=6.5×5+17.5=50,残差为60-50=10. 答案:10
6.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2
≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.
解析:由相关指数R 2
的意义可知,R 2
≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.
答案:85% 15%
7.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄
y i (单位:千元)的数据资料,算得∑i =1
10
x i =80,∑i =1
10
y i =20,∑i =1
10
x i y i =184,∑i =1
10
x 2i =720.
(1)求家庭的月储蓄y 关于月收入x 的线性回归方程y ^=b ^x +a ^
; (2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 解:(1)由题意知n =10,
x =
1n ∑i =1
10
x i =110
×80=8,
y =
1n ∑i =1
10
y i =1
10
×20=2, 所以b ^=
∑i =1
10
x i y i -n x -y
-∑i =1
10
x 2
i -n x -
2
=
184-10×8×2720-10×8
2
=24
80=0.3, a ^
=y -b ^x -
=2-0.3×8=-0.4,
故所求线性回归方程为y ^
=0.3x -0.4.
(2)将x =7代入回归方程,可以预测家庭的月储蓄约为y ^
=0.3×7-0.4=1.7(千元).
此文档是由网络收集并进行重新排版整理.word 可编辑版本!。