人教版高二数学选修2-3回归分析-
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/3/30
郑平正 制作
案例2 一只红铃虫的产卵数y和温度x有关。现
收集了7组观测数据列于表中:
温度xoC 21 23 25 27 29 32 35 产卵数y/个 7 11 21 24 66 115 325
(1)试建立产卵数y与温度x之间的回归方程;并 预测温度为28oC时产卵数目。 (2)你所建立的模型中温度在多大程度上解释了 产卵数的变化?
郑平正 制作
方案2解答
平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a 就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a
温度 温度的平方t 产卵数y/个
21 441 7
23 529 11
25 625 21
27 729 24
29 841 66
32 1024 115
35 1225 325
的值平方后加起来,用数学符号表示为:n ( yi $y i ) 2 i 1
称为2020残/3/30差平方和,它代表郑平了正 随制作机误差的效应。
4、两个指标: (1)类比样本方差估计总体方差的思想,可以用作
ˆ2 1 ne ˆ2 1Q (a ˆ,b ˆ)(n2) n2i1 n2
为 2 的估计量, 2 越小,预报精度越高。
(4)在回归模型中,因变量的值不能由自变量的值完全确定。 正如前面已经指出的,某个女大学生的身高为172cm,我们 不能利用所建立的模型预测她的体重,只能给出身高为 172cm的女大学生的平均体重的预测值。
2020/3/30
郑平正 制作
7、一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解析变量,哪个变量是 预报变量。
令 zlgy,algc 1 ,bc2,则 y c110c2x
就转换为z=bx+a
温度xoC z=lgy 产卵数y/个
21 0.85 7
23 1.04 11
25 1.32 21
27 1.38 24
29 1.82 66
32 2.06 115
35 2.51 325
由计算器得:z关于x的线性回归方程 为z=0.118x-1.665 ,y100.118x-1.665 相关指数R2=r2≈0.99252=0.985
郑平正 制作
6、注意回归模型的适用范围:
(1)回归方程只适用于我们所研究的样本的总体。样本数据 来自哪个总体的,预报时也仅适用于这个总体。
(2)模型的时效性。利用不同时间段的样本数据建立的模型, 只有用来对那段时间范围的数据进行预报。
(3)建立模型时自变量的取值范围决定了预报时模型的适用 范围,通常不能超出太多。
然后,我们可以通过残差 e$1, e$2,L , e$n 来判断模型拟合的效果,
判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析。
表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。
编号 身高/cm 体重/kg
残差
1 165 48
-6.373
2 165 57
2.627
3 157 50
残差图的制作及作用
1、几坐点标说纵明轴:为残差变量,横轴可以有不同的选择; 2的、错第误若一。个模如样果型本数点选据和采择第集6的有个错样正误本,确点就的,予残以残差纠比差正较,大图然,中后需再要的重确点新认利在应用采该线集性过分回程归布中模是在型否拟以有合人横数为 据;如轴果为数据心采集的没带有错形误区,则域需;要寻找其他的原因。
2. 了解最小二乘法 的思想
y=bx+a+e
6. 了解模型中随机误差项e产 生的原因
3. 求回归直线方程
y=bx+a
4. 用回归直线方程 解决应用问题
7. 了解相关指数 R2 和模型拟 合的效果之间的关系
8. 了解残差图的作用
9. 利用线性回归模型解决一类 非线性回归问题
2020/3/30
10. 正确理解分析方法与结果
i1
a ˆ 7 .4 1 .1 5 1 8 2 8 .1 .
2 020/回 3/30归 直 线 方 程 为 郑平: 正y ˆ 制 作 1 . 1 5 x 2 8 . 1 .
例1 在一段时间内,某中商品的价格x元和需求量Y件之
间的一组数据为:
价格x 14 16
18
20
22
需求量Y 12 10
2020/3/30
郑平正 制作
探索新知
选变量
一元线性模型
方案1
解:选取气温为解释变量x,产卵数
350
为预报变量y。
300
250
画散点图
200
150
100
选模型 估计参数
50
0 0 3 6 9 12 15 18 21 24 27 30 33 36 39
假设线性回归方程为 :ŷ=bx+a
由计算器得:线性回归方程为y=19.87x-463.73
作散点图,并由计算器得:y和t之间的线性回归方程为 y=0.367t-202.54,相关指数R2=r2≈0.8962=0.802
将t=x2代入线性回归方程得: y=0.367x2 -202.54
当x=28时,y=0.367×282-
202.54≈85,且R2=0.802, 所以,二次函数模型中温度解 释了80.2%的产卵数变化。
间的一组数据为:
价格x 14 16
18
20
22
需求量Y 12 10
7
5
3
求出Y对的回归直线方程,并说明拟合效果的好坏。
5
5
5
解: x18, y 7.4, xi21660, yi2327, xiyi620,
i 1
i 1
i 1
5
bˆ
xi yi 5x y
i1
5
x
2 i
2
5x
6205187.4 16605182 1.15.
郑平正 制作
复习回顾
1、线性回归模型:
y=bx+a+e, (3)
y=bx+a+e, E(e)=0,D(e)= 2 .
(4)
其中a和b为模型的未知参数,e称为随机误差。
2、数据点和它在回归直线上相应位置的差异(
是随机误差的效应,称 e$i =yi $yi 为残差。
y
i
$y i )
3、对每名女大学生计算这个差异,然后分别将所得
(2)我们可以用相关指数R2来刻画回归的效果,其
计算公式是:
n
n
(yi $ yi)2
($ yi y)2
R2
1
i1 n
i1 n
(yi y)2
(yi y)2
i1
i1
R2 1,说明回归方程拟合的越好;R20,说明回归
2020/3/30
郑平正 制作
方程拟合的越差。
5、残差分析与残差图的定义:
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是 否线性相关,是否可以用回归模型来拟合数据。
当x=28oC 时,y ≈44 ,指数回归
模型中温度解释了98.5%的产卵数的
2.8 2.4
2 1.6 1.2 0.8 0.4
0 0
z
36
x
9 12 15 18 21 24 27 30 33 36 39
变化
2020/3/30
郑平正 制作
最好的模型是哪个?
产卵数
400 300 200 100
0 0
-100
去“数学广角” 喽!!!
2020/3/30
郑平正 制作郑平正 制 作
3.1回归分析的基 本思想及其初步
应用(三)
高二数学 选修2-3
第三章 统计案例
2020/3/30
郑平正 制作郑平正 制 作
比《数学3》中“回归”增加的内
数学3——统计
容 选修2-3——统计案例
5. 引入线性回归模型
1. 画散点图
7
5
3
求出Y对的回归直线方程,并说明拟合效果的好坏。 列出残差表为
y i yˆ i 0
0.3
-0.4
-0.1
0.2
yi y
4.6
2.6
-0.4 -2.4
-4.4
5
5
( yi yˆi )2 0 . 3 , ( yi y)2 5 3 . 2 ,
i1
5
i 1
( yi yˆi ) 2
R2
产卵数y/个
350 300 250 200 150 100
50 0 0
t
150 300 450 600 750 900 1050 1200 1350
2020/3/30
郑平正 制作
合作探究
指数函数模型
-10
450 400 350 300 250 200 150 100
50 0
-5-50 0
产卵数
气 温
5
10 15 20 25 30
35
40
线性模型
产卵数
400
300
200
100
气
0
温
-40 -30 -20 -10 0 10 20 30 40
-100
-200
产卵数
450
400
350
300
250
200 150
气
100
温
50
0
-10 -5-50 0 5 10 15 20 25 30 35 40
二次函数模型
2.419
4 170 54
-4.618
5 175 64
1.137
6 165 61
6.627
7 155 43
-2.883
8 170 59
0.382
我们可以利用图形来分析残差特性,作图时纵坐标为残差, 横坐标可以选为样本编号,或身高数据,或体重估计值等,这 样作出的图形称为残差图。
2020/3/30
郑平正 制作
5
10 15 20 25 30 35 40
方案3
问题1 问题2
如何选取指数函数的底?
y c110c2x 对数 变换
非线性关系
y=bx+a 线性关系
2020/3/30
郑平正 制作
方案3解答
对数变换:在 y c110c2x中两边取常用对数得
l g y l g ( c 1 1 0 c 2 x ) l g c 1 l g 1 0 c 2 x l g c 1 c 2 x l g 1 0 c 2 x l g c 1
事实上,它是预报变量的可能取值的平均值。
涉及到统计的一些思想:
模型适用的总体; 模型的时间性; 样本的取值范围对模型的影响; 模型预报结果的正确理解。
2020/3/30
郑平正 制作
什么是回归分析?
(内容)
1. 从一组样本数据出发,确定变量之间的数学关 系式
2. 对这些关系式的可信程度进行各种统计检验, 并从影响某一特定变量的诸多变量中找出哪些 变量的影响显著,哪些不显著
郑平正 制作
合作探究
问题1 问题2 问题3
二次函数模型
方案2
选用y=bx2+a ,还是y=bx2+cx+a ?
如何求a、b ?
y=bx2+a 非线性关系
变换 t=x2
y=bt+a 线性关系
400 产卵数
300
200
100
气
-40
-30
-20
0
-10
0
10
20
30
温 40
-100
-200
2020/3/30
3. 利用所求的关系式,根据一个或几个变量的取 值来预测或控制另一个特定变量的取值,并给 出这种预测或控制的精确程度
2020/3/30
郑平正 制作
回归分析与相关分析的区别
1. 相关分析中,变量 x 变量 y 处于平等的地位;回归 分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化
1
i 1 5
0.994 因而,拟合效果较好。
2020/3/30 ( yi y ) 2
郑平正 制作
i 1
例2 关于x与y有如下数据:
x
2
4
5
6
8
y 30 40 60 50 70
有如下的两个线性模型:
(1) yˆ6.5x17.5;(2) yˆ 7x17.
试比较哪一个拟合效果更好。
2020/3/30
另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这
3样、的带对状于区域远的离宽度横越轴窄,的说明点模,型拟要合特精度别越注高,意回。归方程的预报精度越高。
身 高 与 体 重 残 差 图 2020/3/30
郑平正 制作
异 常 点
• 错误数据 • 模型问题
例1 在一段时间内,某中商品的价格x元和需求量Y件之
分析和预测
相关指数R2=r2≈0.8642=0.7464
当当xx==2288时时,,yy==191.98.78×7×282-486-436.733.≈739≈3 93
wenku.baidu.com
2020/3/30
所以,二次函数模郑型平中正温度制解作释了74.64%的产卵数变化。
93>66 ? 模型不好?
奇 怪 ?
2020/3/30
指数函数模型
2020/3/30
郑平正 制作
最好的模型是哪个?
比 一 比
2020/3/30
函数模型 线性回归模型
相关指数R2 0.7464
二次函数模型
0.802
指数函数模型
郑平正 制作
0.985
小结
用身高预报体重时,需要注意下列问题: ——这些问题也使用于其他问题。 1、回归方程只适用于我们所研究的样本的总体; 2、我们所建立的回归方程一般都有时间性; 3、样本采集的范围会影响回归方程的适用范围; 4、不能期望回归方程得到的预报值就是预报变量的精确值。
(2)画出确定好的解析变量和预报变量的散点图,观察它们 之间的关系(如是否存在线性关系等)。
(3)由经验确定回归方程的类型(如我们观察到数据呈线性 关系,则选用线性回归方程y=bx+a).
(4)按一定规则估计回归方程中的参数(如最小二乘法)。
(5)得出结果后分析残差图是否有异常(个别数据对应残差 过大,或残差呈现不随机的规律性,等等),过存在异常,则 检查数据是否有误,或模型是否合适等。