高二数学3.2回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7组观测数据:
温度x/度
21 23 25
27
29
32
35
产卵数y/个 7 11 21
24
66 115 325
试建立 y 关于 x 的回归方程
5
(1)画出散点图
样本点没有分布在某个带形区域内,那么两个变量之间不呈现线性 相关关系,不能直接利用线性回归方程来建立两个变量之间的关系。
(2)确定回归类型,求非线性回归方程
因此,数据点和它在回归直线上相应位置的差异 (yi $yi )是随机误差的效应, 称 $ei =yi $yi为残差。
例如,编号为6的女大学生,计算残差为:
61 (0.849 165 85.712) 6.627
对每名女大学生计算这个差异,然后分别将所得的值平方后加起来,用数学符号
表示为: n ( yi $yi )2 称为残差平方和,
类似于方差的定义
i 1
在探究中,残差平方和约为128.361。
三、残差分析与残差图的定义:
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关, 是否可以用回归模型来拟合数据。
然后,我们可以通过残差$e1,$e2 ,L ,$en 来判断模型拟合的效果,判断原始数据中 是否存在可疑数据,这方面的分析工作称为残差分析。
编号 身高/cm 体重/kg
1
2
3
4
5
6
7
8
165 165 157 170 175 165 155 170
48
57
50
54
64
61
43
59
假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有
的点将完全落在回归直线上。但是,在图中,数据点并没有完全落在回归直线上。这些 点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了。
下表列出了女大学生身高和体重的原始数据以及相应的残差数据。
4
是待定参数
② 变量代换:令 t x 2 变换后样本点应该分布在直线 y c3t c4
其中 a c3,b c2
的周围
10
③ 新数据及散点图:
x
21
23 25 27
29
32 35
y
7
11 21 24 66 115 325
t 441 529 625 729 841 1024 1225
11
④ 得线性回归方程:
y=bx+a+e,其中a和b为模型的未知参数,
e称为随机误差。
思考 产生随机误差项e 的原因是什么?
思考 产生随机误差项e的原因是什么?
随机误差e的来源(可以推广到一般):
1、其它因素的影响:影响身高 y 的因素不只是体重 x,可能还包 括遗传基因、饮食习惯、生长环境等因素;
2、用线性回归模型近似真实模型所引起的误差; 3、身高 y 的观测误差。
3、怎样判断模型是否合理 相关系数
(1).计算公式
n
(xi x)( yi y)
r
i 1
n
n
(xi x)2
( yi y)2
i 1
i 1
(2).相关系数的性质
(i) r 1 .
n
xi yi nx y
i 1
n
n
来自百度文库
(xi2 n(x)2 ) ( yi2 n( y)2 )
i 1
i 1
⑤ 得非线性回归方程: 令 yˆ e zˆ
得到一只红铃虫的产卵数 y 和温度 x 的非线性回归方程:
yˆ 1 e0.272 x3.849
(2)确定回归类型,求非线性回归方程
■ 回归模型2 —— 二次函数型
① 观察:样本点分布在某一条二次函数曲线 y c3 x 2 c4
的周围,其中
c ,c
3
(ii) r 越接近于1,相关程度越强;r 越接近于0,相关程度越弱. 注:b与r同号
在解决实际应用问题时,常遇到一些非线性回归问题。 对于这类问题,常采用适当的变量代换,把问题转化为线 性回归问题,求出线性回归模型后回代,得到非线性回归 方程。
4
二、非线性回归模型
例1:一只红铃虫的产卵数 y 和温度 x 有关,现收集了
根据公式
n
ti yi nt y
bˆ
i 1 n
ti2 nt 2
i 1
aˆ y bˆ t
得到线性回归方程: yˆ 0.367 t 202 .543
⑤ 得非线性回归方程: 令 x2 t
得到一只红铃虫的产卵数 y 和温度 x 的非线性回归方程:
yˆ 2 0.367 x2 202.543
目录
CONTENTS
一.复习回顾
1. 线性回归方程
y bxa
n
n
^
( xi x)( yi y)
xi yi n x y
b i1 n
(xi x)2
i 1 ^
i 1 n
xi 2
2
nx
i 1
^
a ybx
2.求线性回归方程的步骤:
(1).作出散点图(由样本点是否呈条状分布两判断两个量是否具有线性相关关系); (2).求回归系数; (3).写出回归直线方程,并利用回归直线方程进行预测说明.
29
32 35
y
7
11 21 24 66 115 325
z 1.946 2.398 3.045 3.178 4.190 4.745 5.784
8
④ 得线性回归方程:
n
xi zi nx z
根据公式
bˆ
i 1 n
xi2 nx 2
i 1
aˆ z bˆx
得到线性回归方程: zˆ 0.272x 3.849
体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女
大学生的体重。
^
y 0.849x 85.712
从散点图还看到,样本点散布在某一条直线的附近,而不是在一条直线
上,所以不能用一次函数y=bx+a描述它们关系。
我们可以用下面的线性回归模型来表示:
12
总结方法 对非线性回归问题,发现样本分布在某一条指数 型函数曲线y=c1ec2x 的周围,其中c1和c2是待定参数;可以通
过对x进行对数变换,转化为线性相关关系。也可以使用其
它函数模型进行变换。
探究 从某大学中随机选取8名女大学生,其身高和体重数据如表所示。
编号
1
2
3
4
5
6
7
8
身高/cm 165 165 157 170 175 165 155 170
■ 回归模型1 —— 指数函数型
① 观察:样本点分布在某一条指数函数曲线 y c1 ec2x 的周围,其中 c1,c2是待定参数
② 变量代换:令 z ln y ,
③ 变换后样本点应该分布在直线 z bx a的周围
其中 a ln c1,b c2
7
③ 新数据及散点图:
x
21
23 25
27
温度x/度
21 23 25
27
29
32
35
产卵数y/个 7 11 21
24
66 115 325
试建立 y 关于 x 的回归方程
5
(1)画出散点图
样本点没有分布在某个带形区域内,那么两个变量之间不呈现线性 相关关系,不能直接利用线性回归方程来建立两个变量之间的关系。
(2)确定回归类型,求非线性回归方程
因此,数据点和它在回归直线上相应位置的差异 (yi $yi )是随机误差的效应, 称 $ei =yi $yi为残差。
例如,编号为6的女大学生,计算残差为:
61 (0.849 165 85.712) 6.627
对每名女大学生计算这个差异,然后分别将所得的值平方后加起来,用数学符号
表示为: n ( yi $yi )2 称为残差平方和,
类似于方差的定义
i 1
在探究中,残差平方和约为128.361。
三、残差分析与残差图的定义:
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关, 是否可以用回归模型来拟合数据。
然后,我们可以通过残差$e1,$e2 ,L ,$en 来判断模型拟合的效果,判断原始数据中 是否存在可疑数据,这方面的分析工作称为残差分析。
编号 身高/cm 体重/kg
1
2
3
4
5
6
7
8
165 165 157 170 175 165 155 170
48
57
50
54
64
61
43
59
假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有
的点将完全落在回归直线上。但是,在图中,数据点并没有完全落在回归直线上。这些 点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了。
下表列出了女大学生身高和体重的原始数据以及相应的残差数据。
4
是待定参数
② 变量代换:令 t x 2 变换后样本点应该分布在直线 y c3t c4
其中 a c3,b c2
的周围
10
③ 新数据及散点图:
x
21
23 25 27
29
32 35
y
7
11 21 24 66 115 325
t 441 529 625 729 841 1024 1225
11
④ 得线性回归方程:
y=bx+a+e,其中a和b为模型的未知参数,
e称为随机误差。
思考 产生随机误差项e 的原因是什么?
思考 产生随机误差项e的原因是什么?
随机误差e的来源(可以推广到一般):
1、其它因素的影响:影响身高 y 的因素不只是体重 x,可能还包 括遗传基因、饮食习惯、生长环境等因素;
2、用线性回归模型近似真实模型所引起的误差; 3、身高 y 的观测误差。
3、怎样判断模型是否合理 相关系数
(1).计算公式
n
(xi x)( yi y)
r
i 1
n
n
(xi x)2
( yi y)2
i 1
i 1
(2).相关系数的性质
(i) r 1 .
n
xi yi nx y
i 1
n
n
来自百度文库
(xi2 n(x)2 ) ( yi2 n( y)2 )
i 1
i 1
⑤ 得非线性回归方程: 令 yˆ e zˆ
得到一只红铃虫的产卵数 y 和温度 x 的非线性回归方程:
yˆ 1 e0.272 x3.849
(2)确定回归类型,求非线性回归方程
■ 回归模型2 —— 二次函数型
① 观察:样本点分布在某一条二次函数曲线 y c3 x 2 c4
的周围,其中
c ,c
3
(ii) r 越接近于1,相关程度越强;r 越接近于0,相关程度越弱. 注:b与r同号
在解决实际应用问题时,常遇到一些非线性回归问题。 对于这类问题,常采用适当的变量代换,把问题转化为线 性回归问题,求出线性回归模型后回代,得到非线性回归 方程。
4
二、非线性回归模型
例1:一只红铃虫的产卵数 y 和温度 x 有关,现收集了
根据公式
n
ti yi nt y
bˆ
i 1 n
ti2 nt 2
i 1
aˆ y bˆ t
得到线性回归方程: yˆ 0.367 t 202 .543
⑤ 得非线性回归方程: 令 x2 t
得到一只红铃虫的产卵数 y 和温度 x 的非线性回归方程:
yˆ 2 0.367 x2 202.543
目录
CONTENTS
一.复习回顾
1. 线性回归方程
y bxa
n
n
^
( xi x)( yi y)
xi yi n x y
b i1 n
(xi x)2
i 1 ^
i 1 n
xi 2
2
nx
i 1
^
a ybx
2.求线性回归方程的步骤:
(1).作出散点图(由样本点是否呈条状分布两判断两个量是否具有线性相关关系); (2).求回归系数; (3).写出回归直线方程,并利用回归直线方程进行预测说明.
29
32 35
y
7
11 21 24 66 115 325
z 1.946 2.398 3.045 3.178 4.190 4.745 5.784
8
④ 得线性回归方程:
n
xi zi nx z
根据公式
bˆ
i 1 n
xi2 nx 2
i 1
aˆ z bˆx
得到线性回归方程: zˆ 0.272x 3.849
体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女
大学生的体重。
^
y 0.849x 85.712
从散点图还看到,样本点散布在某一条直线的附近,而不是在一条直线
上,所以不能用一次函数y=bx+a描述它们关系。
我们可以用下面的线性回归模型来表示:
12
总结方法 对非线性回归问题,发现样本分布在某一条指数 型函数曲线y=c1ec2x 的周围,其中c1和c2是待定参数;可以通
过对x进行对数变换,转化为线性相关关系。也可以使用其
它函数模型进行变换。
探究 从某大学中随机选取8名女大学生,其身高和体重数据如表所示。
编号
1
2
3
4
5
6
7
8
身高/cm 165 165 157 170 175 165 155 170
■ 回归模型1 —— 指数函数型
① 观察:样本点分布在某一条指数函数曲线 y c1 ec2x 的周围,其中 c1,c2是待定参数
② 变量代换:令 z ln y ,
③ 变换后样本点应该分布在直线 z bx a的周围
其中 a ln c1,b c2
7
③ 新数据及散点图:
x
21
23 25
27