回归分析建模及Matlab实现讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如上例,输入: X=[x1,x2,x3,x4]; stepwise(X,y,[1,2,3])
Stepwise 语句功能介绍
模型中均方差历 史数据记载表
参变量数 据分析表
Stepwise 语句功能介绍
引例2求解
经过观察,得到各种情况下的均方差对比: 变量 x1,x2 x1,x3 x1,x4 x2,x3 x2,x4 x3,x4 组合 RMSE 53 51.96 61.77 23.96 52.96 44.75
b 11 x 1 2 + b 22 x 2 2 + b 33 x 3 2 + (quadratic terms) ~ N(0, 2)
例2:某物质的化学反应问题
MATLAB软件实现
rstool(X, y, ‘model’, alpha) (二次多项式回归分析的语句)
其中model有以下四种选择:
引例2求解
输出结果:
b = 191.9158 -0.7719 3.1725 -19.6811 -0.4501
β0
β1
β2
β3
β4
bint = 103.1071 280.7245……(系数的置信区间)
r =[ -6.3045 -4.2215 ……8.4422 23.4625 3.3938] rint=(略) stats = 0.9034(R2) 35.0509(F) 0.0000(p)
年份 消费(吨) 收入(亿)
1964 698 1097
1965 872 1284
1966 988 1502
…… …… ……
1978 1446 2948
1979 1980 2736 2825 3155 3372
试分析预测若1981年到1985年我国国民收 入以4.5%的速度递增,钢材消费量将达到什么 样的水平?
30
25
20
15
15
20
25
30
一元非线性回归分析 用polytool(x,y,2)还可以得到一个交互式画面。
Y
~
a1x2
N (0,
a2 2)
x
a3
;
Export
Parameters
Parameters CI
Prediction
Prediction CI
Residuals
All
一元非线性回归分析
32
30
28
26
24
22
20
18
15
20
25
30
一元非线性回归分析
假设模型
Y
~
a1x2 a2 x
N (0, 2 )
a3
;
一元多项式回归在matlab 软件中用命令polyfit实
现。如前面的例子,具体计算如下:
输入: (phg1.m)
x1=17:2:29;x=[x1,x1];
linear:(缺省)y = β0+β1x1+…+βmxm purequadratic: y = β0+β1x1+…+βmxm +∑j=1 to mβj*xj2 interaction: y = β0+β1x1+…+βmxm +∑1≤j≠k≤ mβjkxjxk quadratic(完全二次,以上模型之和)
10
x 10 6
5
4
3
2
1
0
0
100
200
300
400
500
主要内容
两个引例 线性回归模型
400 300 200 100
0 1997199819992000
MATLAB软件实现
非线性回归模型及软件实现
实 验内容
引例1:钢材消费量与国民收入的关系
为了研究钢材消费量与国民收入之间的关 系,在统计年鉴上查得一组历史数据。
y=[20.48 25.13 26.15 30.0 26.1 20.3 19.35
24.35 28.11 26.3 31.4 26.92 25.7 21.3];
[p,S]=polyfit(x,y,2);p
注意: x,y向量的维数要一致。S是一个数据结构, 用于其它函数的计算。
一元非线性回归分析
计算y的拟合值:
8
135.8
13
223.3
11
195.0
引例:某建筑材料公司的销售量因素分析
Z
① 数据能否可视 化?即通过散点图去 发现y与x1,x2…x4的函 数关系?
② 由一元回归模 型得到启示,我们是 否欲寻找关系: y = E(Y|x1,x2,x3,x4) 即
y = f(x1,x2,x3,x4) ?
一般的回归模型与任务
Y f (x) ; ~ N (0, 2 )
一元与多元
Y f (x1, x2 ,, xm ) ; ~ N (0, 2 )
线性与非线性
任务:
估计回归模型中的未知参数;
检验模型假设的正确性;
分析影响试验指标y的因素,挑选重要因素; 应用——预测与控制;
返回
知识简介 多元线性回归模型与任务
500 1000 1500 2000 2500 3000 3500
钢材消费量y与国民收入x的散点图
引例1:钢材消费量与国民收入的关系
回归分析是研究变量间相关关系的一种统计方法。
特点:试验指标(因变量)是随机变量。
一元线性回归模型:
Y a bx ; ~ N (0, 2 )
E(Y | X x) a bx
Q = r’*r σ2= Q/(n-2) = 537.2092 (近似)
残差向量分析图
Z
引例2求解 任务三(因素分析)如何实现?
逐步回归
b = 191.9158 -0.7719 3.1725 -19.6811 -0.4501
β0 β1 β2 β3
β4
stepwise(X, y, inmodel,alfha)
假设与建模一
在各因素与指标(因变量)之间的信息“一无所 知”的情况下,假设模型Y = f (x1,x2,x3)+ε中的函数f 是多项式形式,即
y = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + (linear terms) b 12 x 1 x 2 + b 13 x 1 x 3 + b 23 x 2 x 3 + (interaction terms)
回归相残系关数差系a向,数量b以Re=及2X,Y它-FY1们-及统的x1它计置, 们量信Y的区和间置与 y信1χ0对区应间的概率p。
1 xn
yn
残差及其置信区间可以用rcoplot(r,rint)画图。
引例2求解
输入:(jzhui.m)
x1=[5.5 2.5 8 3 ……8 6 4 7.5 7]’;(20维) x2=[31 55 67 …… 55 70 40 50 62 59]'; x3=[10 8 12 …… 11 11 9 9]'; x4=[8 6 9 16 …… 8 13 11]'; y=[79.3 200.1 …… 135.8 223.3 195]'; X=[ones(size(x1)),x1,x2,x3,x4]; [b,bint,r,rint,stats]=regress(y,X)
输入:[Y,delta]=polyconf(p,x,S);Y
结果: Y= 22.5243 28.3186 27.0450 22.5243 26.0582 27.0450 24.1689
26.0582 24.1689 27.9896 19.6904
27.9896 19.6904 28.3186
35
拟合效果图:
统计数据
X= x1
x2
x3
11
5.5
2
2.5
31
8.0
4 5
1
3.0 3.0
61
2.9
7
8.0
8.
9.0
9.
4.0
10
6.5
11 .
5.5
12 13
1
5.0 6.0
14 1
5.0
15
3.5
16 1
8.0
17 1
6.0
18
4.0
19 1
7.5
20
7.0
31
10
55
8
67
12
50
7
38
8
71
12
30
12
思考:如何进行预测? restool(X,y,’model’)
Z
MATLAB 软件能否实现非线性回归分析?
一元非线性回归分析
Z
如果从数据的散点图上发现y与x没有直线 关系,又如何计算?
例1: 试分析年龄与旋转定向(运动)能力之
间的关系
年龄
第1人 第2人
17 19 21 23 25 27 29
20.48 25.13 26.15 30.0 26.1 20.3 19.35 24.35 28.11 26.3 31.4 26.92 25.7 21.3
Ti
cii ~ t(n m 1), Se2
n m 1
0 {| Ti | t1 (n k)} 2
预测、控制……
返回
MATLAB软件实现
使用命令regress实现一(多)元线性回归模型的计算
b = regress (Y, X) 或
默认值是
0.05
[b, bint, r, rint, stats] = regress(Y, X, alpha)
多元线性回归分析
矩阵表达形式
βˆ (XTX)1 XT Y
1 x11 x1m
X
,
1 xn1 xnm
ˆ 2 Q
n m 1
y1
Y
,
yn
ˆ
ˆ0
ˆm
y的估计值: yˆ ˆ0 ˆ1x1 ˆm xm
Se2 /(n m 1)
0 {F F1 (m, n m 1)}
2)相关系数 R检验法
R2
SR2 ST2
,
0 {| R | r1 (n k)}
多元线性回归分析
任务三:因素分析
提出问题 检验方法
任务四:应用
H0 : i 0, H1 : i 0
ˆi
引例1:钢材消费量与国民收入的关系 假设
钢材消费量--------试验指标(因变量)Y; 国民收入-----------自变量 X; 作拟合曲线图形分析; 建立数据拟合函数 y = E(Y | X=x)= f(x)。
引例1:钢材消费量与国民收入的关系
3000
y=a+bx
2500
2000
1500
1000
变量 组合 RMSE
x1,x2 x3
24.65
x1, x2 x4
54.43
x1, x3 x4
45.86
x2,x3 x4
24.64
x1,x2 x3,, x4 25.39
引例2求解
√ y 186.11 3.09x2 19.5176x3 最佳回归方程
stats1: 0.9025 78.6381 0 y 189.72 0.7048x1 3.1066x2 19.584x3 stats2 : 0.9028 49.5443 0 y 187.882 3.149x2 19.605x3 0.4173x4 stats3 : 0.9029 49.61 0
拟合误差e = y – y 称为残差向量
残差平方和
n
n
Q ei2 ( yi yˆi )2
i 1
i 1
多元线性回归分析
任务二:模型检验
提出问题 H0 : 0 1 m 0
1)F-统计检验法
ST2
Se2
S
2 R
F
S
2 R
/
m
~ F (m, n m 1)
56
5
42
8
73
5
60
11
44
12
50
6
39
10
55
10
70
6
40
11
50
11
62
9
59
9
x4
y
8
79.3
6
200.1
9
163.2
16
200.1
15
146.0
17
177.7
8
30.9
10
291.9
4
160.0
16
339.4
7
159.6
12
86.3
6
237.5
4
107.2
4
155.0
14
201.4
6
100.2
一元非线性回归分析
在工作空间中,输入yhat,回车,得到预测值。
返回
多元非线性回归分析
例2:某物质的化学反应问题
<问题背景> 为了研究三种化学元素:氢、n戊烷和
异构戊烷与生成物的反应速度Y(%)之间的关
系,经试验测定得到某些数据。试建立非线 性回归模型,并进行统计分析。
例2:某物质的化学反应问题
假设:1. 线性函数 ax+b
y
2. 正态性
...·.E.(.Y|x0) ···.E·(·Y|x1)
0
x0
Baidu Nhomakorabea
x1
x
引例:某建筑材料公司的销售量因素分析
某建材公司对某年20个地区的建材销售量
Y(千方)、推销开支、实际帐目数、同类商品竞
争数和地区销售潜力分别进行了统计。试分析 推销开支x、1 实际帐目数、x2 同类商品竞争数x3和地 区销售潜力x对4 建材销售量的影响作用。试建立 回归模型,且分析哪些是主要的影响因素。
多元线性回归模型
Y 0 1x1 m xm ~ N (0, 2 )
任务:
• 在回归模型中如何估计参数βi (i=0,1,…,m)和σ2? • 模型的假设(线性)是否正确? • 判断每个自变量xi (i=1,…,m)对Y的影响是否显著? • 利用回归方程对试验指标 Y进行预测或控制?
Stepwise 语句功能介绍
模型中均方差历 史数据记载表
参变量数 据分析表
Stepwise 语句功能介绍
引例2求解
经过观察,得到各种情况下的均方差对比: 变量 x1,x2 x1,x3 x1,x4 x2,x3 x2,x4 x3,x4 组合 RMSE 53 51.96 61.77 23.96 52.96 44.75
b 11 x 1 2 + b 22 x 2 2 + b 33 x 3 2 + (quadratic terms) ~ N(0, 2)
例2:某物质的化学反应问题
MATLAB软件实现
rstool(X, y, ‘model’, alpha) (二次多项式回归分析的语句)
其中model有以下四种选择:
引例2求解
输出结果:
b = 191.9158 -0.7719 3.1725 -19.6811 -0.4501
β0
β1
β2
β3
β4
bint = 103.1071 280.7245……(系数的置信区间)
r =[ -6.3045 -4.2215 ……8.4422 23.4625 3.3938] rint=(略) stats = 0.9034(R2) 35.0509(F) 0.0000(p)
年份 消费(吨) 收入(亿)
1964 698 1097
1965 872 1284
1966 988 1502
…… …… ……
1978 1446 2948
1979 1980 2736 2825 3155 3372
试分析预测若1981年到1985年我国国民收 入以4.5%的速度递增,钢材消费量将达到什么 样的水平?
30
25
20
15
15
20
25
30
一元非线性回归分析 用polytool(x,y,2)还可以得到一个交互式画面。
Y
~
a1x2
N (0,
a2 2)
x
a3
;
Export
Parameters
Parameters CI
Prediction
Prediction CI
Residuals
All
一元非线性回归分析
32
30
28
26
24
22
20
18
15
20
25
30
一元非线性回归分析
假设模型
Y
~
a1x2 a2 x
N (0, 2 )
a3
;
一元多项式回归在matlab 软件中用命令polyfit实
现。如前面的例子,具体计算如下:
输入: (phg1.m)
x1=17:2:29;x=[x1,x1];
linear:(缺省)y = β0+β1x1+…+βmxm purequadratic: y = β0+β1x1+…+βmxm +∑j=1 to mβj*xj2 interaction: y = β0+β1x1+…+βmxm +∑1≤j≠k≤ mβjkxjxk quadratic(完全二次,以上模型之和)
10
x 10 6
5
4
3
2
1
0
0
100
200
300
400
500
主要内容
两个引例 线性回归模型
400 300 200 100
0 1997199819992000
MATLAB软件实现
非线性回归模型及软件实现
实 验内容
引例1:钢材消费量与国民收入的关系
为了研究钢材消费量与国民收入之间的关 系,在统计年鉴上查得一组历史数据。
y=[20.48 25.13 26.15 30.0 26.1 20.3 19.35
24.35 28.11 26.3 31.4 26.92 25.7 21.3];
[p,S]=polyfit(x,y,2);p
注意: x,y向量的维数要一致。S是一个数据结构, 用于其它函数的计算。
一元非线性回归分析
计算y的拟合值:
8
135.8
13
223.3
11
195.0
引例:某建筑材料公司的销售量因素分析
Z
① 数据能否可视 化?即通过散点图去 发现y与x1,x2…x4的函 数关系?
② 由一元回归模 型得到启示,我们是 否欲寻找关系: y = E(Y|x1,x2,x3,x4) 即
y = f(x1,x2,x3,x4) ?
一般的回归模型与任务
Y f (x) ; ~ N (0, 2 )
一元与多元
Y f (x1, x2 ,, xm ) ; ~ N (0, 2 )
线性与非线性
任务:
估计回归模型中的未知参数;
检验模型假设的正确性;
分析影响试验指标y的因素,挑选重要因素; 应用——预测与控制;
返回
知识简介 多元线性回归模型与任务
500 1000 1500 2000 2500 3000 3500
钢材消费量y与国民收入x的散点图
引例1:钢材消费量与国民收入的关系
回归分析是研究变量间相关关系的一种统计方法。
特点:试验指标(因变量)是随机变量。
一元线性回归模型:
Y a bx ; ~ N (0, 2 )
E(Y | X x) a bx
Q = r’*r σ2= Q/(n-2) = 537.2092 (近似)
残差向量分析图
Z
引例2求解 任务三(因素分析)如何实现?
逐步回归
b = 191.9158 -0.7719 3.1725 -19.6811 -0.4501
β0 β1 β2 β3
β4
stepwise(X, y, inmodel,alfha)
假设与建模一
在各因素与指标(因变量)之间的信息“一无所 知”的情况下,假设模型Y = f (x1,x2,x3)+ε中的函数f 是多项式形式,即
y = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + (linear terms) b 12 x 1 x 2 + b 13 x 1 x 3 + b 23 x 2 x 3 + (interaction terms)
回归相残系关数差系a向,数量b以Re=及2X,Y它-FY1们-及统的x1它计置, 们量信Y的区和间置与 y信1χ0对区应间的概率p。
1 xn
yn
残差及其置信区间可以用rcoplot(r,rint)画图。
引例2求解
输入:(jzhui.m)
x1=[5.5 2.5 8 3 ……8 6 4 7.5 7]’;(20维) x2=[31 55 67 …… 55 70 40 50 62 59]'; x3=[10 8 12 …… 11 11 9 9]'; x4=[8 6 9 16 …… 8 13 11]'; y=[79.3 200.1 …… 135.8 223.3 195]'; X=[ones(size(x1)),x1,x2,x3,x4]; [b,bint,r,rint,stats]=regress(y,X)
输入:[Y,delta]=polyconf(p,x,S);Y
结果: Y= 22.5243 28.3186 27.0450 22.5243 26.0582 27.0450 24.1689
26.0582 24.1689 27.9896 19.6904
27.9896 19.6904 28.3186
35
拟合效果图:
统计数据
X= x1
x2
x3
11
5.5
2
2.5
31
8.0
4 5
1
3.0 3.0
61
2.9
7
8.0
8.
9.0
9.
4.0
10
6.5
11 .
5.5
12 13
1
5.0 6.0
14 1
5.0
15
3.5
16 1
8.0
17 1
6.0
18
4.0
19 1
7.5
20
7.0
31
10
55
8
67
12
50
7
38
8
71
12
30
12
思考:如何进行预测? restool(X,y,’model’)
Z
MATLAB 软件能否实现非线性回归分析?
一元非线性回归分析
Z
如果从数据的散点图上发现y与x没有直线 关系,又如何计算?
例1: 试分析年龄与旋转定向(运动)能力之
间的关系
年龄
第1人 第2人
17 19 21 23 25 27 29
20.48 25.13 26.15 30.0 26.1 20.3 19.35 24.35 28.11 26.3 31.4 26.92 25.7 21.3
Ti
cii ~ t(n m 1), Se2
n m 1
0 {| Ti | t1 (n k)} 2
预测、控制……
返回
MATLAB软件实现
使用命令regress实现一(多)元线性回归模型的计算
b = regress (Y, X) 或
默认值是
0.05
[b, bint, r, rint, stats] = regress(Y, X, alpha)
多元线性回归分析
矩阵表达形式
βˆ (XTX)1 XT Y
1 x11 x1m
X
,
1 xn1 xnm
ˆ 2 Q
n m 1
y1
Y
,
yn
ˆ
ˆ0
ˆm
y的估计值: yˆ ˆ0 ˆ1x1 ˆm xm
Se2 /(n m 1)
0 {F F1 (m, n m 1)}
2)相关系数 R检验法
R2
SR2 ST2
,
0 {| R | r1 (n k)}
多元线性回归分析
任务三:因素分析
提出问题 检验方法
任务四:应用
H0 : i 0, H1 : i 0
ˆi
引例1:钢材消费量与国民收入的关系 假设
钢材消费量--------试验指标(因变量)Y; 国民收入-----------自变量 X; 作拟合曲线图形分析; 建立数据拟合函数 y = E(Y | X=x)= f(x)。
引例1:钢材消费量与国民收入的关系
3000
y=a+bx
2500
2000
1500
1000
变量 组合 RMSE
x1,x2 x3
24.65
x1, x2 x4
54.43
x1, x3 x4
45.86
x2,x3 x4
24.64
x1,x2 x3,, x4 25.39
引例2求解
√ y 186.11 3.09x2 19.5176x3 最佳回归方程
stats1: 0.9025 78.6381 0 y 189.72 0.7048x1 3.1066x2 19.584x3 stats2 : 0.9028 49.5443 0 y 187.882 3.149x2 19.605x3 0.4173x4 stats3 : 0.9029 49.61 0
拟合误差e = y – y 称为残差向量
残差平方和
n
n
Q ei2 ( yi yˆi )2
i 1
i 1
多元线性回归分析
任务二:模型检验
提出问题 H0 : 0 1 m 0
1)F-统计检验法
ST2
Se2
S
2 R
F
S
2 R
/
m
~ F (m, n m 1)
56
5
42
8
73
5
60
11
44
12
50
6
39
10
55
10
70
6
40
11
50
11
62
9
59
9
x4
y
8
79.3
6
200.1
9
163.2
16
200.1
15
146.0
17
177.7
8
30.9
10
291.9
4
160.0
16
339.4
7
159.6
12
86.3
6
237.5
4
107.2
4
155.0
14
201.4
6
100.2
一元非线性回归分析
在工作空间中,输入yhat,回车,得到预测值。
返回
多元非线性回归分析
例2:某物质的化学反应问题
<问题背景> 为了研究三种化学元素:氢、n戊烷和
异构戊烷与生成物的反应速度Y(%)之间的关
系,经试验测定得到某些数据。试建立非线 性回归模型,并进行统计分析。
例2:某物质的化学反应问题
假设:1. 线性函数 ax+b
y
2. 正态性
...·.E.(.Y|x0) ···.E·(·Y|x1)
0
x0
Baidu Nhomakorabea
x1
x
引例:某建筑材料公司的销售量因素分析
某建材公司对某年20个地区的建材销售量
Y(千方)、推销开支、实际帐目数、同类商品竞
争数和地区销售潜力分别进行了统计。试分析 推销开支x、1 实际帐目数、x2 同类商品竞争数x3和地 区销售潜力x对4 建材销售量的影响作用。试建立 回归模型,且分析哪些是主要的影响因素。
多元线性回归模型
Y 0 1x1 m xm ~ N (0, 2 )
任务:
• 在回归模型中如何估计参数βi (i=0,1,…,m)和σ2? • 模型的假设(线性)是否正确? • 判断每个自变量xi (i=1,…,m)对Y的影响是否显著? • 利用回归方程对试验指标 Y进行预测或控制?