回归分析建模及Matlab实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元线性回归分析
矩阵表达形式
βˆ (XTX)1 XT Y
1 x11 X
1 xn1
x1m , xnm
ˆ 2 Q
n m 1
y1
Y
,
yn
ˆ
ˆ0
ˆm
y的估计值: yˆ ˆ0 ˆ1x1 ˆm xm
返回
知识简介 多元线性回归模型与任务
多元线性回归模型
Y 0 1x1 m xm ~ N (0, 2 )
任务:
• 在回归模型中如何估计参数βi (i=0,1,…,m)和σ2? • 模型的假设(线性)是否正确? • 判断每个自变量xi (i=1,…,m)对Y的影响是否显著? • 利用回归方程对试验指标 Y进行预测或控制?
一般的回归模型与任务
Y f (x) ; ~ N (0, 2 )
一元与多元
Y f (x1, x2 , , xm ) ; ~ N (0, 2 )
线性与非线性
任务:
估计回归模型中的未知参数;
检验模型假设的正确性;
分析影响试验指标y的因素,挑选重要因素; 应用——预测与控制;
输入:[Y,delta]=polyconf(p,x,S);Y
结果: Y= 22.5243 28.3186 27.0450 22.5243 26.0582 27.0450 24.1689
26.0582 24.1689 27.9896 19.6904
27.9896 19.6904 28.3186
35
拟合效果图:
30
25
20
15
15
20
25
来自百度文库
30
一元非线性回归分析 用polytool(x,y,2)还可以得到一个交互式画面。
Y
~
a1x2 a2 x
N (0, 2 )
a3
;
Export
Parameters
Parameters CI
Prediction
Prediction CI
Residuals
思考:如何进行预测? restool(X,y,’model’)
Z
MATLAB 软件能否实现非线性回归分析?
一元非线性回归分析
Z
如果从数据的散点图上发现y与x没有直线 关系,又如何计算?
例1: 试分析年龄与旋转定向(运动)能力之
间的关系
年龄
第1人 第2人
17 19 21 23 25 27 29
20.48 25.13 26.15 30.0 26.1 20.3 19.35 24.35 28.11 26.3 31.4 26.92 25.7 21.3
变量 组合 RMSE
x1,x2 x3
24.65
x1, x2 x4
54.43
x1, x3 x4
45.86
x2,x3 x4
24.64
x1,x2 x3,, x4 25.39
引例2求解
√ y 186.11 3.09x2 19.5176x3 最佳回归方程
stats1: 0.9025 78.6381 0 y 189.72 0.7048x1 3.1066x2 19.584x3 stats2 : 0.9028 49.5443 0 y 187.882 3.149x2 19.605x3 0.4173x4 stats3 : 0.9029 49.61 0
~
F (m, n
m
1)
0 {F F1 (m, n m 1)}
2)相关系数 R检验法
R2
SR2 ST2
,
0 {| R | r1 (n k)}
多元线性回归分析
任务三:因素分析
提出问题 检验方法
任务四:应用
H0 : i 0, H1 : i 0
ˆi
Ti
cii ~ t(n m 1), Se2
n m 1
0 {| Ti | t1 (n k)} 2
预测、控制……
返回
MATLAB软件实现
使用命令regress实现一(多)元线性回归模型的计算
b = regress (Y, X) 或
默认值是
0.05
[b, bint, r, rint, stats] = regress(Y, X, alpha)
一元非线性回归分析
32
30
28
26
24
22
20
18
15
20
25
30
一元非线性回归分析
假设模型
Y
~
a1x2 a2 x
N (0, 2 )
a3
;
一元多项式回归在matlab 软件中用命令polyfit实
现。如前面的例子,具体计算如下:
输入: (phg1.m)
x1=17:2:29;x=[x1,x1];
500 1000 1500 2000 2500 3000 3500
钢材消费量y与国民收入x的散点图
引例1:钢材消费量与国民收入的关系
回归分析是研究变量间相关关系的一种统计方法。
特点:试验指标(因变量)是随机变量。
一元线性回归模型:
Y a bx ; ~ N (0, 2 )
E(Y | X x) a bx
b 11 x 1 2 + b 22 x 2 2 + b 33 x 3 2 + (quadratic terms) ~ N(0, 2)
例2:某物质的化学反应问题
MATLAB软件实现
rstool(X, y, ‘model’, alpha) (二次多项式回归分析的语句)
其中model有以下四种选择:
假设:1. 线性函数 ax+b
y
2. 正态性
...·.E.(.Y|x0) ···.E·(·Y|x1)
0
x0
x1
x
引例:某建筑材料公司的销售量因素分析
某建材公司对某年20个地区的建材销售量
Y(千方)、推销开支、实际帐目数、同类商品竞
争数和地区销售潜力分别进行了统计。试分析 推销开支x、1 实际帐目数、x2 同类商品竞争数x3和地 区销售潜力x对4 建材销售量的影响作用。试建立 回归模型,且分析哪些是主要的影响因素。
12
56
5
42
8
73
5
60
11
44
12
50
6
39
10
55
10
70
6
40
11
50
11
62
9
59
9
x4
y
8
79.3
6
200.1
9
163.2
16
200.1
15
146.0
17
177.7
8
30.9
10
291.9
4
160.0
16
339.4
7
159.6
12
86.3
6
237.5
4
107.2
4
155.0
14
201.4
linear:(缺省)y = β0+β1x1+…+βmxm purequadratic: y = β0+β1x1+…+βmxm +∑j=1 to mβj*xj2 interaction: y = β0+β1x1+…+βmxm +∑1≤j≠k≤ mβjkxjxk quadratic(完全二次,以上模型之和)
拟合误差e = y – y 称为残差向量
残差平方和
n
n
Q ei2 ( yi yˆi )2
i 1
i 1
多元线性回归分析
任务二:模型检验
提出问题 H0 : 0 1 m 0
1)F-统计检验法
ST2
Se2
S
2 R
F
Se2
SR2 / /(n
m m
1)
回归相残系关数差a系向,数量b以Re及=2X,Y它-FY们1-及统的x1它计置, 们信量Y区的和间置与 y信χ1 0对区应间的概率p。
1 xn
yn
残差及其置信区间可以用rcoplot(r,rint)画图。
引例2求解
输入:(jzhui.m)
x1=[5.5 2.5 8 3 ……8 6 4 7.5 7]’;(20维) x2=[31 55 67 …… 55 70 40 50 62 59]'; x3=[10 8 12 …… 11 11 9 9]'; x4=[8 6 9 16 …… 8 13 11]'; y=[79.3 200.1 …… 135.8 223.3 195]'; X=[ones(size(x1)),x1,x2,x3,x4]; [b,bint,r,rint,stats]=regress(y,X)
6
100.2
8
135.8
13
223.3
11
195.0
引例:某建筑材料公司的销售量因素分析
Z
① 数据能否可视 化?即通过散点图去 发现y与x1,x2…x4的函 数关系?
② 由一元回归模 型得到启示,我们是 否欲寻找关系: y = E(Y|x1,x2,x3,x4) 即
y = f(x1,x2,x3,x4) ?
年份 消费(吨) 收入(亿)
1964 698 1097
1965 872 1284
1966 988 1502
…… …… ……
1978 1446 2948
1979 1980 2736 2825 3155 3372
试分析预测若1981年到1985年我国国民 收入以4.5%的速度递增,钢材消费量将达到什 么样的水平?
统计数据
X= x1
x2
x3
11
5.5
2
2.5
3 1 8.0
4 5
1
3.0 3.0
61
2.9
7
8.0
8.
9.0
9.
4.0
10
6.5
11 .
5.5
12 13
1
5.0 6.0
14 1
5.0
15
3.5
16 1
8.0
17 1
6.0
18
4.0
19 1
7.5
20
7.0
31
10
55
8
67
12
50
7
38
8
71
12
30
引例1:钢材消费量与国民收入的关系 假设
钢材消费量--------试验指标(因变量)Y; 国民收入-----------自变量 X; 作拟合曲线图形分析; 建立数据拟合函数 y = E(Y | X=x)= f(x)。
引例1:钢材消费量与国民收入的关系
3000
y=a+bx
2500
2000
1500
1000
如上例,输入: X=[x1,x2,x3,x4]; stepwise(X,y,[1,2,3])
Stepwise 语句功能介绍
模型中均方差历 史数据记载表
参变量数 据分析表
Stepwise 语句功能介绍
引例2求解
经过观察,得到各种情况下的均方差对比: 变量 x1,x2 x1,x3 x1,x4 x2,x3 x2,x4 x3,x4 组合 RMSE 53 51.96 61.77 23.96 52.96 44.75
All
一元非线性回归分析
在工作空间中,输入yhat,回车,得到预测值。
返回
多元非线性回归分析
例2:某物质的化学反应问题
<问题背景> 为了研究三种化学元素:氢、n戊烷和
异构戊烷与生成物的反应速度Y(%)之间的关
系,经试验测定得到某些数据。试建立非线 性回归模型,并进行统计分析。
例2:某物质的化学反应问题
y=[20.48 25.13 26.15 30.0 26.1 20.3 19.35
24.35 28.11 26.3 31.4 26.92 25.7 21.3];
[p,S]=polyfit(x,y,2);p
注意: x,y向量的维数要一致。S是一个数据结构, 用于其它函数的计算。
一元非线性回归分析
计算y的拟合值:
引例2求解
输出结果:
b = 191.9158 -0.7719 3.1725 -19.6811 -0.4501
β0
β1
β2
β3
β4
bint = 103.1071 280.7245……(系数的置信区间)
r =[ -6.3045 -4.2215 ……8.4422 23.4625 3.3938] rint=(略) stats = 0.9034(R2) 35.0509(F) 0.0000(p)
假设与建模一
在各因素与指标(因变量)之间的信息“一无所 知”的情况下,假设模型Y = f (x1,x2,x3)+ε中的函数f 是多项式形式,即
y = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + (linear terms) b 12 x 1 x 2 + b 13 x 1 x 3 + b 23 x 2 x 3 + (interaction terms)
10
x 10 6
5
4
3
2
1
0
0
100
200
300
400
500
主要内容
两个引例 线性回归模型
400 300 200 100
0 1997199819992000
MATLAB软件实现
非线性回归模型及软件实现
实 验内容
引例1:钢材消费量与国民收入的关系
为了研究钢材消费量与国民收入之间的关 系,在统计年鉴上查得一组历史数据。
Q = r’*r σ2= Q/(n-2) = 537.2092 (近似)
残差向量分析图
Z
引例2求解 任务三(因素分析)如何实现?
逐步回归
b = 191.9158 -0.7719 3.1725 -19.6811 -0.4501
β0 β1 β2 β3
β4
stepwise(X, y, inmodel,alfha)