多元回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
内蒙古
辽 宁
2150.41
6002.54
1005.2
1861.3
1174.66
2076.36
吉 林
黑龙江
2522.62
4430.00
1044.6
1622.4
969.03
1166.18
多元回归模型
Yi 0 1Xi1 2 Xi2
iid 2
k Xi,k i ,
其中 i ~ N(0, )且i 1, 2,..., n
多元回归模型基本假定
1. 误差项ε是一个期望值为0的随机变量,即 E()=0 2. 对于自变量x1,x2, …,xk的所有值,的 方差 2都相同 3. 误差项 ε 是一个服从正态分布的随机变量, 即ε~N(0,2),且相互独立
多元线性回归方程的形式为 • E( y ) = 0+ 1 x1 + 2 x2 +…+ k xk 描述因变量 y 的平均值或期望值如何依赖于自 变量 x1, x2 ,…,xk的方程 偏回归系数βi表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均变动值
Q0 ˆ 0 Q0 ˆ 1 ˆ Q0 2 Q0 ˆ k
i=1,2…n
其 中
n i 1
ˆ )2 Q ei2 (Yi Y i
i 1 i 1
n
n
ˆ ˆ X ˆ X ˆ X )) (Yi ( 0 1 1i 2 2i k ki
0.52148 0.44172 47.46341 15
r2
SSR 29460.0 .52148 SST 56493.3
销量变化的52.1% ,由价格和广告 因素解释
Significance F 0.01201
ANOVA Regression Residual Total
df 2 12 14 Coefficien ts
• 例:股票价格Y,自变量为每股收益X1,每 股帐面价值X2。 • 例:失业的时间长度Y(月),自变量有学 历x1,年龄x2,工龄X3.
多元回归模型
(multiple regression model)
描述因变量 y 依赖于自变量 x1 , x2 ,…, xk 和误差项 的方程,称为多元回归模型
馅饼销售
星期 Week 销售 Pie Sales 价格 Price ($) 广告费 Advertising ($100s)
1
2 3 4
350
460 350 430
5.50
7.50 8.00 8.00
3.3
3.3 3.0 4.5
Multiple regression equation:
5
6 7 8
350
估计值 Estimated (or predicted) value of Y
截距 Estimated intercept
斜率Estimated slope coefficients
ˆ X X Y i 0 1 1i 2 2i
用 Excel 计算得到回归系数
kXki
馅饼Pie销售量sale,受 价格price的影响。 还受广告费Advertising 的影响
1 X 12 X k2
1 Y1 X 1n Y2 X kn Yn
即
ˆ X Y (X X) β
由于X’X满秩,故有
ˆ ( X X) 1 X Y β
多元回归方程
模型系数由样本数据估计得到
^
^
SSE Y Y
^
2
回归残差示意图
Y Yi
<
样本观测
Residual = ε i = (Yi – Yi)
<
ˆ b b X b X Y 0 1 1 2 2
Yi x2i x1i X1
X2
<
The best fit equation, Y , is found by minimizing the sum of squared errors, e2
t Stat 2.68285 -2.30565 2.85478
P-value 0.01993 0.03979 0.01449
Lower 95% 57.58835 -48.57626 17.55303
Upper 95% 555.46404 -1.37392 130.70888
Intercept Price Advertising
汽车销售
若公司管理人员要预测来年该公 司的汽车销售额y时,影响销 售额的因素---广告宣传费x1
还有个人可 支配收入x2, 价格x3
研究地区经济增长GDP,受劳动力投入人数 x1影响!
还有:资本要素X2,科 技水平X3的影响
多元回归应用
• 例:财政收入y为因变量。自变量如下:x1工 业总产值,x2农业总产值,x3建筑业总产 值,x4人口数,x5社会商品零售总额。
普通最小二乘估计
对于随机抽取的n组观测值 (Y , X
i ji
), i 1,2, , n, j 0,1,2, k
如果样本函数的参数估计值已经得到,则有:
ˆ ˆ X ˆ X ˆ X ˆ Y i 0 1 1i 2 2i ki Ki
根据最小二乘原理,参数估计值应该是下列方程 组的解
y 0 1 x1 2 x2 k xk
β0 ,β1,β2 ,,βk是参数 是被称为误差项的随机变量 包含在 y 里面但不能被 k 个自变量的线性关系所解释 的变异性
多元回归样本数据
地区 北 天 河 山 京 津 北 西 GDP 3663.10 2447.66 7098.56 2456.59 就业人员 (万人) 858.6 419.7 3389.5 1469.5 投资 (亿元) 2169.26 1039.39 2477.98 1100.86
多元回归方程几何意义 Multiple Regression Equation
Y
ˆ X X Y 0 1 1 2 2
X2
X1
最小二乘估计
E (Y ) 0 1 x1 p x p
• 最小
SSE:
^ ^
Y 0 1 x1 p x p
越大越好
反映自变量 xi 的变化 对因变量 y 取值变化 的影响,
残差平方和 (SSE)
假设不变
越小越好 反映除 x i以外的
其他因素对 y 取 值的影响
SST = SSR + SSE
{
{
多重判定系数-可决系数-拟合优度
(multiple coefficient of determination)
ANOVA Regression
df 2
SS 29460.027
MS 14730.01 3
F 6.53861
Residual
Total
12
14 Coefficient s
27033.306
56493.333 Standard Error 114.25389 10.83213 25.96732
2252.776
2
于是得到关于待估参数估计值的正规方程组:
ˆ ˆ X ˆ X ˆ X ) Y ( 0 1 1i 2 2i k ki i ˆ ˆ ˆ ˆ ( 0 1 X 1i 2 X 2 i k X ki ) X 1i Yi X 1i ˆ ˆ X ˆ X ˆ X ) X Y X ( 0 1 1i 2i 2i k ki 2i i 2i ˆ ˆ ˆ ˆ ( 0 1 X 1i 2 X 2 i k X ki ) X ki Yi X ki
解该(k+1)个方程组成的线性代数方程组,即可得到 (k+1)个待估参数的估计值 j , j 0,1,2,, k 。
正规方程组的矩阵形式
n X 1i X ki
X X
1i 2 1i
X X X
ki
X
ki
X 1i
ˆ 1 0 ˆ X 11 1i ki 1 2 ˆ X ki k X k 1
5.90
5.00 7.00
4.0
3.5 2.7
多元回归结果
Regression Statistics Multiple R 0.72213
R Square
Adjusted R Square Standard Error Observations
0.52148
0.44172 47.46341 15Sales 306.526 - 24.975(Price) 74.131(Adv ertising) Significance F 0.01201
Y1 1 X11 Y2 1 X 21 模型矩阵表示 Yn 1 X n1 X1k 0 1 X 2k 1 2 X nk n k
Yn1 Xn(k 1)β(k 1)1 ε n1
Lower 95%
57.58835 -48.57626 17.55303
Upper 95% 555.46404 -1.37392 130.70888
预测销量为 428.62 pies
注意:单位百元,$350 意味 X2 = 3.5
模型的F检验
系数的T检验
拟合度检验--决定系数
误差平方和的分解
y
i 1
n
i
ˆ i y yi y ˆ y y
2 2 i 1 i 1
n
n
2
总平方和 (SST)
{
回归平方和 (SSR)
380 430 470
6.80
7.50 4.50 6.40
3.0
4.0 3.0 3.7
9
10 11 12
450
490 340 300
7.00
5.00 7.20 7.90
3.5
4.0 3.5 3.2
Sales = β0 +β1 (Price) +β2 (Advertising)
13
14 15
440
450 300
Multiple Linear Regression Analysis
一元线性回归模型复习
一个自变量X与一个因变量Y
作散点图
模型形式 Y=β0+β1X+ε
回归直线
模型的F检验,T检验,(P值相同,作用等价)
R2决定系数---》相关系数
房屋售价
• 房价Y,受面积X1影响, • 还有影响因素吗? • 受地域x2(市中心与 否),结构x3影响(高 层与砖混)
1. 回归平方和占总平方和的比例 2. 计算公式为
3. 因变量取值的变差中,能被多元回归方程 所解释的比例
决定系数
Regression Statistics
Multiple R
R Square Adjusted R Square Standard Error Observations
0.72213
Байду номын сангаас
SS 29460.027 27033.306 56493.333 Standard Error 114.25389 10.83213 25.96732
MS 14730.03 2252.776
F 6.53861
t Stat
2.68285 -2.30565 2.85478
P-value
0.01993 0.03979 0.01449
306.52619 -24.97509 74.13096
多元回归方程
Sales 306.526 - 24.975(Price) 74.131(Advertising)
b1 = -24.975: 表明每
b2 = 74.131: 表明销
周销售量将减少, 价格增加1美元, 销售量平均减少 24.975 个,(假 设广告的效果不变)
售量增加,广告费 增加100美元, 销售平均增加 74.131个/周, (假设价格不变)
用模型预测
预测价格为$5.50 ,广告费为 $350:
Sales 306.526 - 24.975(Price) 74.131(Advertising) 306.526 - 24.975 (5.50) 74.131(3.5) 428.62