回归模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ y
10 9.5 9 8.5 8 7.5 0 0.2 0.4 5.5 6 6.5 7
注意格式与regress区别:X, Y次序相反, 且这里 无须加第一列 区别: 次序相反, 无须加第一列1 注意格式与 区别 次序相反 且这里X无须加第一列
x1
x2
从输出 Export 可得
ˆ β,
SSE ˆ RMSE = σ ε = n− p
ˆ ˆ ˆ ˆ ˆ 销售量预测 y = β 0 + β1 x1 + β 2 x2 + β 3 x22
控制价格差x 控制价格差 1=0.2元,投入广告费 2=650万元 元 投入广告费x 万元
ˆ ˆ ˆ ˆ 2 ˆ y = β 0 + β 1 x1 + β 2 x 2 + β 3 x 2 = 8 . 2933 (百万支 百万支) 百万支
ˆ y = 8 .2933 (百万支 百万支) 百万支
区间 [7.8230,8.7636] ,
ˆ ˆ ˆ 2 ˆ ˆ = β0 + β1x1 + β2 x2 + β3 x2 + β4 x1x2 y
ˆ y = 8 .3272 (百万支 百万支) 百万支
区间 [7.8953,8.7592] ,
ˆ y 略有增加
2. 投资额与国民生产总值和物价指数
(含时间序列的回归 含时间序列的回归) 含时间序列的回归
问 题
建立投资额模型,研究某地区实际投资额与国民生产 建立投资额模型,研究某地区实际投资额与国民生产 某地区 总值 ( GNP ) 及物价指数 ( CPI ) 的关系
投资额 90.9 97.4 113.5 125.7 122.8 133.3 149.3 144.2 166.4 195.0 国民生产 总值 596.7 637.7 691.1 756.0 799.0 873.4 944.0 992.7 1077.6 1185.9 物价 指数 0.7167 0.7277 0.7436 0.7676 0.7906 0.8254 0.8679 0.9145 0.9601 1.0000 年份 序号 11 12 13 14 15 16 17 18 19 20 投资额 229.8 228.7 206.1 257.9 324.1 386.6 423.0 401.9 474.9 424.5 国民生 产总值 1326.4 1434.2 1549.2 1718.0 1918.3 2163.9 2417.8 2631.7 2954.7 3073.0 物价 指数 1.0575 1.1508 1.2579 1.3234 1.4005 1.5042 1.6342 1.7842 1.9514 2.0688
销售量预测区间为 [7.8230,8.7636](置信度 , (置信度95%) )
T 预测置信区间 x 0 βˆ ± t1 − α / 2 σˆ ε 1 + x 0 ( X T X ) − 1 x 0
上限用作库存管理的目标值 下限用来把握公司的现金流
改进模型1 改进模型
去掉x2项
2 y = β 0 + β1 x1 + β 2 x2 + ε
R2= 0.9916
ˆ yt = 325 .1889 + 0.6246 x1t − 868 .9094 x2 t
R2=0.9916,拟合度高,所有系数都显著 ,拟合度高,
剩余标准差 s=12.7164
问:是不是没有信息可以挖掘了?残差是否正 是不是没有信息可以挖掘了? 态分布?是否有办法减小残差? 态分布?是否有办法减小残差
年份 序号 1 2 3 4 5 6 7 8 9 10
基本回归模型
t ~年份, yt ~ 投资额,x1t~ GNP, x2t ~ 物价指数 年份, 投资额, 年份
yt yt
x1t
x2t
投资额与 GNP及物价指数间均有很强的线性关系 及物价指数间均有很强的线性关系
yt = β 0 + β1 x1t + β 2 x2t + ε t
β0, β1, β2 ~回归系数 回归系数
εt ~对t相互独立的零均值正态随机变量 对 相互独立的零均值正态随机变量 相互
基本回归模型的结果与分析
参数
β0 β1 β2
参数估计值 325.1889 0.6246 -868.9094 F= 1003.9
置信区间 [231.2 419.2] [0.4892 0.76] [-1119.8 -618 ] p=0.0000 σ2=161.7
模型显著、参数显著, 模型显著、参数显著, 且R2上升, σε2下降
模型销售量预测比较 模型销售量预测比较
控制价格差x 控制价格差 1=0.2元,投入广告费 2=6.5百万元 元 投入广告费x 百万元
原始模型
ˆ ˆ ˆ 2 ˆ ˆ y = β 0 + β1 x1 + β 2 x2 + β3 x2
改进模型2 改进模型
y 10
9.5 9 8.5 8 7.5 7 -0.2 0 0.2 0.4 0.6
y = β 0 + β1 x1 + ε
2 y = β 0 + β 1 x1 + β 2 x 2 + β 3 x 2 + ε
x1
y 10
9.5 9 8.5 8 7.5 7 5 5.5 6 6.5 7 7.5 x2
2 y = β 0 + β1 x2 + β 2 x2 + ε
参数
F0.95(3, 26) =2.97
y的90.54%可由模型确定 的 可由模型确定 p远小于α=0.05 远小于α 远小于
β2的置信区间包含零点
F远超过 检验的临界值 远超过F检验的临界值 远超过 模型从整体上看成立 x2对因变量 的 对因变量y 影响不太显著 可将x 可将 2保留在模型中
(右端点距零点很近 右端点距零点很近) 右端点距零点很近 但由于x 但由于 22项显著
收集了30个销售周期本公司牙膏销售量、价格、 收集了 个销售周期本公司牙膏销售量、价格、广告费 个销售周期本公司牙膏销售量
销售量 (百万支 百万支) 百万支 7.38 8.51 … 7.93 9.26
基本模型
y ~公司牙膏销售量 公司牙膏销售量 x1~其它厂家与本公司价格差 其它厂家与本公司价格差 其它厂家与本公司 x2~公司广告费用 公司广告费用
回归诊断:前提假设是否成立? 模型
Yt = β 0 + β1 X 1t + β 2 X 2t + ⋯ + β k X kt + ε t , t = 1,2, ⋯, N
alpha(置信水平,0.05) 置信水平 置信水平
2 结果分析 y = β 0 + β1 x1 + β 2 x 2 + β 3 x 2 + ε
参数估计值 置信区间 β0 17.3244 [5.7282 28.9206] β1 1.3070 [0.6829 1.9311 ] β2 -3.6956 [-7.4989 0.1077 ] β3 0.3486 [0.0379 0.6594 ] R2=0.9054, F=82.9409, p=0.0000 σε2 =0.0490
小结 回归模型无机理分析,直接从数据建模; 可根据实际问题选择合适的变量(与被解释 变量相关性大,数据易取得)建模; 可选择间接变量建模, 以简化模型; 可考虑2次项和交叉项,以改进拟合度; 回归模型需经过检验\改进\优化; Matlab命令regress和rstool; 可以用多元线性回归建非线性函数模型.
假设检验P值判别法
临界值法: F(统计量)> F1-α, 拒绝原假设H0 P值法: P<α, 拒绝原假设H0 P值法更灵活 统计软件用 值法更灵活(统计软件用 值法更灵活 统计软件用) P值
临界值F1-α
F计 α值 算值
MATLAB 统计工具箱 模型求解 2 y = β 0 + β 1 x1 + β 2 x 2 + β 3 x 2 + ε 由数据 y,x1,x2估计β [b,bint,r,rint,stats]=regress(y,x,alpha)
预测区间长度更短(精度更高 预测区间长度更短 精度更高) 精度更高
更完整的模型: 更完整的模型:完全二次多项式 2 2 y = β 0 + β1 x1 + β 2 x 2 + β 3 x1 x 2 + β 4 x1 + β 5 x 2 + ε
MATLAB中有命令 中有命令rstool(X,Y)直接求解 中有命令 直接求解
好的模型就是要SSE尽可能小,SSR尽可能大 尽可能小, 好的模型就是要 尽可能小 尽可能大
R2统计量:R2=SSR/SST表明模型能解释的信息比例. R2越接近 统计量: 1, 说明模型越显著。 SSE SSR /( p − 1) ˆ ε的方差σ ε2 = MSE = F= ~ F ( p − 1, n − p ) n− p SSE /(n − p ) 当F统计量很大(相应P值很小), 拒绝H0。 的显著性检验: 参数βi的显著性检验 若其置信区间不包含0点, 则显著
回归模型
1. 牙膏的销售量(基本模型) 牙膏的销售量(基本模型) 2. 投资额与国民生产总值(含时间序列) 投资额与国民生产总值(含时间序列) 3. 非线性回归
1.
牙膏的销售量
预测在不同价格和广告费用下的牙膏销售量. 问 预测在不同价格和广告费用下的牙膏销售量 题
用,及同期其它厂家同类牙膏的平均售价 销售 周期 1 2 … 29 30 本公司价 格(元) 元 3.85 3.75 … 3.80 3.70 其它厂家 价格(元 价格 元) 3.80 4.00 … 3.85 4.25 广告费用 (百万元 百万元) 百万元 5.50 6.75 … 5.80 6.80 价格差 (元) -0.05 0.25 … 0.05 0.55
2 y = β 0 + β1 x 2 + β 2 x 2 + ε
2 X = [1 x2 x2 ] ~n×3数据 × 数据 矩阵, 第1列为全 向量 矩阵 列为全1向量 列为全
模型的检验:方差分析法
模型的显著性检验 H0: β=0, H1: β≠ 0 (F检验) 误差平方和分解: SST=SSE+SSR 误差平方和分解 总误差平方和SST, 残差平方和 残差平方和SSE, 回归平方和 回归平方和SSR 总误差平方和
参数
β0 β1 β2
参数估计值 6.0767 1.5250 0.0472
置信区间 [5.3476 6.8057] [0.9123 2.1376] [0.0277 0.0667]
R2=0.8909, F=110.2, p=0.0000, σε2 =0.0544 模型显著,参数显著, 有所下降, 模型显著,参数显著,但R2有所下降, σε2变大
多元线性回归
一个被解释变量y 一个或多个解释变量x=(x1,x2, …xp). 一个被解释变量 ,一个或多个解释变量 模型: 模型: y = β0+ β1x1+ β2x2+…+ βpxp+ε ,即 ε~IIDN(0, σ2) 现有n组观测数据 组观测数据, 并检验模型的有效性。 现有 组观测数据,求β并检验模型的有效性。 参数估计 估计:设 和 分别为相应 组观察值的n× 向量 分别为相应n组观察值的 向量和 × 参数估计 设Y和X分别为相应 组观察值的 ×1向量和n×(p+1) 矩阵,其中X的第一列全为1. 1.参数估计 矩阵,其中X的第一列全为1.参数估计 ˆ ˆ ˆ β = ( X ' X ) −1 X ' Y , 回归拟合Y = X β 注意: 注意:线性回归可以建比较特殊的非线性函数模型
来自百度文库
改进模型2 改进模型
考虑x 考虑 1和x2的交互作用
y = β0 + β1 x1 + β2 x2 + β x + β4 x1 x2 + ε
2 3 2
参数
参数估计值 置信区间 β0 29.1133 [13.7013 44.5252] β1 11.1342 [1.9778 20.2906 ] β2 -7.6080 [-12.6932 -2.5228 ] β3 0.6712 [0.2538 1.0887 ] β4 -1.4777 [-2.8518 -0.1037 ] R2=0.9209 , F=72.7771, p=0.0000, σε2 =0.0426
维数据向量 输入 y~n维数据向量
2 x= [1 x1 x2 x2 ] ~n×4数 × 数 据矩阵, 列为全1向量 据矩阵 第1列为全 向量 列为全
输出 b~β的估计值
bint~β的置信区间 r ~残差向量 残差向量y-xb 残差向量 rint~r的置信区间 的置信区间 Stats~检验统计量 检验统计量 R2,F, P ,σε2 σ
10 9.5 9 8.5 8 7.5 0 0.2 0.4 5.5 6 6.5 7
注意格式与regress区别:X, Y次序相反, 且这里 无须加第一列 区别: 次序相反, 无须加第一列1 注意格式与 区别 次序相反 且这里X无须加第一列
x1
x2
从输出 Export 可得
ˆ β,
SSE ˆ RMSE = σ ε = n− p
ˆ ˆ ˆ ˆ ˆ 销售量预测 y = β 0 + β1 x1 + β 2 x2 + β 3 x22
控制价格差x 控制价格差 1=0.2元,投入广告费 2=650万元 元 投入广告费x 万元
ˆ ˆ ˆ ˆ 2 ˆ y = β 0 + β 1 x1 + β 2 x 2 + β 3 x 2 = 8 . 2933 (百万支 百万支) 百万支
ˆ y = 8 .2933 (百万支 百万支) 百万支
区间 [7.8230,8.7636] ,
ˆ ˆ ˆ 2 ˆ ˆ = β0 + β1x1 + β2 x2 + β3 x2 + β4 x1x2 y
ˆ y = 8 .3272 (百万支 百万支) 百万支
区间 [7.8953,8.7592] ,
ˆ y 略有增加
2. 投资额与国民生产总值和物价指数
(含时间序列的回归 含时间序列的回归) 含时间序列的回归
问 题
建立投资额模型,研究某地区实际投资额与国民生产 建立投资额模型,研究某地区实际投资额与国民生产 某地区 总值 ( GNP ) 及物价指数 ( CPI ) 的关系
投资额 90.9 97.4 113.5 125.7 122.8 133.3 149.3 144.2 166.4 195.0 国民生产 总值 596.7 637.7 691.1 756.0 799.0 873.4 944.0 992.7 1077.6 1185.9 物价 指数 0.7167 0.7277 0.7436 0.7676 0.7906 0.8254 0.8679 0.9145 0.9601 1.0000 年份 序号 11 12 13 14 15 16 17 18 19 20 投资额 229.8 228.7 206.1 257.9 324.1 386.6 423.0 401.9 474.9 424.5 国民生 产总值 1326.4 1434.2 1549.2 1718.0 1918.3 2163.9 2417.8 2631.7 2954.7 3073.0 物价 指数 1.0575 1.1508 1.2579 1.3234 1.4005 1.5042 1.6342 1.7842 1.9514 2.0688
销售量预测区间为 [7.8230,8.7636](置信度 , (置信度95%) )
T 预测置信区间 x 0 βˆ ± t1 − α / 2 σˆ ε 1 + x 0 ( X T X ) − 1 x 0
上限用作库存管理的目标值 下限用来把握公司的现金流
改进模型1 改进模型
去掉x2项
2 y = β 0 + β1 x1 + β 2 x2 + ε
R2= 0.9916
ˆ yt = 325 .1889 + 0.6246 x1t − 868 .9094 x2 t
R2=0.9916,拟合度高,所有系数都显著 ,拟合度高,
剩余标准差 s=12.7164
问:是不是没有信息可以挖掘了?残差是否正 是不是没有信息可以挖掘了? 态分布?是否有办法减小残差? 态分布?是否有办法减小残差
年份 序号 1 2 3 4 5 6 7 8 9 10
基本回归模型
t ~年份, yt ~ 投资额,x1t~ GNP, x2t ~ 物价指数 年份, 投资额, 年份
yt yt
x1t
x2t
投资额与 GNP及物价指数间均有很强的线性关系 及物价指数间均有很强的线性关系
yt = β 0 + β1 x1t + β 2 x2t + ε t
β0, β1, β2 ~回归系数 回归系数
εt ~对t相互独立的零均值正态随机变量 对 相互独立的零均值正态随机变量 相互
基本回归模型的结果与分析
参数
β0 β1 β2
参数估计值 325.1889 0.6246 -868.9094 F= 1003.9
置信区间 [231.2 419.2] [0.4892 0.76] [-1119.8 -618 ] p=0.0000 σ2=161.7
模型显著、参数显著, 模型显著、参数显著, 且R2上升, σε2下降
模型销售量预测比较 模型销售量预测比较
控制价格差x 控制价格差 1=0.2元,投入广告费 2=6.5百万元 元 投入广告费x 百万元
原始模型
ˆ ˆ ˆ 2 ˆ ˆ y = β 0 + β1 x1 + β 2 x2 + β3 x2
改进模型2 改进模型
y 10
9.5 9 8.5 8 7.5 7 -0.2 0 0.2 0.4 0.6
y = β 0 + β1 x1 + ε
2 y = β 0 + β 1 x1 + β 2 x 2 + β 3 x 2 + ε
x1
y 10
9.5 9 8.5 8 7.5 7 5 5.5 6 6.5 7 7.5 x2
2 y = β 0 + β1 x2 + β 2 x2 + ε
参数
F0.95(3, 26) =2.97
y的90.54%可由模型确定 的 可由模型确定 p远小于α=0.05 远小于α 远小于
β2的置信区间包含零点
F远超过 检验的临界值 远超过F检验的临界值 远超过 模型从整体上看成立 x2对因变量 的 对因变量y 影响不太显著 可将x 可将 2保留在模型中
(右端点距零点很近 右端点距零点很近) 右端点距零点很近 但由于x 但由于 22项显著
收集了30个销售周期本公司牙膏销售量、价格、 收集了 个销售周期本公司牙膏销售量、价格、广告费 个销售周期本公司牙膏销售量
销售量 (百万支 百万支) 百万支 7.38 8.51 … 7.93 9.26
基本模型
y ~公司牙膏销售量 公司牙膏销售量 x1~其它厂家与本公司价格差 其它厂家与本公司价格差 其它厂家与本公司 x2~公司广告费用 公司广告费用
回归诊断:前提假设是否成立? 模型
Yt = β 0 + β1 X 1t + β 2 X 2t + ⋯ + β k X kt + ε t , t = 1,2, ⋯, N
alpha(置信水平,0.05) 置信水平 置信水平
2 结果分析 y = β 0 + β1 x1 + β 2 x 2 + β 3 x 2 + ε
参数估计值 置信区间 β0 17.3244 [5.7282 28.9206] β1 1.3070 [0.6829 1.9311 ] β2 -3.6956 [-7.4989 0.1077 ] β3 0.3486 [0.0379 0.6594 ] R2=0.9054, F=82.9409, p=0.0000 σε2 =0.0490
小结 回归模型无机理分析,直接从数据建模; 可根据实际问题选择合适的变量(与被解释 变量相关性大,数据易取得)建模; 可选择间接变量建模, 以简化模型; 可考虑2次项和交叉项,以改进拟合度; 回归模型需经过检验\改进\优化; Matlab命令regress和rstool; 可以用多元线性回归建非线性函数模型.
假设检验P值判别法
临界值法: F(统计量)> F1-α, 拒绝原假设H0 P值法: P<α, 拒绝原假设H0 P值法更灵活 统计软件用 值法更灵活(统计软件用 值法更灵活 统计软件用) P值
临界值F1-α
F计 α值 算值
MATLAB 统计工具箱 模型求解 2 y = β 0 + β 1 x1 + β 2 x 2 + β 3 x 2 + ε 由数据 y,x1,x2估计β [b,bint,r,rint,stats]=regress(y,x,alpha)
预测区间长度更短(精度更高 预测区间长度更短 精度更高) 精度更高
更完整的模型: 更完整的模型:完全二次多项式 2 2 y = β 0 + β1 x1 + β 2 x 2 + β 3 x1 x 2 + β 4 x1 + β 5 x 2 + ε
MATLAB中有命令 中有命令rstool(X,Y)直接求解 中有命令 直接求解
好的模型就是要SSE尽可能小,SSR尽可能大 尽可能小, 好的模型就是要 尽可能小 尽可能大
R2统计量:R2=SSR/SST表明模型能解释的信息比例. R2越接近 统计量: 1, 说明模型越显著。 SSE SSR /( p − 1) ˆ ε的方差σ ε2 = MSE = F= ~ F ( p − 1, n − p ) n− p SSE /(n − p ) 当F统计量很大(相应P值很小), 拒绝H0。 的显著性检验: 参数βi的显著性检验 若其置信区间不包含0点, 则显著
回归模型
1. 牙膏的销售量(基本模型) 牙膏的销售量(基本模型) 2. 投资额与国民生产总值(含时间序列) 投资额与国民生产总值(含时间序列) 3. 非线性回归
1.
牙膏的销售量
预测在不同价格和广告费用下的牙膏销售量. 问 预测在不同价格和广告费用下的牙膏销售量 题
用,及同期其它厂家同类牙膏的平均售价 销售 周期 1 2 … 29 30 本公司价 格(元) 元 3.85 3.75 … 3.80 3.70 其它厂家 价格(元 价格 元) 3.80 4.00 … 3.85 4.25 广告费用 (百万元 百万元) 百万元 5.50 6.75 … 5.80 6.80 价格差 (元) -0.05 0.25 … 0.05 0.55
2 y = β 0 + β1 x 2 + β 2 x 2 + ε
2 X = [1 x2 x2 ] ~n×3数据 × 数据 矩阵, 第1列为全 向量 矩阵 列为全1向量 列为全
模型的检验:方差分析法
模型的显著性检验 H0: β=0, H1: β≠ 0 (F检验) 误差平方和分解: SST=SSE+SSR 误差平方和分解 总误差平方和SST, 残差平方和 残差平方和SSE, 回归平方和 回归平方和SSR 总误差平方和
参数
β0 β1 β2
参数估计值 6.0767 1.5250 0.0472
置信区间 [5.3476 6.8057] [0.9123 2.1376] [0.0277 0.0667]
R2=0.8909, F=110.2, p=0.0000, σε2 =0.0544 模型显著,参数显著, 有所下降, 模型显著,参数显著,但R2有所下降, σε2变大
多元线性回归
一个被解释变量y 一个或多个解释变量x=(x1,x2, …xp). 一个被解释变量 ,一个或多个解释变量 模型: 模型: y = β0+ β1x1+ β2x2+…+ βpxp+ε ,即 ε~IIDN(0, σ2) 现有n组观测数据 组观测数据, 并检验模型的有效性。 现有 组观测数据,求β并检验模型的有效性。 参数估计 估计:设 和 分别为相应 组观察值的n× 向量 分别为相应n组观察值的 向量和 × 参数估计 设Y和X分别为相应 组观察值的 ×1向量和n×(p+1) 矩阵,其中X的第一列全为1. 1.参数估计 矩阵,其中X的第一列全为1.参数估计 ˆ ˆ ˆ β = ( X ' X ) −1 X ' Y , 回归拟合Y = X β 注意: 注意:线性回归可以建比较特殊的非线性函数模型
来自百度文库
改进模型2 改进模型
考虑x 考虑 1和x2的交互作用
y = β0 + β1 x1 + β2 x2 + β x + β4 x1 x2 + ε
2 3 2
参数
参数估计值 置信区间 β0 29.1133 [13.7013 44.5252] β1 11.1342 [1.9778 20.2906 ] β2 -7.6080 [-12.6932 -2.5228 ] β3 0.6712 [0.2538 1.0887 ] β4 -1.4777 [-2.8518 -0.1037 ] R2=0.9209 , F=72.7771, p=0.0000, σε2 =0.0426
维数据向量 输入 y~n维数据向量
2 x= [1 x1 x2 x2 ] ~n×4数 × 数 据矩阵, 列为全1向量 据矩阵 第1列为全 向量 列为全
输出 b~β的估计值
bint~β的置信区间 r ~残差向量 残差向量y-xb 残差向量 rint~r的置信区间 的置信区间 Stats~检验统计量 检验统计量 R2,F, P ,σε2 σ