回归分析建模方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.3 统计分析
平方和分解公式 S =
且 S
2
2 ( y − y ) = S 残 + S回 ∑ i i =1
n 2 n
n
σ2
ˆi ) , ˆi − y ) 2 ~ χ (n − 1) .其中 S 残 = ∑ ( yi − y S回 = ∑ ( y
i =1 i =1
ˆ=β 1. E β
ˆ ~ N ( β , σ 2 ( X T X ) −1 ) 2. β
ˆi , ε i = yi − y (i = 1,
, n)
的置信区间,
εi
服从均值为零的正态分布,所以若某个εi 的
置信区间不包含零点,则认为这个数据是异常的, 可予以剔除。
1.8 Matlab实现 Matlab统计工具箱用命令regress实现多元线性回归, 用的方法是最小二乘法,用法:b=regress(Y,X) 这里Y,X为数组矩阵, b为回归系数估计值
ˆ x +β m m
ˆ ˆ = Xβ 拟合值 Y
⎛ y1 − y1 ⎞ ⎛ ε1 ⎞ ⎜ ⎟ ⎜ ⎟ ˆ 残差向量(拟合误差) ε = ⎟ ⎜ ⎟ = Y −Y = ⎜ ⎜ε ⎟ ⎜ ⎟ − y y ⎝ n⎠ n⎠ ⎝ n
2 2 ˆ ( ) S = ε = y − y 残差平方和(或剩余平方和) 残 ∑ i ∑ i i i =1 i =1 n n
3. S残
σ2
~ χ (n − m − 1) ⇒ σ =
2 2
S残 n − m −1
是σ 2 的无偏估计
4.
S回
σ2
~ χ ( m) ⇒ σ =
2 2
S回 m
也是σ 2 的无偏估计
1.4 回归模型的假设检验 检验问题:
H 0 : β j = 0( j = 1, , m) ↔
β j ( j = 1,
ˆ ,β ˆ , ,β ˆ β 0 1 m
[ b,bint,r,rint,stats ] = regress( Y,X,alpha ) 这里Y,X同上,alpha为显著性水平(缺省时设为0.05),
b,bint为回归系数估计值和它们的置信区间,r,rint为残
差(向量)及其置信区间,stats是用于检验回归模型的统 计量,有三个数值,第一个是R2,第二个是F,第3个是 与F对应的概率p,p<α拒绝H0,回归模型成立 残差及其置信区间可以用rcoplot(r,rint)画图.

⎛1 x11 ⎜ 记 X =⎜ ⎜1 x n1 ⎝
⎛ β0 ⎞ x1m ⎞ ⎛ y1 ⎞ ⎛ ε1 ⎞ ⎜ ⎟ β1 ⎟ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ε = ⎜ ⎟, β= Y = ⎜ ⎟, ⎟, ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎟ xnm ⎠ ⎜ ⎟ ⎝ yn ⎠ ⎝εn ⎠ ⎝ βm ⎠
⎧ ⎪Y = X β + ε ⎨ 2 ~ (0, ε N σ In ) ⎪ ⎩
例1 合金的强度与其中的碳含量有比较密切的关系,今从生 产中收集了一批数据如下表
x y
0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 42.0 41.5 45.0 45.5 45.0 47.5 49.0 55.0 50.0
回归分析在一组数据的基础上研究这样几个问题
• 建立因变量y与自变量 x1,…,xm 间的回归模 型(经验公式); • 对回归模型的可信度进行检验; • 判断每个自变量 xi 对 y 的影响是否显著; • 诊断回归模型是否适合这组数据; • 利用回归模型对y进行预报或控制.
§1 多元线性回归
1.1 模型
, m ) 不全为 0
检验统计量: F = 判断:
S回 / m S 残 / (n − m − 1)
~ F (m, n − m − 1)
当 F > Fα ( m, n − m − 1) 时拒绝 H 0 即认为回归模型显著
相关系数
R =
2
S回 S
, (0 ≤ R ≤ 1 , R 越大越好)
1.5 回归系数的假设检验
⎧ y = β 0 + β1 x1 + + β m xm + ε 多元线性回归模型 ⎨ 2 ~ (0, ) 其中σ未知 ε N σ ⎩
n个独立观测数据 ( yi ; xi1 , , xim ) , (i = 1, , n ; n > m)
⎧ yi = β 0 + β1 xi1 + + β m xim + ε i ⎨ 2 N ε ~ ( 0 , σ ), i = 1, , n ⎩ i
2
其中 s =
S残 n − m −1
1.7 利用回归模型进行预测 对给定的 x 0 = ( x 01 ,
, x0m )
ˆ x +β m 0m
2
ˆ +β ˆx + ˆ0 = β y 0 1 01
预测区间
2
ˆ 0 − uα s , y ˆ 0 + uα s ] [y
对 y0 的区间估计方法可用于给出已知数据残差Leabharlann Baidu
~
t ( n − m − 1)
其中 c j j 是 ( X T X ) −1 对角线上第 j + 1 个元素
判断:
( j) 当 | t j |> tα (n − m − 1) 时拒绝 H 0 2
说明x j 的作用显著
1.6 回归系数的区间估计
对置信水平 1-α,βj 的置信区间:
ˆ ∓ t (n − m − 1) s c ] [β j α jj
第4章
回归分析
曲线拟合问题的特点是,根据得到的若干有关变量的 一组数据,寻找因变量与(一个或多个)自变量之间的一 个函数,使这个函数对该组数据拟合得最好。通常函数的 形式可以由经验、先验知识或对数据的直观观察决定,要 作的工作就是由数据用最小二乘法(不用最小一乘法)计 算函数中的待定系数. 简单地说,回归分析就是对拟合问题作的统计分析。
检验问题: 检验统计量:
( j) H0 : β j = 0 ↔ H1( j ) : β j ≠ 0 , ( j = 1,..., m)
( j) H0 成立时
ˆ ∵β
j
~
N ( β j , σ c jj )
2
∴t j =
ˆ / c β j jj S 残 / ( n − m − 1)
( j) H0 成立时
多元线性回归模型可表示为
1.2 参数估计 误差平方和 Q ( β ) =
T 2 ε = ( Y − X β ) (Y − Xβ ) ∑i i =1 n
利用最小二乘法 (求使Q(β)达最小的β)可求得
ˆ = ( X T X ) −1 X T Y 最小二乘估计 β
得多元线性回归方程
ˆ +β ˆx + ˆ=β y 0 1 1
相关文档
最新文档