线性回归模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
车型 = A 车型 = B 车型 = C 车型 = D
在模型中, 车型D是基准水平, 也称参照水平。为了预测结果 的稳定性, 通常选择观测值较多的水平为基准水平。
在R中的实现: type = factor(c("A", "B", "C", "0D")) model.matrix(~type)
( 10 )
xj
sj
xj
式中,
y
1 n
n i 1
yi , x j
1 n
n i 1
x ji , sy
n
( yi y)2
i 1
n 1
,sj
n
(x ji x j )2
i 1
n 1
( 12 )
Example:
y 表示汽车保险的索赔频率; x1 表示驾驶人的年龄, 是一个连续变量; x2 表示性别, 是一个虚拟变量, 值为0 表示男性, 1表示女性; x1x2 表示年龄和性别的交互效应 ;
y 0 1x1 L k xk
如果对因变量和解释变量有n次观测, 第i次观测值记为 y和i x1i , x2i ,L , xki 则相应的线性回归模型可以表示为:
yi 0 1x1i L k xki i xiT i
( 4)
为方便起见, 线性回归模型可以表示为矩阵形式:
y X
式中,
y1
1 x11
y
y2
, X 1
x12
yn
n1
1 x1n
xk1
0
1
xk
2
,
1
,
2
x kn n(k 1)
k
(k
1)1
戴之瑶, 魏凌云, 王杨, 周仕君 中国人民大学统计学院2015级硕士生
教材:孟生旺,《回归模型》,中国人民大学出版社,2015
主要内容
1.1 模型结构和假设 1.2 解释变量 1.3 参数估计 1.4 异方差与加权最小二乘估计 1.5 假设检验 1.6 模型诊断和改进 1.7 模型的评价与比较 1.8 应用示例
则线性回归模型的拟合值可以表示为: 0 1x1 2 x2 3x1x2
在模型中, 年龄每增加一单位, 对索赔频率拟合值的影响是一 个跟性别有关的值, 即:
y x1
1
3 x2
( 13 )
基于标准化以后的数据建立的回归模型为:
°yi 1 x±1i L k x±ki
n
n1
( 5)
基本假设
(1)误差项的均值为零, 且与解释变量相互独立, 即
E 0, E XT 0
(2)误差项独立同分布, 即每个误差项之间相互独立且每个误差项的方差
都相等:Cov i , j
0,i
j,Var
(
iFra Baidu bibliotek
)
2 i
2,i
1, 2,L
yi : N (xiT , 2 )
( 6)
1.2 解释变量
( 7)
1.2解释变量
1.2.1分类解释变量 如果解释变量是分类变量, 在建模过程中需要把分类解释变量转化为
虚拟变量。 为避免解释变量之间出现完全共线性, 虚拟变量个数等于分类变量的
水平数减去1。
( 8)
Example:
车型是一个分类解释变量, 有A, B, C, D四个水平, 可以转化为 x1, x2, x3三个虚拟变量, 定义如下表所示:
车型
x1
x2
x3
A
1
0
0
B
0
1
0
C
0
0
1
D
0
0
0
( 9)
假设车型是模型中唯一的解释变量, 则线性回归模型的拟合 值表示为: 0 1x1 2 x2 3x3
根据模型, 可以求得不同车型条件下对因变量的拟合值为:
0 1
0 0
2 3
0
,n
(3)解释变量之间线性无关
(4)正态假设, 即假设误差项服从正态分布: i : N (0, 2 )
在上述假设下, 可得:
E( yi ) E(xiT i ) xiT 0 1x1i L k xki
Var( yi ) Var(xiT i ) Var(i ) 2,Cov yi , y j Cov i , j 0
回归系数间有下述关系:
µi
sy si
µi ,i 1, 2,L
, k, ¶0
y
k i 1
µi xi
标准化回归系数的绝对值大小度量了解释变量的相对重要性, 值越 大, 表明该解释变量对因变量的影响越大。
在R中, 用scale(data)实现标准化
( 14 )
1.2.4变量变换
( 15 )
在普通多项式回归中, 多项式的阶数不同 , 参数估计结果也不同。 为了克服这种缺陷, 可以使用正交多项式回归模型 , 即把原来的解释 变量 转化为新的正交解释变量。 譬如 , 三阶正交多项式回归模型为表示为:
y 0 1z1 L 3z3
解释变量与因变量之间如果是非线性关系, 可以考虑对解释变量进行 变换或建立多项式回归模型。
多项式回归是把一个解释变量的幂变换作为新的解释变量引入回归 模型。
为简化表述, 不妨假设只有一个原始解释变量, 则m次多项式回归模 型的基本形式如下:
y 0 1x 2 x2 L k xm 所以多项式回归也属于线性回归模型。
1.2.2交互效应 交互效应是指一个解释变量对因变量的影响与另一个解释变
量有关。 譬如, 不同性别的驾驶人, 其年龄对索赔频率的影响是不同的,
即年龄和性别之间存在交互效应。
( 11 )
1.2.3变量的标准化
为了消除量纲的影响, 可以考虑对变量进行标准化处理, 即:
% y
y sy
y
, x°j
( 2)
1.1 模型结构和假设
( 3)
1.1模型结构和假设
假设我们感兴趣的变量是 y , 希望建立它与其他 k个解释变量 x1, x2,L , xk 之间的函数关系 。最一般的函数形式可以表示为:
式中 是随机误差。
y f (x1, x2 ,L , xk )
在线性回归模型中, 设 f (x1, x2,L , xk是) 一个线性函数, 可得线性回归模 型为: