虚拟变量(哑变量)回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
参照类中,b0为直线的截距,b1为直线斜率,即 INCOME 的回归系数
^
(3) )
由式(1)到式(2),截距项增加了b2,因此b2就是大二男生比大一男生月支出高的部 分;由式(1)到式(3),截距项增加了b4,因此b4就是大一女生比大一男生月支出高 的部分。 差别截距:所有表示各类别虚拟变量的回归系数(bj)表示的是该类与参照类的均值之 差。(对于序次变量还可计算相邻分类的边际效应,任意两类的边际效应)
虚拟变量回归系数的意义
1. 只考虑年级对月支出的影响
^
等价于
单因素方差分析(1-way ANOVA)
Y = b0 + b2 DG2 + b3 DG3 + b4 DG4
2. 同时考虑年级、性别对月支出的影响
^
等价于
双因素方差分析(2-way ANOVA)
Y = b0 + b2 DG2 + b3 DG3 + b4 DG4 + b5 DS
效应编码
虚拟编码:定义参照类,回归系数表示各类与参照类均值的差 效应编码:其回归系数反映的是各类的平均值与样本平均值的差
Y = b0 + b1
Y = b0 + b2
^
^
效应编码原则: 效应编码原则: 对于前k-1个效应变量, 对于前 个效应变量,当案例属于该效应变 个效应变量 量时,效应变量取值为1,不属于取值为0; 量时,效应变量取值为 ,不属于取值为 ; 当案例属于最后一类不设虚拟变量的一类时, 当案例属于最后一类不设虚拟变量的一类时, 所有效应变量取-1 所有效应变量取
多元线性回归
——虚拟变量的应用
Contents
1 2 3 4
虚拟变量的建立
虚拟变量回归系数的意义
虚拟变量回归分析的检验 SPSS实例操作 实例操作
一、虚拟变量的建立
虚拟变量(Dummy 源自文库ariable):取值为0和1的变量,当案例属于一个虚拟
变量所代表的类别时,这个虚拟变量就赋值为1,否则变赋值为0
Y = b0 + b3
Y = b0 − b1 − b2 − b3
^
^
四、SPSS实例操作 实例操作
例:分析妇女的年龄(AGE)、文化程度(EDU)及居住地(AREA)
状况对妇女曾生子女数(CEB)的影响。
其中,文化程度分为文盲或半文盲(1)、小学(2)、初中(3)、 高中(4)和大学(5)共五类 居住地分为城市(1)和农村(2)共两类。
t=
bi − b j S ( bi −b j )
~ tn − k −1
其中
S(bi −b j ) = vii + v jj − 2vij
3、检验其显著性
补充问题
参照类的选择
根据研究者的选择偏好,无实质性影响
其他编码方法
效应编码( )、正交编码 )、非正交编码 效应编码(effect coding)、正交编码(orthogonal coding)、非正交编码 )、正交编码( )、 (nonorthogonal coding) )
例1:
Yi = α + β D i + u i
Di = 1 ,是女性
= 0 ,不是女性
例2:大学生年级变量具有四个类别,如何构造?
Yi = b0 + b1D1i + b2 D2i + b3 D3i + b4 D4i + ui “虚拟变量
陷阱”
其中, D1=1,是大一,否则为0; D3=1,是大三,否则为0; D2=1,是大二,否则为0; D4=1,是大三,否则为0。
二、虚拟变量回归系数的意义
因变量为大学生的月支出,自变量有家庭月收入,年级,性别 建立回归方程:
^
Y = b0 + b1 INCOME + b2 DG2 + b3 DG3 + b4 DG4 + b5 DS
其中, DG2=1,是大二,否则为0; DG3=1,是大三,否则为0; DG4=1,是大三,否则为0。 DS=1,是女生,否则为0
三、虚拟变量回归系数的检验
对整个模型的检验(F检验) H0:B1=B2=…=Bk=0 H1:B1,B2,…,Bk中至少有一个不为0 对各回归系数的检验(t检验) H0:Bj=0 H1:Bj≠0 对于虚拟变量,由于取值只能为0 所以检验的是取值为1 对于虚拟变量,由于取值只能为0和1,所以检验的是取值为1的类别与参 照类(所有取值为0 照类(所有取值为0)的平均值是否有显著性差异 虚拟变量回归只能做其他类和参照类的比较 直接对任意两个回归系数之差进行检验的方法: 1、建立无差异假设:H0:Bi=Bj; 2、构造t统计量: H1:Bi≠Bj
^
只考虑主效应的双因素方差分析
Y = b0 + b2 DG2 + b3 DG3 + b4 DG4 + b5 DS + b6 DG2 DS + b7 DG3 DS + b8 DG4 DS
含交互作用的饱和双因素方差分析 3. 同时考虑年级、性别、家庭月收入的影响
^
等价于
协方差分析(ANCOVA)
Y = b0 + b1INCOME + b2 DG2 + b3 DG3 + b4 DG4 + b5 DS
虚拟变量的建立
D1+D2+D3+D4=1,说明D1,D2,D3,D4存在线性相关,造成多重共线性
解决办法: Yi = b0 + b1D1i + b2 D2i + b3 D3i + ui
原则:当一个分类量具有k个类别时,则仅引入k-1个虚拟变量。
当所有k-1个自变量都取0的时候,那这个案例就属于第k类,我们称这类 为参照类,参照类不仅解决了共线性的问题,而且在分析回归结果时也有 非常重要的意义
(0) )
虚拟变量回归系数的意义
参照类:大一男生(所有虚拟变量均取0)
Y = b0 + b1 INCOME
变式1:大二男生(DG2=1,虚拟变量均取0)
^
^
(1) )
Y = b0 + b1INCOME + b2
变式2:大一女生(DS=1,虚拟变量均取0)
(2) )
Y = b0 + b1 INCOME + b4
^
(3) )
由式(1)到式(2),截距项增加了b2,因此b2就是大二男生比大一男生月支出高的部 分;由式(1)到式(3),截距项增加了b4,因此b4就是大一女生比大一男生月支出高 的部分。 差别截距:所有表示各类别虚拟变量的回归系数(bj)表示的是该类与参照类的均值之 差。(对于序次变量还可计算相邻分类的边际效应,任意两类的边际效应)
虚拟变量回归系数的意义
1. 只考虑年级对月支出的影响
^
等价于
单因素方差分析(1-way ANOVA)
Y = b0 + b2 DG2 + b3 DG3 + b4 DG4
2. 同时考虑年级、性别对月支出的影响
^
等价于
双因素方差分析(2-way ANOVA)
Y = b0 + b2 DG2 + b3 DG3 + b4 DG4 + b5 DS
效应编码
虚拟编码:定义参照类,回归系数表示各类与参照类均值的差 效应编码:其回归系数反映的是各类的平均值与样本平均值的差
Y = b0 + b1
Y = b0 + b2
^
^
效应编码原则: 效应编码原则: 对于前k-1个效应变量, 对于前 个效应变量,当案例属于该效应变 个效应变量 量时,效应变量取值为1,不属于取值为0; 量时,效应变量取值为 ,不属于取值为 ; 当案例属于最后一类不设虚拟变量的一类时, 当案例属于最后一类不设虚拟变量的一类时, 所有效应变量取-1 所有效应变量取
多元线性回归
——虚拟变量的应用
Contents
1 2 3 4
虚拟变量的建立
虚拟变量回归系数的意义
虚拟变量回归分析的检验 SPSS实例操作 实例操作
一、虚拟变量的建立
虚拟变量(Dummy 源自文库ariable):取值为0和1的变量,当案例属于一个虚拟
变量所代表的类别时,这个虚拟变量就赋值为1,否则变赋值为0
Y = b0 + b3
Y = b0 − b1 − b2 − b3
^
^
四、SPSS实例操作 实例操作
例:分析妇女的年龄(AGE)、文化程度(EDU)及居住地(AREA)
状况对妇女曾生子女数(CEB)的影响。
其中,文化程度分为文盲或半文盲(1)、小学(2)、初中(3)、 高中(4)和大学(5)共五类 居住地分为城市(1)和农村(2)共两类。
t=
bi − b j S ( bi −b j )
~ tn − k −1
其中
S(bi −b j ) = vii + v jj − 2vij
3、检验其显著性
补充问题
参照类的选择
根据研究者的选择偏好,无实质性影响
其他编码方法
效应编码( )、正交编码 )、非正交编码 效应编码(effect coding)、正交编码(orthogonal coding)、非正交编码 )、正交编码( )、 (nonorthogonal coding) )
例1:
Yi = α + β D i + u i
Di = 1 ,是女性
= 0 ,不是女性
例2:大学生年级变量具有四个类别,如何构造?
Yi = b0 + b1D1i + b2 D2i + b3 D3i + b4 D4i + ui “虚拟变量
陷阱”
其中, D1=1,是大一,否则为0; D3=1,是大三,否则为0; D2=1,是大二,否则为0; D4=1,是大三,否则为0。
二、虚拟变量回归系数的意义
因变量为大学生的月支出,自变量有家庭月收入,年级,性别 建立回归方程:
^
Y = b0 + b1 INCOME + b2 DG2 + b3 DG3 + b4 DG4 + b5 DS
其中, DG2=1,是大二,否则为0; DG3=1,是大三,否则为0; DG4=1,是大三,否则为0。 DS=1,是女生,否则为0
三、虚拟变量回归系数的检验
对整个模型的检验(F检验) H0:B1=B2=…=Bk=0 H1:B1,B2,…,Bk中至少有一个不为0 对各回归系数的检验(t检验) H0:Bj=0 H1:Bj≠0 对于虚拟变量,由于取值只能为0 所以检验的是取值为1 对于虚拟变量,由于取值只能为0和1,所以检验的是取值为1的类别与参 照类(所有取值为0 照类(所有取值为0)的平均值是否有显著性差异 虚拟变量回归只能做其他类和参照类的比较 直接对任意两个回归系数之差进行检验的方法: 1、建立无差异假设:H0:Bi=Bj; 2、构造t统计量: H1:Bi≠Bj
^
只考虑主效应的双因素方差分析
Y = b0 + b2 DG2 + b3 DG3 + b4 DG4 + b5 DS + b6 DG2 DS + b7 DG3 DS + b8 DG4 DS
含交互作用的饱和双因素方差分析 3. 同时考虑年级、性别、家庭月收入的影响
^
等价于
协方差分析(ANCOVA)
Y = b0 + b1INCOME + b2 DG2 + b3 DG3 + b4 DG4 + b5 DS
虚拟变量的建立
D1+D2+D3+D4=1,说明D1,D2,D3,D4存在线性相关,造成多重共线性
解决办法: Yi = b0 + b1D1i + b2 D2i + b3 D3i + ui
原则:当一个分类量具有k个类别时,则仅引入k-1个虚拟变量。
当所有k-1个自变量都取0的时候,那这个案例就属于第k类,我们称这类 为参照类,参照类不仅解决了共线性的问题,而且在分析回归结果时也有 非常重要的意义
(0) )
虚拟变量回归系数的意义
参照类:大一男生(所有虚拟变量均取0)
Y = b0 + b1 INCOME
变式1:大二男生(DG2=1,虚拟变量均取0)
^
^
(1) )
Y = b0 + b1INCOME + b2
变式2:大一女生(DS=1,虚拟变量均取0)
(2) )
Y = b0 + b1 INCOME + b4