概率统计之含定性变量的回归模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
y 0 1x1 2 x2 3D1 4D2 5 x2D1 6 x2D2
在这一问题中假设每增加一年工龄,薪水的 增加额是固定的,对刚进公司的员工,不同文化 层次工资间的差额是固定的.
公司调查了 45 名员工,用以上模型作拟合, 得结果如下:
yˆ 11200 498.40 x1 1741 .00D1 356.90D2 7040 .5x2 3051 .00D1x2 1997 D2 x2
因变量是 定性变量的回归模型
在很多实际问题中,所研究的因变量往往只 有两个可能结果,失败或成功,这样的因变量也 可用虚拟变量来表示,y 的取值只取0或1.
例如,在高中毕业生继续进入大学学习的可 能性影响因素的分析中,y 因变量只有两个结果, y=1表示升入大学,y=0表示没有升入大学.
Logistic回归模型
2 346 3.2 1 16 3265 4.6 1
3 365 2.8 0 17 3567 4.2 1
4 468 3.5 1 18 3658 3.7 1
5 658 2.6 0 19 4588 3.5 0
6 867 3.2 1 20 6436 4.8 1
7 1085 2.6 0 21 9047 5 1
8 1236 3.4 1 22 7985 4.2 0
9 1238 2.2 0 23 8950 3.9 0
10 1345 2.8 1 24 9865 4.8 0
11 2365 2.3 0 25 9866 4.6 0
12 2365 3.7 1 26 10235 4.8 0
13 3256 4 1 27 10140 4.2 0
14 3256 2.9 0
二、复杂情况
,模型化为 Pi
0
1xi
Logistic 回归模型仍存在不足之处,
这是由于 i 不是同方差,因此需用加权最 下二乘法来解决这一问题。
当
n
较大时,可证明 D(Pi )
1 ni Pi (1 Pi )
,其中
Pi E( yi ) ,因此选取权数为 i ni Pi (1 Pi ) 。
对 Pi 0 1xi 用 加 权 最 小 二 乘法 进 行 拟
Pi P( yi 1 x xi ) ,表示第 i 个年龄组合冠心病的发病率。
分组值 年龄
x
Pi
1 20~29 25 0.10
2
3
4
5
30~34 35~39 40~44 45~49
32 37 42 47
0.13 0.25 0.33 0.46
6
7
50~54 55~59
52 57
0.63 0.76
8 ≥60 60 0.80
高学历家庭( x2 =1): yi 0 1xi1 2 3 xi1 i (0 2 ) (1 3 )xi1 i
低学历家庭( x2 =0): yi 0 1xi1 i
要检验两条回归直线的斜率是否相等,等价于检验
H H
0: 3 1: 3
0; 0。
当拒绝 H 0 接受 H1 时,则认为 3 0 ,认为 x1 与 x3 存在交互作
t
*
时,
Z
* t
Zt
yt
斜率为 ˆ1 ˆ2 斜率为 ˆ1
Zt
Zt
二、回归系数相等的检验
我们回到前面的问题,研究家庭储蓄的增加额与家庭 收入及家庭学历之间的关系,得到了回归模型:
yˆ 7976 3826 x1 3700 x2 其中 x2 为虚拟变量,可分解为二部分:
低学历家庭的储蓄模型( x2 =0): yˆ 7976 3826 x1
某些场合定性自变量可能去多类值,例如某 商厦策划营销方案,需要考虑销售额的季节性影 响,季节因素分为春、夏、秋、冬四种情况.为 了用定性变量反映春、夏、秋、冬四季,初步设 想引入如下四个0—1型自变量.
x1 1, 春季;
x1
0, 其它。
x3 1,秋季;
x3
0, 其它。
x2 1,夏季;
x2
含定性变量的回归模型
在回归分析中,为了在模型中反映定性因 素的影响,以提高模型的精度,必须将它们“量 化”,根据其属性,构造只取“0”或“1”的人
工变量,称为虚拟变量或哑变量,记为 Di ,即: 1,某一属性出现时;
Di 0,某一属性不出现时。
简单情况
首先讨论定性变量只取两类可能值的情况,如 :
1.15267951 1.386294361
0.09 0.1131 0.1875 0.2211 0.2484 0.2331 0.1824
0.16
Model Summary
M od e l 1
R
R Square
.994a
.989
a. Predictors: (Constant), age
Ad j uste d R Square
Beta
.977 -.111 -.443
t -6.896 11.292
-.309 -1.187
Si g. .000 .000 .760 .247
t 检验显示, x2 与 x3 没有通过显著性检验,所以
应接受原假设,认为 3 0 ,因此用原来的模型。
Coefficientsa
Un stan d ard i ze d Co effi ci e nts
M od e l
B
Std. Error
1
(Constant) -7728.098 1904.769
x1
3264.453 513.188
2
(Constant) -7976.809 1093.445
x1
3826.129 304.591
x2
-3700.330 513.445
a. Dependent Variable: y
序号
y(元)
x1 (万元)
x2
x3 =x1*x2
序号
y(元)
x1 (万元)
x2
x3 =x1*x2
1 235 2.3 0
0 15 3265 3.8 1 3.8
2 346 3.2 1 3.2 16 3265 4.6 1 4.6
3 365 2.8 0
0 17 3567 4.2 1 4.2
4 468 3.5 1 3.5 18 3658 3.7 1 3.7
1,女性; 1.性别 Di 0,男性。 2.医生在实验中,为了检验某种药物是否有效, 通常将病人分为二组:处理组与对照组,在处理组 的病人服药,在对照组的病人只服安慰剂,则
1,在处理组内; Di 0,不在处理组内。
序号
y(元)
x1 (万元)
x2
序号
y(元)
x1 (万元)
x2
1 235 2.3 0 15 3265 3.8 1
.987
Std. Error of the Estimate
例 1.进口消费品数量 Y 主要取决于国民收入 Z
的多少,在改革开放前后,Y 对 Z 的回归关系明
显不同。以 t * =1979 年为转折期,1979 年国民收
入
Z
* t
为临界值。
设虚拟变量
Dt
1,t t * 0,t t *
则进口消费品的回归模型为:
Yt
0
1Zt
2 (Zt
Z
* t
)
Dt
当t
合。
age
pi
逻辑变换
权重
pi'=ln(pi/(1-pi)) wi=nipi(1-pi)
25 0.1 32 0.13 37 0.25 42 0.33 47 0.46 52 0.63 57 0.76 60 0.8
-2.197224577 -1.900958761 -1.098612289 -0.708185058 -0.16034265 0.532216814
R2 0.9998 ,ˆ 67.28 ,方程拟合得很非常好。
比较本科毕业生是否具有高级职称的工资差异
具有高级职称:
yˆ (11200 1741 .00 7040 .5 3051) 498.40 x1 16930 .5 498.40 x1
不具有高级职称:
yˆ (11200 1741 .00) 498 .40 x1 12941 498 .40 x1
M od e l 1
(Constant) x1 x2
B -8763.936 4057.151
-776.939
Std. Error 1270.878
359.284 2514.459
x3
-787.564 663.367
a. Dependent Variable: y
Stan d a rd i ze d Co effi ci e nts
在工龄相同的情况下,具有高级职称的员工平均 比不具有高级职称的员工年收入增加 3989.50 元。
自变量中含有定性变量的 回归模型的应用
一.分段回归
在实际问题中,某些变量在不同的影响因素 范围内变化趋势截然不同,例如经济问题涉及到 经济政策有较大调整时,调整前与调整后的变化 幅度会有很大的不同,可以考虑用多段回归方法 来处理.
择值域在(0,1)内具有 S 形状的曲线。最常用的分 布为 Logistic 分布。
在医学研究中冠心病症状与
年龄关系是一研究课题,现给出 100个人的年龄与冠心病症状的数 据,将100个人的数据进行分组, 得下表:
设 y 为冠心病症状
1,第i个人具有冠心病症状; yi 0,第i个人没有冠心病症状。 自变量 x 为年龄,共分为 8 组,这里
用,二条回归之间斜率不同。
令 x3 x1x2 ,作三元线性回归
例.调查文化程度对家庭储蓄的影响
在一个中等收入(家庭年收入在 2—5 万)
的样本框内,随机调查了 13 户高学历与 14 户低
学历的家庭。
因变量 y :上一年家庭储蓄增加额;
自变量 x1:上一年家庭总收入;
x2
:家庭学历,x2 x2
1: 高学历家庭; 0 : 低学历家庭。
Stan d a rd i ze d Co effi ci e nts
Beta
.786
.921 -.529
用二元线性回归的最终模型为:
t -4.057 6.361 -7.295 12.562 -7.207
yˆ 7976 3826 x1 3700 x2
Si g. .000 .000 .000 .000 .000
pi关于年龄组的折线图如下:
pi
0.80
0.70
0.60 曲线大体 呈“s”型
0.50
0.40
0.30
0.20
0.10
20
30
40
50
60
age
设模型为:
P(
xi
)
1
exp( 0 exp( 0
1xi ) 1xi
)
, i 1,2, 8
其中 P(x) P(y 1x) 。
令 Pi
ln Pi 1 Pi
高学历家庭的储蓄模型( x2 =1): yˆ 11676 3826 x1
家庭的学历高低对回归直线的斜率没有影响,只影响到常 数项,这个假设是否合理,还需要作统计检验。
我们引入含有交互作用的回归模型:
yi 0 1 xi1 2 xi2 3 xi1 xi2 i
此式可分解为两个线性回归模型
5 658 2.6 0
0 19 4588 3.5 0
0
6 867 3.2 1 3.2 20 6436 4.8 1 4.8
7 1085 2.6 0
0 21 9047 5 1
5
8 1236 3.4 1 3.4 22 7985 4.2 0
0
9 1238 2.2 0
0 23 8950 3.9 0
0
10 1345 2.8 1 2.8 24 9865 4.8 0
x1 :工龄
x2
:职称,x 2
1,具有高级职称; 0,不具有高级职称。
学历层次可分为:大专或大专以下,本科,研 究生,有三种等级,这里只引进了 2 个定性变量。
1,具有本科学历; D1 0,不具有本科学历。
1,具有研究生学历; D2 0,不具有研究生学历。
又因为学历与职称之间存在交互作用,因此模 型可考虑为:
一.分组数据的Logistic回归方程
针对 0—1 型因变量产生的问题,一般我们采 用非线性回归函数进行拟合。
若条件概率 P( yi 1 xi ) 与 xi 之间呈单调递增 关系的,随着 xi 的增大, P( yi 1 xi ) 也会随之增 大; xi 减小, P( yi 1 xi ) 也随之减小。一般可选
0
11 2365 2.3 0
0 25 9866 4.6 0
0
12 2365 3.7 1 3.7 26 10235 4.8 0
0
13 3256 4 1
4 27 10140 4.2 0
0
14 3256 2.9 0
0
Coefficientsa
Un stan d ard i ze d Co effi ci e nts
0, 其它。
x4 1,冬季;
x4
0, 其它。
但这里 x1 x2 x3 x4 1,四个自变量构
成完全共线性,解决这类问题的一般方法是去掉 一个 0—1 型变量,只保留 3 个即可。下面通过这 一实例来介绍这一方法。
例.ຫໍສະໝຸດ Baidu公司调查本公司专业技术人员的
薪水与学历度在本公司工龄之间关系.
考虑引进以下变量
在这一问题中假设每增加一年工龄,薪水的 增加额是固定的,对刚进公司的员工,不同文化 层次工资间的差额是固定的.
公司调查了 45 名员工,用以上模型作拟合, 得结果如下:
yˆ 11200 498.40 x1 1741 .00D1 356.90D2 7040 .5x2 3051 .00D1x2 1997 D2 x2
因变量是 定性变量的回归模型
在很多实际问题中,所研究的因变量往往只 有两个可能结果,失败或成功,这样的因变量也 可用虚拟变量来表示,y 的取值只取0或1.
例如,在高中毕业生继续进入大学学习的可 能性影响因素的分析中,y 因变量只有两个结果, y=1表示升入大学,y=0表示没有升入大学.
Logistic回归模型
2 346 3.2 1 16 3265 4.6 1
3 365 2.8 0 17 3567 4.2 1
4 468 3.5 1 18 3658 3.7 1
5 658 2.6 0 19 4588 3.5 0
6 867 3.2 1 20 6436 4.8 1
7 1085 2.6 0 21 9047 5 1
8 1236 3.4 1 22 7985 4.2 0
9 1238 2.2 0 23 8950 3.9 0
10 1345 2.8 1 24 9865 4.8 0
11 2365 2.3 0 25 9866 4.6 0
12 2365 3.7 1 26 10235 4.8 0
13 3256 4 1 27 10140 4.2 0
14 3256 2.9 0
二、复杂情况
,模型化为 Pi
0
1xi
Logistic 回归模型仍存在不足之处,
这是由于 i 不是同方差,因此需用加权最 下二乘法来解决这一问题。
当
n
较大时,可证明 D(Pi )
1 ni Pi (1 Pi )
,其中
Pi E( yi ) ,因此选取权数为 i ni Pi (1 Pi ) 。
对 Pi 0 1xi 用 加 权 最 小 二 乘法 进 行 拟
Pi P( yi 1 x xi ) ,表示第 i 个年龄组合冠心病的发病率。
分组值 年龄
x
Pi
1 20~29 25 0.10
2
3
4
5
30~34 35~39 40~44 45~49
32 37 42 47
0.13 0.25 0.33 0.46
6
7
50~54 55~59
52 57
0.63 0.76
8 ≥60 60 0.80
高学历家庭( x2 =1): yi 0 1xi1 2 3 xi1 i (0 2 ) (1 3 )xi1 i
低学历家庭( x2 =0): yi 0 1xi1 i
要检验两条回归直线的斜率是否相等,等价于检验
H H
0: 3 1: 3
0; 0。
当拒绝 H 0 接受 H1 时,则认为 3 0 ,认为 x1 与 x3 存在交互作
t
*
时,
Z
* t
Zt
yt
斜率为 ˆ1 ˆ2 斜率为 ˆ1
Zt
Zt
二、回归系数相等的检验
我们回到前面的问题,研究家庭储蓄的增加额与家庭 收入及家庭学历之间的关系,得到了回归模型:
yˆ 7976 3826 x1 3700 x2 其中 x2 为虚拟变量,可分解为二部分:
低学历家庭的储蓄模型( x2 =0): yˆ 7976 3826 x1
某些场合定性自变量可能去多类值,例如某 商厦策划营销方案,需要考虑销售额的季节性影 响,季节因素分为春、夏、秋、冬四种情况.为 了用定性变量反映春、夏、秋、冬四季,初步设 想引入如下四个0—1型自变量.
x1 1, 春季;
x1
0, 其它。
x3 1,秋季;
x3
0, 其它。
x2 1,夏季;
x2
含定性变量的回归模型
在回归分析中,为了在模型中反映定性因 素的影响,以提高模型的精度,必须将它们“量 化”,根据其属性,构造只取“0”或“1”的人
工变量,称为虚拟变量或哑变量,记为 Di ,即: 1,某一属性出现时;
Di 0,某一属性不出现时。
简单情况
首先讨论定性变量只取两类可能值的情况,如 :
1.15267951 1.386294361
0.09 0.1131 0.1875 0.2211 0.2484 0.2331 0.1824
0.16
Model Summary
M od e l 1
R
R Square
.994a
.989
a. Predictors: (Constant), age
Ad j uste d R Square
Beta
.977 -.111 -.443
t -6.896 11.292
-.309 -1.187
Si g. .000 .000 .760 .247
t 检验显示, x2 与 x3 没有通过显著性检验,所以
应接受原假设,认为 3 0 ,因此用原来的模型。
Coefficientsa
Un stan d ard i ze d Co effi ci e nts
M od e l
B
Std. Error
1
(Constant) -7728.098 1904.769
x1
3264.453 513.188
2
(Constant) -7976.809 1093.445
x1
3826.129 304.591
x2
-3700.330 513.445
a. Dependent Variable: y
序号
y(元)
x1 (万元)
x2
x3 =x1*x2
序号
y(元)
x1 (万元)
x2
x3 =x1*x2
1 235 2.3 0
0 15 3265 3.8 1 3.8
2 346 3.2 1 3.2 16 3265 4.6 1 4.6
3 365 2.8 0
0 17 3567 4.2 1 4.2
4 468 3.5 1 3.5 18 3658 3.7 1 3.7
1,女性; 1.性别 Di 0,男性。 2.医生在实验中,为了检验某种药物是否有效, 通常将病人分为二组:处理组与对照组,在处理组 的病人服药,在对照组的病人只服安慰剂,则
1,在处理组内; Di 0,不在处理组内。
序号
y(元)
x1 (万元)
x2
序号
y(元)
x1 (万元)
x2
1 235 2.3 0 15 3265 3.8 1
.987
Std. Error of the Estimate
例 1.进口消费品数量 Y 主要取决于国民收入 Z
的多少,在改革开放前后,Y 对 Z 的回归关系明
显不同。以 t * =1979 年为转折期,1979 年国民收
入
Z
* t
为临界值。
设虚拟变量
Dt
1,t t * 0,t t *
则进口消费品的回归模型为:
Yt
0
1Zt
2 (Zt
Z
* t
)
Dt
当t
合。
age
pi
逻辑变换
权重
pi'=ln(pi/(1-pi)) wi=nipi(1-pi)
25 0.1 32 0.13 37 0.25 42 0.33 47 0.46 52 0.63 57 0.76 60 0.8
-2.197224577 -1.900958761 -1.098612289 -0.708185058 -0.16034265 0.532216814
R2 0.9998 ,ˆ 67.28 ,方程拟合得很非常好。
比较本科毕业生是否具有高级职称的工资差异
具有高级职称:
yˆ (11200 1741 .00 7040 .5 3051) 498.40 x1 16930 .5 498.40 x1
不具有高级职称:
yˆ (11200 1741 .00) 498 .40 x1 12941 498 .40 x1
M od e l 1
(Constant) x1 x2
B -8763.936 4057.151
-776.939
Std. Error 1270.878
359.284 2514.459
x3
-787.564 663.367
a. Dependent Variable: y
Stan d a rd i ze d Co effi ci e nts
在工龄相同的情况下,具有高级职称的员工平均 比不具有高级职称的员工年收入增加 3989.50 元。
自变量中含有定性变量的 回归模型的应用
一.分段回归
在实际问题中,某些变量在不同的影响因素 范围内变化趋势截然不同,例如经济问题涉及到 经济政策有较大调整时,调整前与调整后的变化 幅度会有很大的不同,可以考虑用多段回归方法 来处理.
择值域在(0,1)内具有 S 形状的曲线。最常用的分 布为 Logistic 分布。
在医学研究中冠心病症状与
年龄关系是一研究课题,现给出 100个人的年龄与冠心病症状的数 据,将100个人的数据进行分组, 得下表:
设 y 为冠心病症状
1,第i个人具有冠心病症状; yi 0,第i个人没有冠心病症状。 自变量 x 为年龄,共分为 8 组,这里
用,二条回归之间斜率不同。
令 x3 x1x2 ,作三元线性回归
例.调查文化程度对家庭储蓄的影响
在一个中等收入(家庭年收入在 2—5 万)
的样本框内,随机调查了 13 户高学历与 14 户低
学历的家庭。
因变量 y :上一年家庭储蓄增加额;
自变量 x1:上一年家庭总收入;
x2
:家庭学历,x2 x2
1: 高学历家庭; 0 : 低学历家庭。
Stan d a rd i ze d Co effi ci e nts
Beta
.786
.921 -.529
用二元线性回归的最终模型为:
t -4.057 6.361 -7.295 12.562 -7.207
yˆ 7976 3826 x1 3700 x2
Si g. .000 .000 .000 .000 .000
pi关于年龄组的折线图如下:
pi
0.80
0.70
0.60 曲线大体 呈“s”型
0.50
0.40
0.30
0.20
0.10
20
30
40
50
60
age
设模型为:
P(
xi
)
1
exp( 0 exp( 0
1xi ) 1xi
)
, i 1,2, 8
其中 P(x) P(y 1x) 。
令 Pi
ln Pi 1 Pi
高学历家庭的储蓄模型( x2 =1): yˆ 11676 3826 x1
家庭的学历高低对回归直线的斜率没有影响,只影响到常 数项,这个假设是否合理,还需要作统计检验。
我们引入含有交互作用的回归模型:
yi 0 1 xi1 2 xi2 3 xi1 xi2 i
此式可分解为两个线性回归模型
5 658 2.6 0
0 19 4588 3.5 0
0
6 867 3.2 1 3.2 20 6436 4.8 1 4.8
7 1085 2.6 0
0 21 9047 5 1
5
8 1236 3.4 1 3.4 22 7985 4.2 0
0
9 1238 2.2 0
0 23 8950 3.9 0
0
10 1345 2.8 1 2.8 24 9865 4.8 0
x1 :工龄
x2
:职称,x 2
1,具有高级职称; 0,不具有高级职称。
学历层次可分为:大专或大专以下,本科,研 究生,有三种等级,这里只引进了 2 个定性变量。
1,具有本科学历; D1 0,不具有本科学历。
1,具有研究生学历; D2 0,不具有研究生学历。
又因为学历与职称之间存在交互作用,因此模 型可考虑为:
一.分组数据的Logistic回归方程
针对 0—1 型因变量产生的问题,一般我们采 用非线性回归函数进行拟合。
若条件概率 P( yi 1 xi ) 与 xi 之间呈单调递增 关系的,随着 xi 的增大, P( yi 1 xi ) 也会随之增 大; xi 减小, P( yi 1 xi ) 也随之减小。一般可选
0
11 2365 2.3 0
0 25 9866 4.6 0
0
12 2365 3.7 1 3.7 26 10235 4.8 0
0
13 3256 4 1
4 27 10140 4.2 0
0
14 3256 2.9 0
0
Coefficientsa
Un stan d ard i ze d Co effi ci e nts
0, 其它。
x4 1,冬季;
x4
0, 其它。
但这里 x1 x2 x3 x4 1,四个自变量构
成完全共线性,解决这类问题的一般方法是去掉 一个 0—1 型变量,只保留 3 个即可。下面通过这 一实例来介绍这一方法。
例.ຫໍສະໝຸດ Baidu公司调查本公司专业技术人员的
薪水与学历度在本公司工龄之间关系.
考虑引进以下变量