第6章定性数据的建模分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x3 1, x3 0,
春季 其它
秋季 其它
x2 1, x2 0,
x4 1, x4 0,
夏季 其它
冬季 其它
2018/12/4
11
§6.1 自变量中含有定性变量的回归模型
可是这样做却产生了一个新的问题,即 x1+x2+x3+x4=1,构成完全多重共线性。 解决这个问题的方法很简单,我们只需去掉一个 0-1型变量,只保留3个0-1型自变量即可。例如去掉 x4,只保留x1、x2、x3。 对一般情况,一个定性变量有k类可能的取值 时,需要引入k-1个0-1型自变量。当k=2时,只需要引 入一个0-1型自变量即可。
家庭年收入x1是连续型变量,它对回归的贡献也是 不可缺少的。如果不考虑家庭年收入这个自变量,13户 高学历家庭的平均年储蓄增加额为3009.31元,14户低 学历家庭的平均年储蓄增加额为5059.36元,这样会认 为高学历家庭每年的储蓄额比低学历的家庭平均少 5059.36-3009.31=2050.05元,而用回归法算出的数值 是3700元,两者并不相等。
2018/12/4
9
§6.1 自变量中含有定性变量的回归模型
用回归法算出的高学历家庭每年的平均储蓄额比低学 历的家庭平均少3700元,这是在假设两者的家庭年收入相 等的基础上的储蓄差值,或者说是消除了家庭年收入的影 响后的差值,因而反映了两者储蓄额的真实差异。而直接 由样本计算的差值2050.05元是包含有家庭年收入影响在 内的差值,是虚假的差值。所调查的13户高学历家庭的平 均年收入额为3.8385万元,14户低学历家庭的平均年收入 额为3.4071万元,两者并不相等。
2018/12/4
12
§6.1 自变量中含有定性变量的回归模型
三、单因素方差分析
设yij是正态总体N(μ j,σ 2),的样本 j=1,…,c,i=1,2,…,nj 原假设为:H0: μ 1=μ 2=…=μ 记ε
ij= c 2),进而有
yij-μ j,则有ε
ij
ij~N(0,σ
yij=μ j+ε
,i=1,2,…,nj,j=1,…,c, (9.39)
D i 1, 当 x i 500 D i 0, 当 x i 500
2018/12/4
19
§6.2 自变量定性变量回归模型的应用
引入两个新的自变量
xi1=xi xi2=(xi-500)Di
这样回归模型转化为标准形式的二元线性回归模型: yi=β 0+β 1xi1+β 2xi2+ε i (9.3)式可以分解为两个线性回归方程: 当x1≤500时,E(y)=β 0+β 1x1 (9.3)
2018/12/4
10
§6.1 自变量中含有定性变量的回归模型
二、复杂情况
某些场合定性自变量可能取多类值,例如某商厦策划营销
方案,需要考虑销售额的季节性影响,季节因素分为春、
夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、 冬四季,我们初步设想引入如下4个0-1自变量:
x1 1, x1 0,
当x1>500时,E(y)=(β0-500β2)+(β1+β2)x1
2018/12/4
20
§6.2 自变量定性变量回归模型的应用
2018/12/4
21
Model Summary Adjus ted R Square .957 Std. E rror of the Es timate .2449
Model 1
2018/12/4
23
以上只是根据散点图从直观上判断本例数据应该用折 线回归拟合,这一点还需要做统计的显著性检验,这只需 对(9.2)式的回归系数β2做显著性检验。
Coefficients Uns tandardized Coefficients B Std. E rror 5.895 .604 -3.954E-03 .001 -3.893E-03 .002 Standardized Coefficients Beta -.611 -.388
一、简单情况 首先讨论定性变量只取两类可能值的情况,例如研究 粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气 候问题,分为正常年份和干旱年份两种情况,对这个问题 的数量化方法是引入一个0-1型变量D,令: Di=1 Di=0 表示正常年份 表示干旱年份
2018/12/4
2
§6.1 自变量中含有定性变量的回归模型
一、分段回归 例9.2 表9.3给出某工厂生产批量xi与单位成本yi(美元)的 数据。试用分段回归建立回归模型。
序号 y X(= x1) x2
1
2 3 4 5 6
2.57
4.4 4.52 1.39 4.75 3.55
650
340 400 800 300 570
150
0 0 300 0 70
7
8
2018/12/4
第六章 定性数据的建模分析
6.1
6.2 6.3 6.4 6.5
自变量中含有定性变量的回归模型
自变量定性变量回归模型的应用 因变量是定性变量的回归模型 Logistic(逻辑斯蒂)回归 多类别Logistic回归
6.6
6.7
因变量是顺序变量的回归
本章小结与评注
2018/12/4
1
§6.1 自变量中含有定性变量的回归模型
1 c , c j j1
记,aj=μ j-μ
则(9.39)式改写为: (9.40)
yij=μ+ai+εij ,i=1,2,…,ni,j=1,…,c,
2018/12/4
13
§6.1 自变量中含有定性变量的回归模型
引入0-1型自变量xij,将(9.40)式表示为 yij=μ+a1xi1+a2xi2+…+acxic +εij 其中
xi1 1, 当 j 1 x i1 0, 当 j 1
xi 2 1, 当 j 2 x i2 0, 当 j 2
…
xic 1, 当 j c x ic 0, 当 j c
2018/12/4 14
wk.baidu.com
§6.1 自变量中含有定性变量的回归模型
其中还存在一个问题,就是c个自变量x1,x2, …,xc之 和恒等于1,存在完全的复共线性。为此,剔除xc,建立 回归模型
yij=μ+a1xi1+a2xi2+…+ac-1xic-1 +εij
i=1,2,…,nj,j=1,…,c, 回归方程显著性检验的原假设为: H0: a1=a2=…=ac-1=0
2018/12/4
调查数据见表9.1:
2018/12/4
4
§6.1 自变量中含有定性变量的回归模型
表9.1 序号 1 2 3 4 5 6 7 y(元) 235 346 365 468 658 867 1085 x1(万元) 2.3 3.2 2.8 3.5 2.6 3.2 2.6 x2 0 1 0 1 0 1 0
23 24 25 26 27
2.49
3.77
720
480
220
0
17
§6.2 自变量定性变量回归模型的应用
5.0 4.5 4.0 3.5
¾ £© ɱ »³ µ¥Î y£¨
3.0 2.5 2.0 1.5 1.0 200 300 400 500
600
700
800
900
x£¨ ÅúÁ¿£©
图9.1 单位成本对批量散点图
2018/12/4 18
2018/12/4
8950 9865 9866 10235 10140
3.9 4.8 4.6 4.8 4.2
0 0 0 0 0
5
§6.1 自变量中含有定性变量的回归模型
建立y对x1、x2的线性回归
Model Summary Adjus ted R Square .869 Std. Error of the Es timate 1288.68
粮食产量的回归模型为:
yi=β 0+β 1xi+β 2Di+ε i
其中干旱年份的粮食平均产量为:
E(yi|Di=0)=β 0+β 1xi
正常年份的粮食平均产量为:
E(yi|Di=1)=(β0+β2)+β1xi
2018/12/4
3
§6.1 自变量中含有定性变量的回归模型
例9.1 某经济学家想调查文化程度对家庭储蓄的 影响,在一个中等收入的样本框中,随机调查了13户 高学历家庭与14户中低学历的家庭, 因变量y为上一年家庭储蓄增加额, 自变量x1为上一年家庭总收入, 自变量x2表示家庭学历, 高学历家庭x2=1,低学历家庭x2=0,
Regress ion Res idual Total
Coefficients Uns tandardized Coefficients B Std. E rror 5.895 .604 -3.954E-03 .001 -3.893E-03 .002 Standardized Coefficients Beta -.611 -.388
(Cons tant) X X2
t 9.757 -2.65 -1.69
Sig. .000 .045 .153
2018/12/4
22
§6.2 自变量定性变量回归模型的应用
用普通最小二乘法拟合模型(9.3)式得回归方程为:
ˆ =5.895-0.00395x1-0.00389x2 y
利用此模型可说明生产批量小于500时,每增加1个单位 批量,单位成本降低0.00395美元;当生产批量大于500时, 每增加1个单位批量,估计单位成本降低到 0.00395+0.00389=0.00784(美元)。
(Cons tant) X X2
t 9.757 -2.65 -1.69
Sig. .000 .045 .153
R .985a
R S quare .969
a. Predic tors: (Cons tant), X2, X
ANOVA Model 1 Sum of Squares 9.486 .300 9.786 df 2 5 7 Mean Square 4.743 5.999E-02 F 79.059 Sig. .000
§6.2 自变量定性变量回归模型的应用
由图9.1可看出数据在生产批量xp=500时发生较大变化, 即批量大于500时成本明显下降。我们考虑由两段构成的分 段线性回归,这可以通过引入一个0-1型虚拟自变量实现。 假定回归直线的斜率在xp=500处改变,建立回归模型 yi=β0+β1xi+β2(xi-500)Di+εi 来拟合,其中
15
§6.1 自变量中含有定性变量的回归模型
由aj=μj-μ=μj1 c j 可知 c j 1
H0: a1=a2=…=ac-1=0 与
H0: μ 1=μ 2=…=μ c是等价的 线性回归的F检验与单因素方差分析的F检验是等价的。
2018/12/4
16
§6.2 自变量定性变量回归模型的应用
这个结果表明,中等收入的家庭每增加1万元收入,平 均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少 于低学历的家庭,平均少3700元。 如果不引入家庭学历定性变量x2,仅用y对家庭年收入 x1做一元线性回归,得判定系数R2=0.618,拟合效果不好。
2018/12/4
8
§6.1 自变量中含有定性变量的回归模型
Model 1
R R Square a .938 .879
a. Predic tors: (Cons tant), X2, X1
ANOVA Model 1 Regress ion Res idual Total Sum of Squares 290372875.924 39856639.705 330229515.630 df 2 24 26 Mean Square 145186437.962 1660693.321 F 87.425 Sig. .000
(Cons tant) X1 X2
t -7.295 12.562 -7.207
Sig. .000 .000 .000
两个自变量x1与x2的系数都是显著的,判定系数 R2=0.879,回归方程为:
ˆ =-7976+3826x1-3700x2 y
2018/12/4
7
§6.1 自变量中含有定性变量的回归模型
2018/12/4
6
§6.1 自变量中含有定性变量的回归模型
Coefficients Uns tandardized Coefficients B Std. Error -7976.809 1093.445 3826.129 304.591 -3700.330 513.445 Standardized Coefficients Beta .921 -.529
春季 其它
秋季 其它
x2 1, x2 0,
x4 1, x4 0,
夏季 其它
冬季 其它
2018/12/4
11
§6.1 自变量中含有定性变量的回归模型
可是这样做却产生了一个新的问题,即 x1+x2+x3+x4=1,构成完全多重共线性。 解决这个问题的方法很简单,我们只需去掉一个 0-1型变量,只保留3个0-1型自变量即可。例如去掉 x4,只保留x1、x2、x3。 对一般情况,一个定性变量有k类可能的取值 时,需要引入k-1个0-1型自变量。当k=2时,只需要引 入一个0-1型自变量即可。
家庭年收入x1是连续型变量,它对回归的贡献也是 不可缺少的。如果不考虑家庭年收入这个自变量,13户 高学历家庭的平均年储蓄增加额为3009.31元,14户低 学历家庭的平均年储蓄增加额为5059.36元,这样会认 为高学历家庭每年的储蓄额比低学历的家庭平均少 5059.36-3009.31=2050.05元,而用回归法算出的数值 是3700元,两者并不相等。
2018/12/4
9
§6.1 自变量中含有定性变量的回归模型
用回归法算出的高学历家庭每年的平均储蓄额比低学 历的家庭平均少3700元,这是在假设两者的家庭年收入相 等的基础上的储蓄差值,或者说是消除了家庭年收入的影 响后的差值,因而反映了两者储蓄额的真实差异。而直接 由样本计算的差值2050.05元是包含有家庭年收入影响在 内的差值,是虚假的差值。所调查的13户高学历家庭的平 均年收入额为3.8385万元,14户低学历家庭的平均年收入 额为3.4071万元,两者并不相等。
2018/12/4
12
§6.1 自变量中含有定性变量的回归模型
三、单因素方差分析
设yij是正态总体N(μ j,σ 2),的样本 j=1,…,c,i=1,2,…,nj 原假设为:H0: μ 1=μ 2=…=μ 记ε
ij= c 2),进而有
yij-μ j,则有ε
ij
ij~N(0,σ
yij=μ j+ε
,i=1,2,…,nj,j=1,…,c, (9.39)
D i 1, 当 x i 500 D i 0, 当 x i 500
2018/12/4
19
§6.2 自变量定性变量回归模型的应用
引入两个新的自变量
xi1=xi xi2=(xi-500)Di
这样回归模型转化为标准形式的二元线性回归模型: yi=β 0+β 1xi1+β 2xi2+ε i (9.3)式可以分解为两个线性回归方程: 当x1≤500时,E(y)=β 0+β 1x1 (9.3)
2018/12/4
10
§6.1 自变量中含有定性变量的回归模型
二、复杂情况
某些场合定性自变量可能取多类值,例如某商厦策划营销
方案,需要考虑销售额的季节性影响,季节因素分为春、
夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、 冬四季,我们初步设想引入如下4个0-1自变量:
x1 1, x1 0,
当x1>500时,E(y)=(β0-500β2)+(β1+β2)x1
2018/12/4
20
§6.2 自变量定性变量回归模型的应用
2018/12/4
21
Model Summary Adjus ted R Square .957 Std. E rror of the Es timate .2449
Model 1
2018/12/4
23
以上只是根据散点图从直观上判断本例数据应该用折 线回归拟合,这一点还需要做统计的显著性检验,这只需 对(9.2)式的回归系数β2做显著性检验。
Coefficients Uns tandardized Coefficients B Std. E rror 5.895 .604 -3.954E-03 .001 -3.893E-03 .002 Standardized Coefficients Beta -.611 -.388
一、简单情况 首先讨论定性变量只取两类可能值的情况,例如研究 粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气 候问题,分为正常年份和干旱年份两种情况,对这个问题 的数量化方法是引入一个0-1型变量D,令: Di=1 Di=0 表示正常年份 表示干旱年份
2018/12/4
2
§6.1 自变量中含有定性变量的回归模型
一、分段回归 例9.2 表9.3给出某工厂生产批量xi与单位成本yi(美元)的 数据。试用分段回归建立回归模型。
序号 y X(= x1) x2
1
2 3 4 5 6
2.57
4.4 4.52 1.39 4.75 3.55
650
340 400 800 300 570
150
0 0 300 0 70
7
8
2018/12/4
第六章 定性数据的建模分析
6.1
6.2 6.3 6.4 6.5
自变量中含有定性变量的回归模型
自变量定性变量回归模型的应用 因变量是定性变量的回归模型 Logistic(逻辑斯蒂)回归 多类别Logistic回归
6.6
6.7
因变量是顺序变量的回归
本章小结与评注
2018/12/4
1
§6.1 自变量中含有定性变量的回归模型
1 c , c j j1
记,aj=μ j-μ
则(9.39)式改写为: (9.40)
yij=μ+ai+εij ,i=1,2,…,ni,j=1,…,c,
2018/12/4
13
§6.1 自变量中含有定性变量的回归模型
引入0-1型自变量xij,将(9.40)式表示为 yij=μ+a1xi1+a2xi2+…+acxic +εij 其中
xi1 1, 当 j 1 x i1 0, 当 j 1
xi 2 1, 当 j 2 x i2 0, 当 j 2
…
xic 1, 当 j c x ic 0, 当 j c
2018/12/4 14
wk.baidu.com
§6.1 自变量中含有定性变量的回归模型
其中还存在一个问题,就是c个自变量x1,x2, …,xc之 和恒等于1,存在完全的复共线性。为此,剔除xc,建立 回归模型
yij=μ+a1xi1+a2xi2+…+ac-1xic-1 +εij
i=1,2,…,nj,j=1,…,c, 回归方程显著性检验的原假设为: H0: a1=a2=…=ac-1=0
2018/12/4
调查数据见表9.1:
2018/12/4
4
§6.1 自变量中含有定性变量的回归模型
表9.1 序号 1 2 3 4 5 6 7 y(元) 235 346 365 468 658 867 1085 x1(万元) 2.3 3.2 2.8 3.5 2.6 3.2 2.6 x2 0 1 0 1 0 1 0
23 24 25 26 27
2.49
3.77
720
480
220
0
17
§6.2 自变量定性变量回归模型的应用
5.0 4.5 4.0 3.5
¾ £© ɱ »³ µ¥Î y£¨
3.0 2.5 2.0 1.5 1.0 200 300 400 500
600
700
800
900
x£¨ ÅúÁ¿£©
图9.1 单位成本对批量散点图
2018/12/4 18
2018/12/4
8950 9865 9866 10235 10140
3.9 4.8 4.6 4.8 4.2
0 0 0 0 0
5
§6.1 自变量中含有定性变量的回归模型
建立y对x1、x2的线性回归
Model Summary Adjus ted R Square .869 Std. Error of the Es timate 1288.68
粮食产量的回归模型为:
yi=β 0+β 1xi+β 2Di+ε i
其中干旱年份的粮食平均产量为:
E(yi|Di=0)=β 0+β 1xi
正常年份的粮食平均产量为:
E(yi|Di=1)=(β0+β2)+β1xi
2018/12/4
3
§6.1 自变量中含有定性变量的回归模型
例9.1 某经济学家想调查文化程度对家庭储蓄的 影响,在一个中等收入的样本框中,随机调查了13户 高学历家庭与14户中低学历的家庭, 因变量y为上一年家庭储蓄增加额, 自变量x1为上一年家庭总收入, 自变量x2表示家庭学历, 高学历家庭x2=1,低学历家庭x2=0,
Regress ion Res idual Total
Coefficients Uns tandardized Coefficients B Std. E rror 5.895 .604 -3.954E-03 .001 -3.893E-03 .002 Standardized Coefficients Beta -.611 -.388
(Cons tant) X X2
t 9.757 -2.65 -1.69
Sig. .000 .045 .153
2018/12/4
22
§6.2 自变量定性变量回归模型的应用
用普通最小二乘法拟合模型(9.3)式得回归方程为:
ˆ =5.895-0.00395x1-0.00389x2 y
利用此模型可说明生产批量小于500时,每增加1个单位 批量,单位成本降低0.00395美元;当生产批量大于500时, 每增加1个单位批量,估计单位成本降低到 0.00395+0.00389=0.00784(美元)。
(Cons tant) X X2
t 9.757 -2.65 -1.69
Sig. .000 .045 .153
R .985a
R S quare .969
a. Predic tors: (Cons tant), X2, X
ANOVA Model 1 Sum of Squares 9.486 .300 9.786 df 2 5 7 Mean Square 4.743 5.999E-02 F 79.059 Sig. .000
§6.2 自变量定性变量回归模型的应用
由图9.1可看出数据在生产批量xp=500时发生较大变化, 即批量大于500时成本明显下降。我们考虑由两段构成的分 段线性回归,这可以通过引入一个0-1型虚拟自变量实现。 假定回归直线的斜率在xp=500处改变,建立回归模型 yi=β0+β1xi+β2(xi-500)Di+εi 来拟合,其中
15
§6.1 自变量中含有定性变量的回归模型
由aj=μj-μ=μj1 c j 可知 c j 1
H0: a1=a2=…=ac-1=0 与
H0: μ 1=μ 2=…=μ c是等价的 线性回归的F检验与单因素方差分析的F检验是等价的。
2018/12/4
16
§6.2 自变量定性变量回归模型的应用
这个结果表明,中等收入的家庭每增加1万元收入,平 均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少 于低学历的家庭,平均少3700元。 如果不引入家庭学历定性变量x2,仅用y对家庭年收入 x1做一元线性回归,得判定系数R2=0.618,拟合效果不好。
2018/12/4
8
§6.1 自变量中含有定性变量的回归模型
Model 1
R R Square a .938 .879
a. Predic tors: (Cons tant), X2, X1
ANOVA Model 1 Regress ion Res idual Total Sum of Squares 290372875.924 39856639.705 330229515.630 df 2 24 26 Mean Square 145186437.962 1660693.321 F 87.425 Sig. .000
(Cons tant) X1 X2
t -7.295 12.562 -7.207
Sig. .000 .000 .000
两个自变量x1与x2的系数都是显著的,判定系数 R2=0.879,回归方程为:
ˆ =-7976+3826x1-3700x2 y
2018/12/4
7
§6.1 自变量中含有定性变量的回归模型
2018/12/4
6
§6.1 自变量中含有定性变量的回归模型
Coefficients Uns tandardized Coefficients B Std. Error -7976.809 1093.445 3826.129 304.591 -3700.330 513.445 Standardized Coefficients Beta .921 -.529