(完整word版)应用回归分析,第9章课后习题参考答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第9章 含定性变量的回归模型
思考与练习参考答案
9.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0—1型自变量,用SPSS 软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。

出现这种情况的原因是什么?
答:假如这个含有季节定性自变量的回归模型为:
t t t t kt k t t D D D X X Y μαααβββ++++++=332211110
其中含有k 个定量变量,记为x i 。

对春夏秋冬四个季节引入4个0—1型自变量,记为D i ,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为:
⎪⎪⎪⎪⎪

⎪⎪
⎭⎫

⎛=00011001011000101001
0010100011)(6
165154143132121
11k k k k k k X X X X X X X X X X X X
D X,
显然,(X ,D)中的第1列可表示成后4列的线性组合,从而(X ,D)不满秩,参数无法唯一求出。

这就是所谓的“虚拟变量陷井",应避免。

当某自变量x j 对其余p —1个自变量的复判定系数2j R 超过一定界限时,SPSS 软件将拒绝这个自变量x j 进入回归模型.称Tol j =1—2
j R 为自变量x j 的容忍度(Tolerance ),SPSS 软件的默认容忍度为0。

0001。

也就是说,当2j R >0.9999时,自变量x j 将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。

而在这个模型中出现了完全共线性,所以SPSS 软件计算的结果中总是自动删除了其中的一个定性自变量。

⎪⎪⎪
⎪⎪⎭

⎝⎛=k βββ 10β⎪⎪⎪
⎪⎪⎭
⎫ ⎝⎛=4321ααααα
9。

2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型?
答:原因有两个,以例9.1说明。

一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其他统计推断,用一个带有虚拟变量的回归模型来进行也会更加准确,这是均方误差的自由度更多。

9.3 研究者想研究采取某项保险革新措施的速度y对保险公司的规模x1和保险公司类型的关系(参见参考文献【3】).因变量的计量是第一个公司采纳这项革新和给定公司采纳这项革新在时间上先后间隔的月数.第一个自变量公司的规模是数量型的,用公司的总资产额(百万美元)来计量;第二个自变量公司是定性变量,由两种类型构成,即股份公司和互助公司。

数据资料见表9。

8,试建立y对公司规模和公司类型的回归.
表9。

8
i y x1公司类型
117151互助
22692互助
321175互助
43031互助
522104互助
60277互助
712210互助
819120互助
94290互助
1016238互助
1128164股份
1215272股份
1311295股份
143868股份
153185股份
1621224股份
1720166股份
1813305股份
1930124股份
2014246股份
解:对定型变量“公司类型”进行数量化处理:
引入虚拟变量x2:公司类型为“互助"时,x2=1,为“股份”时,x2=0。

则表9。

5中数据转换成以下数据:
i y x1公司类型
1171511
226921
3211751
430311
5221041
602771
7122101
8191201
942901
10162381
11281640
12152720
13112950
1438680
1531850
16212240
17201660
18133050
19301240
20142460建立回归方程y=b0+b1x1+b2x2+ε
用SPSS软件作线性回归,得到输出结果如下:
R检验:拟合优度R2=0.883,接近1,说明回归拟合的效果较好.
F检验:F值=72.497,Sig。

值为0,说明回归方程通过F检验。

T 检验:回归系数通过t 检验,回归方程为:
y= 41。

930-0。

102 x 1-8.055 x 2
说明:若引入虚拟变量x 2,当公司类型为“互助”时,x 2=0,为“股份"时, x 2=1。

则回归方程为:
y= 33。

874-0。

102x 1 + 8.055x 2
结果分析:
(1)股份制公司采取保险革新措施的积极性比互助型公司高,原因可能在于股份制公司建立在共同承担风险上,所以更愿意革新;
(2)公司规模越大,采取保险革新措施的倾向越大:大规模公司的保险制度的更新对公司的影响程度比小规模公司大,因此大规模公司更倾向于比较更新措施和现有政策带来的效益,最终表现在采纳革新措施的时间间隔较短。

9.4.表9。

9的数据是我国历年铁路里程数据,根据散点图观察在某时间点有折点,用折线回归拟合这个数据。

解:由散点图9(见下图)可看出在1995年(t=16)有折点,考虑由两段构成的分段线性回归,这可以通过引入一个0-1型虚拟自变量实现。

由散点图可知该折点为t=16,则引入虚拟自变量x ,


⎧>-≤=16,16t 16
,0t t x 由SPSS 输出的调整后的决定系数20.980R =,说明拟合优度较好。

由输出的系数表可以得出回归方程为:x t y
106.0055.0183.5ˆ++= 由SPSS 输出方程分析表可知,F 值为594。

524,且P 值约为零,说明回归方程非常显著; 系数表中回归参数对应的t 检验P 值都约等于零,说明回归参数均通过了显著性检验。

因此,折线方程成立。

散点图
方差分析表
ANOVA b
11.1132 5.557594.524
.000a
.20622.009
11.319
24
Regression Residual Total
Model
1
Sum of Squares df
Mean Square
F Sig.P redictors: (Constant), x, t a. Dependent Variable: y
b.
系数表
9。

5 某省统计局1990年9月在全省范围内进行了一次公众安全感问卷调查,参考文献【10】选取了调查表中的一个问题进行分析。

本题对其中的数据做了适当的合并.对1391人填写的问卷设计:“一人在家是否害怕生人来”。

因变量y=1表示害怕,y=2表示不害怕。

2个自变量:x1是年龄,x2是文化程度.各变量的取值含义如表9。

10所示.
表9.10
现在的问题是:公民一人在家害怕生人来这个事件,与公民的年龄x1、文化程度x2有没有关系呢?调查数据见表9.11.
表9。

11
其中,p i 是根据(9.44)式计算的。

(1) 把公民的年龄x1、文化程度x2作为数值型变量,建立y 对x1、x2的logistic 回归。

(2) 把公民的年龄x1、文化程度x2作为定性型变量,用0-1变量将其数量化,建立y 对公
民的年龄和文化程度的logistic 回归。

(3) 你对回归的效果是否满意,你认为主要的问题是什么?
解:(1) 先对P i 进行逻辑变换,令ln(
)1i
i i
p p p '=-,则 01122i i i i p x x βββε'=+++
直接用SPSS 进行y 与x1、x2的logistic 回归,输出结果如下:
由SPSS 输出系数表结果得到回归方程:p
'ˆ=-0.144-0。

0061x —0.1362x 则还原后logistic 回归方程为:
p
ˆ=)
136.0006.0144.0ex p(1)
136.0006.0144.0ex p(2121x x x x ---+---
由方差分析表知F 值=0.386,P 值=0。

687,大于5%,说明回归方程不显著;
由系数表知回归参数的t 检验均没有通过,因为P 值都大于5%,说明回归参数未通过显著性检验.
由于logistic 回归模型存在异方差,所以采用加权最小二乘法重新拟合,权重:(1)i i i i n p p ω=- SPSS 输出结果如下:
由输出结果得到回归方程:p
'ˆ=21331.0002.0146.0x x -+ 还原后的回归方程:p
ˆ=)
331.0002.0146.0ex p(1)
331.0002.0146.0ex p(2121x x x x -++-+
由方差分析表结果知:F 值=4.304,P 值=0.037,小于5%,说明回归方程显著;
由系数表知1x 对应的回归系数相应的P 值=0。

697,大于5%,说明1x 对应的回归系数没有通过检验,不显著;
2x 对应的回归系数相应的P 值=0。

013,小于5%,说明2x 对应的回归系数通过检显著性验,
且该回归系数为—0。

331,,表明文化程度越高越不害怕。

(2) 把公民的年龄x1、文化程度x2作为定性型变量,引入6个0-1变量表示年龄1x
11111121311122221222322222,2237,3753,530,220,370,53
1,01,11,20,00,10,2
x x x x x x x x x x x x x x x x x x ===⎧⎧⎧===⎨⎨⎨
≠≠≠⎩⎩⎩===⎧⎧⎧===⎨⎨⎨
≠≠≠⎩⎩⎩,,,,
1) 直接进行y 与6个虚拟变量的未加权的logistic 回归,SPSS 输出结果如下:
由方差分析表知F=2.472,P 值=0。

106,大于5%,说明回归方程不显著;且除了12x 外,其它自变量对应的回归系数都没通过检验.
下面通过后退法选择变量对上述模型改进。

SPSS 输出结果如下表:
后退法的过程中剔除了211,x x ,留下了1312,x x ,但是13x 对应的回归系数未通过检验,将其剔除,最后留下了12x ;而且回归方程显著,
2) 加权回归:用后退法选择变量,由输出结果(如下)可知最后只留下了2x 。

从上表可以看出,最后只保留了变量2x (P 值小于0.05),回归方程为:2ˆ0.220.335p
x '=-
从模型概要表中可以看出模型四的回归方程的拟合优度不佳。

(3)对回归的效果不满意。

变量
x在不同的回归方法下显著性不同,对该变量的显
1
著性判定还有待改进。

如果能获得年龄的准确值做Logistic回归的极大似然估计,
可能会改进回归效果。

相关文档
最新文档