第9章-含定性变量的回归模型
2018-2019-spss第九章练习题答案word版本 (9页)
本文部分内容来自网络整理,本司不为其真实性负责,如有异议或侵权请及时联系,本司将立即删除!== 本文为word格式,下载后可方便编辑和修改! ==spss第九章练习题答案篇一:第九章spss的回归分析第九章spss的回归分析1、利用习题二第4题的数据,任意选择两门课程成绩作为解释变量和被解释变量,利用SPSS提供的绘制散点图功能进行一元线性回归分析。
请绘制全部样本以及不同性别下两门课程成绩的散点图,并在图上绘制三条回归直线,其中,第一条针对全体样本,第二和第三条分别针对男生样本和女生样本,并对各回归直线的拟和效果进行评价。
选择fore和phy两门成绩做散点图步骤:图形→旧对话框→散点图→简单散点图→定义→将phy导入X轴、将fore导入Y轴,将sex导入设置标记→确定图标剪辑器内点击元素菜单→选择总计拟合线→选择线性→确定→再次选择元素菜单→点击子组拟合线→选择线性→确定分析:如上图所示,通过散点图,被解释变量y与fore有一定的线性相关关系。
2、线性回归分析与相关性回归分析的关系是怎样的?线性回归分析是相关性回归分析的一种,研究的是一个变量的增加或减少会不会引起另一个变量的增加或者减少。
3、为什么需要对线性回归方程进行统计检验?一般需要对哪些方面进行检验?线性回归方程能够较好地反映被解释变量和解释变量之间的统计关系的前提是被解释变量和解释变量之间确实存在显著的线性关系。
回归方程的显著性检验正是要检验被解释变量和解释变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当。
一般包括回归系数的检验,残差分析等。
4、SPSS多元线性回归分析中提供了哪几种解释变量筛选策略?包括向前筛选策略、向后筛选策略和逐步筛选策略。
5、先收集到若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据,请利用建立多元线性回归方程,分析影响粮食总产量的主要因素。
数据文件名为“粮食总产量.sav”。
步骤:分析→回归→线性→粮食总产量导入因变量、其余变量导入自变量→确定分析:如以上4个表所示,影响程度来由大到小依次是风灾面积、使用化肥量、总播种面积和年份。
自变量中含有定性变量的回归分析
图1 不同教育程度人员保健支出示意图
• (2)乘法方式——斜率旳变化
• 例:根据消费理论,消费水平C主要取决于收入水平X。但 在一种较长旳时期,人们旳消费倾向会发生变化,尤其是在 自然灾害、战争等反常年份,消费倾向往往出现变化。这种 消费倾向旳变化可经过在收入旳系数中引入虚拟变量来考察。
Model
1
(Constant)
B
Std. Error
930.495 466.974
X1
387.616
62.565
X2
1262.693 314.127
a. Dependent Variable: Y
Standardized Coefficients
Beta
.931 .604
t 1.993 6.195 4.020
F 21.357
Sig. .001a
Model Summary
Adjusted Std. Error of R R Square R Square the Estimate .927a .859 .819 459.048 dictors: (Constant), X2, X1
Unstandardized Coefficients
Sig. .069 .001 .004 .005 .003 .002 .015
• 回归方程旳解释 • 当案例在两个分类变量都等于0时,即文化程度为文盲,居住地在农村
时,此种情况称为参照类(其他情况将与此进行比较),其回归方程为: • 表白全部参照类妇女年龄每上升1岁,其曾生子女数旳平均变化量为
则其几何图形如图2所示。
图2 不同年份消费倾向示意图
假如在模型中同步使用加法和乘法两种方式引入虚拟变量, 则回归线旳截距和斜率都会变化。
应用回归分析-第9章课后习题答案
应⽤回归分析-第9章课后习题答案第9章含定性变量的回归模型思考与练习参考答案9.1 ⼀个学⽣使⽤含有季节定性⾃变量的回归模型,对春夏秋冬四个季节引⼊4个0-1型⾃变量,⽤SPSS 软件计算的结果中总是⾃动删除了其中的⼀个⾃变量,他为此感到困惑不解。
出现这种情况的原因是什么?答:假如这个含有季节定性⾃变量的回归模型为:tt t t kt k t t D D D X X Y µαααβββ++++++=332211110其中含有k 个定量变量,记为x i 。
对春夏秋冬四个季节引⼊4个0-1型⾃变量,记为D i ,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到⼀次观测值,则样本设计矩阵为:=000110010110001010010010100011)(616515414313212111k k k k k k X X X X X X X X X X X XD X,显然,(X,D)中的第1列可表⽰成后4列的线性组合,从⽽(X,D)不满秩,参数⽆法唯⼀求出。
这就是所谓的“虚拟变量陷井”,应避免。
当某⾃变量x j 对其余p-1个⾃变量的复判定系数2j R 超过⼀定界限时,SPSS 软件将拒绝这个⾃变量x j 进⼊回归模型。
称Tol j =1-2j R 为⾃变量x j 的容忍度(Tolerance ),SPSS 软件的默认容忍度为0.0001。
也就是说,当2j R >0.9999时,⾃变量x j 将被⾃动拒绝在回归⽅程之外,除⾮我们修改容忍度的默认值。
=k βββ 10β=4321ααααα⽽在这个模型中出现了完全共线性,所以SPSS软件计算的结果中总是⾃动删除了其中的⼀个定性⾃变量。
9.2对⾃变量中含有定性变量的问题,为什么不对同⼀属性分别建⽴回归模型,⽽采取设虚拟变量的⽅法建⽴回归模型?答:原因有两个,以例9.1说明。
⼀是因为模型假设对每类家庭具有相同的斜率和误差⽅差,把两类家庭放在⼀起可以对公共斜率做出最佳估计;⼆是对于其他统计推断,⽤⼀个带有虚拟变量的回归模型来进⾏也会更加准确,这是均⽅误差的⾃由度更9.3 研究者想研究采取某项保险⾰新措施的速度y对保险公司的规模x1和保险公司类型的关系(参见参考⽂献【3】)。
第九章 相关与回归分析
第9章相关与回归分析【教学内容】相关分析与回归分析是两种既有区别又有联系的统计分析方法。
本章阐述了相关关系的概念与特点;相关关系与函数关系的区别与联系;相关关系的种类;相关关系的测定方法(直线相关系数的含义、计算方法与运用);回归分析的概念与特点;回归直线方程的求解及其精确度的评价;估计标准误差的计算。
【教学目标】1、了解相关与回归分析的概念、特点和相关分析与回归分析的区别与联系;2、掌握相关分析的定性和定量分析方法;3、掌握回归模型的拟合方法、对回归方程拟合精度的测定和评价的方法。
【教学重、难点】1、相关分析与回归分析的概念、特点、区别与联系;2、相关与回归分析的有关计算公式和应用条件。
第一节相关分析的一般问题一、相关关系的概念与特点(一)相关关系的概念在自然界与人类社会中,许多现象之间是相互联系、相互制约的,表现在数量上也存在着一定的联系。
这种数量上的联系和关系究其实质,可以概括为两种不同类型,即函数关系与相关关系。
相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。
例如,商品销售额与流通费用率之间的关系就是一种相关关系。
(二)相关关系的特点1、相关关系表现为数量相互依存关系。
2、相关关系在数量上表现为非确定性的相互依存关系。
二、相关关系的种类1、相关关系按变量的多少,可分为单相关和复相关2、相关关系从表现形态上划分,可分为直线相关和曲线相关3、相关关系从变动方向上划分,可分为正相关和负相关4、按相关的密切程度分,可分为完全相关、不完全相关和不相关三、相关分析的内容相关分析是对客观社会经济现象间存在的相关关系进行分析研究的一种统计方法。
其目的在于对现象间所存在的依存关系及其所表现出的规律性进行数量上的推断和认识,以便为回归分析提供依据。
相关分析的内容和程序是:(1)判别现象间有无相关关系(2)判定相关关系的表现形态和密切程度第二节相关关系的判断与分析一、相关关系的一般判断(一)定性分析对现象进行定性分析,就是根据现象之间的本质联系和质的规定性,运用理论知识、专业知识、实际经验来进行判断和分析。
古扎拉蒂《计量经济学基础》复习笔记和课后习题详解(虚拟变量回归模型)【圣才出品】
第9章虚拟变量回归模型9.1 复习笔记考点一:ANOVA模型★★★1.虚拟变量含义虚拟变量是指仅有0和1两个取值的变量,是一种定性变量。
一般而言,虚拟变量等于0表示变量不具有某种性质,等于1表示具有某种性质。
虚拟变量也可以放到回归模型中。
这种模型被称为方差分析(ANOVA)模型。
2.虚拟变量模型(1)虚拟变量的表达式Y i=β1+β2D2i+β3D3i+u i应看到,除了不是定量回归元而是定性或虚拟回归元(若观测值属于某特定组则取值为1,若它不属于那一组则取值0)之外,方程与前面考虑的任何一个多元回归模型都是一样的。
所有的虚拟变量都用字母D表示。
(2)使用虚拟变量的注意事项①若定性变量有m个类别,则只需引入m-1个虚拟变量,否则就会陷入虚拟变量陷阱,即完全共线性或完全多重共线性(若变量之间存在不止一个精确的关系)情形。
对每个定性变量而言,所引入的虚拟变量的个数必须比该变量的类别数少一个。
②不指定其虚拟变量的那一组被称为基组、基准组、控制组、比较组、参照组或省略组。
所有其他的组都与基准组进行比较。
③截距值(β1)代表了基准组的均值。
④附属于方程中虚拟变量的系数被称为级差截距系数,它反映取值为1的地区的截距值与基准组的截距系数之间的差别。
⑤如果定性变量不止一类,那么,基准组的选择完全取决于研究者。
⑥对于虚拟变量陷阱,如果在这种模型中不使用截距项,那么引入与变量的类别相同数量的虚拟变量就能够回避虚拟变量陷阱的问题。
因此,如果从方程中去掉截距项,并考虑如下模型Y i=β1D1i+β2D2i+β3D3i+u i由于此时没有完全共线性,所以就不会陷入虚拟变量陷阱。
但要确定做这个回归时,一定要使用回归软件包中的无截距选项。
⑦在一个含有截距的方程中,能更容易地处理是否有某个组与基准组有所不同以及有多大的不同,所以在方程中包括截距更方便。
为了检查分组是否得当,也可通过将虚拟变量的系数相对0做t检验(或者更一般地,对适当的虚拟变量系数集做一个F检验),就可以检验分类是否适当。
应用回归分析.ppt
统计依赖关系
正相关 线性相关 不相关 相关系数:
负相关 1 XY 1
正相关 非线性相关 不相关
负相关
2019年8月28
感谢你的观看
有因果关系 回归分析 无因果关系 相关分析
9
1 .1 变量间的统计关系
• 注意 (1)不线性相关并不意味着不相关。 (2)有相关关系并不意味着一定有因果关系。 (3)相关分析对称地对待任何(两个)变量,
2019年8月28
感谢你的观看
18
1 .4 建立实际问题回归模型的过程
五.模型的检验与修改
检验: 1. 回归方程
2. 回归系数
3. 拟合优度
4. 随机误差项序列的相关性 异方差
修改:从设置变量是否合理开始—是否遗漏变量,变量间的依 赖性是否强,样本容量是否少,理论模型是否合适等等.
六. 回归模型的应用
函数关系
商品的销售额与销售量之间的关系 y = px 圆的面积与半径之间的关系
S=R2
、原原材材料料消价耗格额(x与3)之产间量的(x关1) 系、单位产量消耗(x2) y = x1 x2 x3
2019年8月28
感谢你的观看
5
1 .1 变量间的统计关系
y(万元)
6000 5000 4000 3000 2000 1000
0 0
y = 1000x
123456 x(万辆)
图1.1 函数关系图
2019年8月28
感谢你的观看
6
1 .1 变量间的统计关系
相关关系的例子
子女身高 (y)与父亲身高(x)之间的关系 收入水平(y)与受教育程度(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之 间的关系 商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系
回归模型的要素
回归模型的要素
回归模型是一种统计分析方法,用于建立变量之间的关系模型。
它基于变量之间的线性关系假设,并通过拟合数据来估计模型参数。
回归模型包含以下要素:
1. 因变量(Dependent Variable):也称为被解释变量或目标变量,它是我们想要预测或解释的变量。
2. 自变量(Independent Variables):也称为解释变量或预测变量,它们是用来解释或预测因变量的变量。
回归模型可以包含一个或多个自变量。
3. 线性关系(Linear Relationship):回归模型假设因变量与自变量之间存在线性关系,即自变量的变化对因变量的影响是线性的。
4. 残差(Residuals):在回归模型中,残差是指观测值与模型预测值之间的差异。
回归模型的目标是通过最小化残差的平方和来找到最佳拟合线。
5. 模型参数(Model Parameters):回归模型的参数是用来描述自变量与因变量之间关系的数值。
在线性回归模型中,参数表示自变量对因变量的影响程度。
6. 截距(Intercept):截距是回归模型中的常数项,表示在自变量为零时,因变量的预测值。
它反映了因变量在没有自变量影响时的基准水平。
通过确定回归模型的要素,并进行数据拟合和参数估计,我
们可以使用回归模型来预测或解释因变量的变化。
含定性变量的回归模型
含定性变量的回归模型一、自变量中含有定性变量的回归模型在回归分析中,对一些自变量是定性变量的情形先量化处理,引入只取0和1 两个值的虚拟自变量。
例如,在研究粮食产量问题,需考虑正常年份和干旱年份,对这个问题就可以引入虚拟变量D ,令D=1表示正常年份,D=0表示干旱年份。
当在某些场合定性自变量可能取多类值时,例如考虑销售量的季节性影响,季节因素分为春、夏、秋、冬4种情况。
为了用定性自变量反映四个季度,可以引入自变量⎩⎨⎧==,其他,春季0111x x ,⎩⎨⎧==,其他,夏季0122x x ,⎩⎨⎧==,其他,秋季0133x x ,⎩⎨⎧==,其他,冬季0144x x ,如果这样引入会出现一个问题,即自变量4321,,,x x x x 之和恒等于1,构成了完全多重共线性。
所以,一个定性变量有k 类可能的取值时,只需要引入k-1个0-1型自变量。
所以在分析季节因素的时候,引入3个0-1自变量即可。
例1 某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了13户高学历家庭与14户中低学历的家庭,因变量y 为上一年家庭储蓄增加额,自变量x1为上一年家庭总收入,自变量x2表示家庭学历,高学建立y 对x1,x2的线性回归模型,回归方程为:yˆ=-7976+3826x1-3700x2 这个结果表明,中等收入的家庭每增加1万元收入,平均拿出3826元作为储蓄。
高学历家庭每年的平均储蓄额少于低学历的家庭,平均少3700元。
如果不引入家庭学历定性变量x2,仅用y 对家庭年收入x1做一元线性回归,得判定系数R^2=0.618,拟合效果不好。
家庭年收入x1是连续型变量,它对回归的贡献也是不可缺少的。
如果不考虑家庭年收入这个自变量,13户高学历家庭的平均年储蓄增加额为3009.31元,14户低学历家庭的平均年储蓄增加额为5059.36元,这样会认为高学历家庭每年的储蓄额比低学历的家庭平均少5059.36-3009.31=2050.05元,而用回归法算出的数值是3824元,两者并不相等。
第九章SPSS回归分析
第3步:启动分析过程。点击【分析】【 回归】【线性】菜单命令,打开如图所示 的对话框。
第4步:设置分析变量。设置因变量:在左边变量 列表中选“成就动机分数”,选入到“因变量”框 中。设置自变量:在左边变量列表中选“智商分数 ”变量,选入“自变量”框中。如果是多元线性回 归,则可以选择多个自变量。
第八个表:残差统计
第九个:标准化残差的概率图
[分析]:由此图可知,所有的点都比较靠近对角线 ,结合前面第八个表中的标准化残差为0.892,小 于2,因此可以认为残差是正态的。
由于自我效能感、服从领导满意度、同事人际敏感 、工作技能水平、个人信心指数这几个变量的回归 系数所对应的sig值不显著,在回归分析中需要删 除这几个变量,然后再建立回归方程。因此在SPSS 中接着再次进行回归分析。
分析:此例属于一元线性回归,一般先做两个变量 之间的散点图进行简单地观测。若散点图的趋势大 概呈线性关系,可以建立线性方程;若不呈线性分 布,可建立其它方程模型,并比较R2来确定选择其 中一种最佳方程式。
一元线性回归方程的原假设为:所建立的回归方程 无效,回归方程中来自总体自变量的系数为0。
第9步:重复前面SPSS的操作步骤,从第2步至第6 步。在第3步将自我效能感、服从领导满意度、同 事人际敏感、工作技能水平、个人信心指数这几个 变量从自变量移出,由于SPSS软件中还保存了刚才 第4、5、6步的操作内容,此时只需要再点击【确 定】按钮,输出分析结果。其中模型摘要、回归方 程、回归系数表如下:
第4步:设置分析参数。单击【统计】按钮,打开“ 线性回归:统计”对话框,可以选择输出的统计量 如图所示。
在“回归系数”栏,选择“估算值”。
在对话框的右边,有五个复选框:
(1)“模型拟合”是系统默认项,输出复相关系数 R、R2及R2修正值,估计值的标准误,方差分析表。 (2)“R方变化量”:增加进入或剔除一个自变量时 , R2的变化。
第九章 相关与回归分析 《统计学原理》PPT课件
[公式9—4]
r xy n • xy
x y
[公式9—5]
返回到内容提要
第三节 回归分析的一般问题
一、回归分析的概念与特点
(一)回归分析的概念
现象之间的相关关系,虽然不是严格 的函数关系,但现象之间的一般关系值, 可以通过函数关系的近似表达式来反映, 这种表达式根据相关现象的实际对应资料, 运用数学的方法来建立,这类数学方法称 回归分析。
单相关是指两个变量间的相关关系,如 自变量x和因变量y的关系。
复相关是指多个自变量与因变量间的相关 关系。
(二)相关关系从表现形态上划分,可分为 直线相关和曲线相关
直线相关是指两个变量的对应取值在坐标 图中大致呈一条直线。
曲线相关是指两个变量的对应取值在坐 标图中大致呈一条曲线,如抛物线、指数曲线、 双曲线等。
0.578
a y b x 80 0.578 185 3.844
n
n7
7
yˆ 3.844 0.578x
二、估计标准误差 (一)估计标准误差的概念与计算 估计标准误差是用来说明回归直线方程 代表性大小的统计分析指标。其计算公式为:
Syx
y yˆ 2
n
[公式9—8]
实践中,在已知直线回归方程的情况下, 通常用下面的简便公式计算估计标准误差:
[例9—2] 根据相关系数的简捷公式计算有:
r
n xy x y
n x2 x2 n y2 y2
7 218018580
0.978
7 5003 1852 7 954 802
再求回归直线方程:
yˆ a bx
b
n xy x y
n x2 x2
7 2180 18580 7 50031852
古扎拉蒂《计量经济学基础》第9章
虚拟变量数量的设置规则
1.若定性因素具有m(m≥2)个相互排斥
属性(或几个水平),当回归模型有截距项时, 只能引入m-1个虚拟变量;
2.当回归模型无截距项时,则可引入m个 虚拟变量;否则,就会陷入“虚拟变量陷阱”。 (为什么?)
若对两个相互排斥的属性 “性别属性”, 仍然引入m=2个虚拟变量,则有
E Yi | Di = 0 = 0
Yi ( 0 1) i 女 性
Yi 0 i
男性
(2)一个定性解释变量(两种属性)和一
个定量解释变量的情形
模型形式 Yi = f(Di,Xi )+μi 0 1Di
例如:Yi =0 1Di +Xi +μi
其中:Y-支出;X-收入;
Di
1 0
女性 支出
例:比较改革开放前、后我国居民(平 均)“储蓄-收入”总量关系是否发生了变 化?模型的设定形式为:
Yt 1 2 Dt 1X t 2 (Dt X t ) ut
其中 : Yt为储蓄总额,X t为收入总额。
D
1
0
改革开放后 改革开放前
回归方程:
改革开放后 EYt | Xt , D 1 (1 2)(1 2)Xt 改革开放前 EYt | Xt , D 0 1 1Xt
夏季、农村居民
E Yi | X i ,D1 = 1, D2 = 0 =( 0 + 1)+ X i
冬季、城市居民
E Yi | X i , D1 0, D2 1 (0 2 )+ X i
冬季、农村居民
E Yi | X i , D1 0, D2 0 0 X i
Y
D1 1,D2 1
基准:四季度
(4)两个定性解释变量(均为两种属性) 和一个定量解释变量的情形
第9章-定性数据的建模分析(含SPSS)
可得到Logistic回归方程为:
1 P
❖
e 0 1x1 2 x2 ... k xk
(9.4)
❖
P 1 e 0 1x1 2 x2 ...k xk
❖ 其中 0 、1 为常数和解释变量的系数, e 为自然数,其
曲线为s 型。
❖ 某一事件不发生地概率为: ❖ Prob(no event)=1- Prob(event) (9.5) ❖ 二元Logistic模型对数据要求为: ❖ (1)被解释变量应具二分特点。 ❖ (2)解释变量数据最好为多元正态分布。
❖ (3)Step卡方值是在建立模型的过程中,当前与下一步
❖ - 2ll 之间的差值。 ❖ SPSS将自动计算似然比卡方的观测值和相伴概率 p 值。
如果相伴概率值小于给定的显著水平 ,则应拒绝零假设; 反之,如果相伴概率值大于给定的显著水平,则不应拒绝零 假设。
❖ 2、回归系数的显著性检验
❖ Logit回归系数显著性检验的目的是逐个检验模型 中各解释变量是否与Logit有显著的线性关系,对解 释Logit是否有重要贡献。其原假设是,即某回归系 数与零无显著差异,相应的解释变量与Logit之间的 线性关系不显著。
第九章 定性数据的建模分析
本章内容
❖ 第一节 解释变量中含有定性变量的回归模型 ❖ 第二节 二项Logistic回归模型 ❖ 第三节 判别分析
第一节 解释变量中含有定性变量的回归模型
❖ 在回归分析中,我们对一些解释变量是定性变量 的情形先给予数理化,处理方法是引进只取0和1两 个值的虚拟变量。当某一属性出现时,虚拟变量取 值为1,否则为0。
❖ (三)二项Logistic回归模型中回归系数的含义 ❖ 在应用中人们通常更关心的是解释变量给发生比
回归分析实验课 实验8
实验报告八实验课程:回归分析实验课专业:统计学年级:姓名:学号:指导教师:完成时间:得分:教师评语:学生收获与思考:实验八含定性变量的回归模型(4学时)一、实验目的1.掌握含定性变量的回归模型的建模步骤3.运用SAS计算含定性变量的各种回归模型的各参数估计及相关检验统计量二、实验理论与方法在实际问题的研究中,经常会遇到一些非数量型的变量。
如品质变量;性别;战争与和平。
我们把这些品质变量也称为定性变量,在建立回归模型的时候我们需要考虑到这些定性变量。
定性变量的回归模型分为自变量含定性变量的回归模型和因变量是定性变量的回归模型。
自变量含有定性变量的时候,我们一般引进虚拟变量,将这些定性变量数量化。
例如研究粮食产量问题,y为粮食产量,x为施肥量,另外考虑气候问题,分为正常年份和干旱年份两种情况,这个问题数量化方法就是引入一个0-1型变量D,令D i=1 表示正常年份,D i=0表示干旱年份,粮食产量的回归模型为:yi =β+β1xi+β2Di+εi。
因变量是定性变量时,一般用logistic回归模型(分组数据的logistic回归模型,未分组数据的logistic回归模型,多类别的logistic回归模型),probit回归模型等。
三. 实验内容1.用DATA步建立一个永久SAS数据集,数据集名为xt103,数据见表21;对数据集xt103,建立y对公司规模和公司类型的回归,并对所得到的模型进行解释。
2.研制一种新型玻璃,对其做耐冲实验。
用一个小球从不同的高度h对玻璃做自由落体撞击,玻璃破碎记为y=1,玻璃未破碎记y=0.数据见表22.是对表中数据建立玻璃耐冲性对高度h的logistic回归,并解释回归方程的含义。
3.某学校对本科毕业生的去向做了一个调查,分析影响毕业去向的相关因素,结果见表23.其中毕业去向“1”=工作,“2”=读研,“3”=出国留学。
性别“1”=男生,“0”=女生。
用多类别的Logisitic回归分析影响毕业去向的因素。
计量经济学教材答案(八、九章)
第八章虚拟变量模型1. 回归模型中引入虚拟变量的作用是什么?答:在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。
加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
2. 虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况?答:在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
3.什么是虚拟变量陷阱?答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。
如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。
这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。
4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。
试设定适当的模型,并导出如下情形下学生消费支出的平均水平:(1) 来自欠发达农村地区的女生,未得到奖学金;(2) 来自欠发达城市地区的男生,得到奖学金;(3) 来自发达地区的农村女生,得到奖学金;(4) 来自发达地区的城市男生,未得到奖学金。
解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:Y i=β0+β1X i+μi其他定性因素可用如下虚拟变量表示:有奖学金无奖学金来自发达地区男性来自欠发达地区女性则引入各虚拟变量后的回归模型如下:Y i=β0+β1X i+α1D1i+α2D2i+α3D3i+α4D4i+μi由此回归模型,可得如下各种情形下学生的平均消费支出:(1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出:E(Y i|= X i, D1i=D2i=D3i=D4i=0)=β0+β1X i(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D4i=1,D2i=D3i=0)=(β0+α1+α4)+β1X i(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D3i=1,D2i=D4i=0)=(β0+α1+α3)+β1X i(4) 来自发达地区的城市男生,未得到奖学金时的月消费支出:E(Y i|= X i,D2i=D3i=D4i=1, D1i=0)= (β0+α2+α3+α4)+β1X i5. 研究进口消费品的数量Y 与国民收入X 的模型关系时,由数据散点图显示1979年前后Y 对X 的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。
第9章含定性变量的回归模型
高学历家庭x2=1,低学历家庭x2=0。
§9.2 自变量定性变量回归模型的应用
回归模型(9.8)式可以分解为对高学历和对低学历家庭 的两个线性回归模型,分别为:
高学历家庭x2=1, yi=β0+β1xi1+β2+β3xi1+εi =(β0+β2)+(β1+β3)xi1+εi
t Sig. 9.757 .000 -2.65 .045 -1.69 .153
§9.2 自变量定性变量回归模型的应用
对β2的显著性检验的显著性概率Sig=0.153,β2没有通 过显著性检验,不能认为β2非零。用y对x做一元线性回归, 计算结果为:
Coeffi ci ents
(C onstant ) X
x((((
图9.1 单位成本对批量散点图
§9.2 自变量定性变量回归模型的应用
由图9.1可看出数据在生产批量xp=500时发生较大变化, 即批量大于500时成本明显下降。我们考虑由两段构成的分 段线性回归,这可以通过引入一个0-1型虚拟自变量实现。 假定回归直线的斜率在xp=500 yi=β0+β1xi+β2(xi-500)Di+εi
对一般情况,一个定性变量有k类可能的取值 时,需要引入k-1个0-1型自变量。当k=2时,只需要引 入一个0-1型自变量即可。
§9.2 自变量定性变量回归模型的应用
一、分段回归
例9.2 表9.3给出某工厂生产批量xi与单位成本yi(美元)的 数据。试用分段回归建立回归模型。
序号 1 2 3 4 5 6 7 8
§9.1 自变量中含有定性变量的回归模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其它
x4
x4
1, 0,
冬季 其它
可是这样做却产生了一个新的问题,即 x1+x2+x3+x4=1,构成完全多重共线性。
解决这个问题的方法很简单,我们只需去掉一个 0-1型变量,只保留3个0-1型自变量即可。例如去掉 x4,只保留x1、x2、x3。
对一般情况,一个定性变量有k类可能的取值 时,需要引入k-1个0-1型自变量。当k=2时,只需要引 入一个0-1型自变量即可。
Std. Error of the
Est imate
1288. 68
Model 1
AN OVA
Regress ion Residual Total
Sum of Squares 290372875. 924
39856639.705 330229515. 630
df
Mean Square
F
2 145186437. 962 87.425
用回归法算出的高学历家庭每年的平均储蓄额比低学 历的家庭平均少3824元,这是在假设两者的家庭年收入相 等的基础上的储蓄差值,或者说是消除了家庭年收入的影 响后的差值,因而反映了两者储蓄额的真实差异。而直接 由样本计算的差值2050.05元是包含有家庭年收入影响在 内的差值,是虚假的差值。所调查的13户高学历家庭的平 均年收入额为3.8385万元,14户低学历家庭的平均年收入 额为3.4071万元,两者并不相等。
如果不引入家庭学历定性变量x2,仅用y对家庭年收入 x1做一元线性回归,得判定系数R2=0.618,拟合效果不好。
家庭年收入x1是连续型变量,它对回归的贡献也是 不可缺少的。如果不考虑家庭年收入这个自变量,13户 高学历家庭的平均年储蓄增加额为3009.31元,14户低 学历家庭的平均年储蓄增加额为5059.36元,这样会认 为高学历家庭每年的储蓄额比低学历的家庭平均少 5059.36-3009.31=2050.05元,而用回归法算出的数值 是3824元,两者并不相等。
一、简单情况
首先讨论定性变量只取两类可能值的情况,例如研究 粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气 候问题,分为正常年份和干旱年份两种情况,对这个问题 的数量化方法是引入一个0-1型变量D,令:
Di=1
表示正常年份
Di=0
表示干旱年份
粮食产量的回归模型为: yi=β0+β1xi+β2Di+εi
§9.2 自变量定性变量回归模型的应用
一、分段回归
在实际问题中,我们会碰到某些变量在不同的影响因素 范围内变化趋势截然不同。对这种问题,有时用多种曲线 拟合效果仍不能令人满意。如果做残差分析,会发现残差 不是随机的,而具有一定的系统性,对这类问题,自然考 虑用分段回归的方法做处理。
例9.2 表9.3给出某工厂生产批量xi与单位成本yi(美元)的 数据。试用分段回归建立回归模型。
24
1660693.321
26
Sig. .000
Coeffi ci ents
(C onstant ) X1 X2
Unst andardized Coef f icients
B
Std. Error
-7976.809 1093.445
3826.129 304. 591
-3700.330 513. 445
Standardized Coef f icients
Bet a
.921 -. 529
t -7.295 12.562 -7.207
Sig. .000 .000 .000
两个自变量x1与x2的系数都是显著的,判定系数 R2=0.879,回归方程为:
yˆ =-7976+3826x1-3700x2
这个结果表明,中等收入的家庭每增加1万元收入,平 均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少 于低学历的家庭,平均少3700元。
第九章 含定性变量的回归模型
9.1 自变量中含有定性变量的回归模型 9.2 自变量定性变量回归模型的应用 9.3 因变量是定性变量的回归模型 9.4 Logistic(逻辑斯蒂)回归 9.5 多类别Logistic回归 9.6 因变量是顺序变量的回归 9.7 本章小结与评注
在实际问题研究中,常常遇见一些非数量型变量, 如:性别,民族,正常年份,干旱年份,战争与和 平,改革前,改革后等,在建立一个经济问题的回 归方程时,常常考虑这些定性变量,如建立粮食产 量预测方程就应考虑到正常年份与受灾年份的不同 影响。
其中干旱年份的粮食平均产量为: E(yi|Di=0)=β0+β1xi
正常年份的粮食平均产量为: E(yi|Di=1)=(β0+β2)+β1xi
例9.1 某经济学家想调查文化程度对家庭储蓄的 影响,在一个中等收入的样本框中,随机调查了13户 高学历家庭与14户中低学历的家庭,
因变量y为上一年家庭储蓄增加额,
x2
2.3
0
3.2
1
2.8
0
3.5
1
2.6
0
3.2
1
2.6
0
3.9
0
4.8
0
4.6
0
4.8
0
4.2
0
建立y对x1、x2的线性回归
Model Summary
Modቤተ መጻሕፍቲ ባይዱl 1
Adjusted R
R R Square Square
.938a
.879
.869
a. Predict ors: (C ons tant), X2, X1
本章主要介绍自变量含定性变量的回归模型 和因变量是定性变量的回归 模型。
§9.1 自变量中含有定性变量的回归模型
在回归分析中,对一些自变量是定性变量的情形先给 予数量比处理,处理方法是引进0和1两个值的虚拟自变量 将定性变量数量化。当某一属性出现时,虚拟变量值为1, 否则取值为0。虚拟变量也称哑变量。
自变量x1为上一年家庭总收入, 自变量x2表示家庭学历, 高学历家庭x2=1,低学历家庭x2=0, 调查数据见表9.1:
表9.1 序号
1 2 3 4 5 6 7
y(元) 235 346 365 468 658 867 1085
23
8950
24
9865
25
9866
26
10235
27
10140
x1(万元)
二、复杂情况
某些场合定性自变量可能取多类值,例如某商厦策划营销
方案,需要考虑销售额的季节性影响,季节因素分为春、
夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、
冬四季,我们初步设想引入如下4个0-1自变量:
x1
1,
x1 0,
春季 其它
x2 1, 夏 季
x2
0,
其它
x3 1, 秋 季
x3 0,