第9章 含定性变量的回归模型

合集下载

伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解

伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解
伍德里奇《计量经济学导论》(第5 版)笔记和课后习题详解
读书笔记模板
01 思维导图
03 目录分析 05 读书笔记
目录
02 内容摘要 04 作者介绍 06 精彩摘录
思维导图
本书关键字分析思维导图
第版
计量经济 学
时间
习题
序列
经典
变量
笔记
教材
笔记 复习
模型
导论
笔记
第章
习题
分析
数据
回归
内容摘要
本书是伍德里奇《计量经济学导论》(第5版)教材的配套电子书,主要包括以下内容:(1)整理名校笔记, 浓缩内容精华。每章的复习笔记以伍德里奇所著的《计量经济学导论》(第5版)为主,并结合国内外其他计量经 济学经典教材对各章的重难点进行了整理,因此,本书的内容几乎浓缩了经典教材的知识精华。(2)解析课后习 题,提供详尽答案。本书参考国外教材的英文答案和相关资料对每章的课后习题进行了详细的分析和解答。(3) 补充相关要点,强化专业知识。一般来说,国外英文教材的中译本不太符合中国学生的思维习惯,有些语言的表 述不清或条理性不强而给学习带来了不便,因此,对每章复习笔记的一些重要知识点和一些习题的解答,我们在 不违背原书原意的基础上结合其他相关经典教材进行了必要的整理和分析。本书特别适用于参加研究生入学考试 指定考研考博参考书目为伍德里奇所著的《计量经济学导论》的考生,也可供各大院校学习计量经济学的师生参 考。

2.1复习笔记 2.2课后习题详解
3.1复习笔记 3.2课后习题详解
4.1复习笔记 4.2课后习题详解
5.1复习笔记 5.2课后习题详解
6.1复习笔记 6.2课后习题详解
7.1复习笔记 7.2课后习题详解

自变量中含有定性变量的回归分析

自变量中含有定性变量的回归分析
有相同旳斜率,但有不 同旳截距
图1 不同教育程度人员保健支出示意图
• (2)乘法方式——斜率旳变化
• 例:根据消费理论,消费水平C主要取决于收入水平X。但 在一种较长旳时期,人们旳消费倾向会发生变化,尤其是在 自然灾害、战争等反常年份,消费倾向往往出现变化。这种 消费倾向旳变化可经过在收入旳系数中引入虚拟变量来考察。
Model
1
(Constant)
B
Std. Error
930.495 466.974
X1
387.616
62.565
X2
1262.693 314.127
a. Dependent Variable: Y
Standardized Coefficients
Beta
.931 .604
t 1.993 6.195 4.020
F 21.357
Sig. .001a
Model Summary
Adjusted Std. Error of R R Square R Square the Estimate .927a .859 .819 459.048 dictors: (Constant), X2, X1
Unstandardized Coefficients
Sig. .069 .001 .004 .005 .003 .002 .015
• 回归方程旳解释 • 当案例在两个分类变量都等于0时,即文化程度为文盲,居住地在农村
时,此种情况称为参照类(其他情况将与此进行比较),其回归方程为: • 表白全部参照类妇女年龄每上升1岁,其曾生子女数旳平均变化量为
则其几何图形如图2所示。
图2 不同年份消费倾向示意图
假如在模型中同步使用加法和乘法两种方式引入虚拟变量, 则回归线旳截距和斜率都会变化。

第九章 相关与回归分析

第九章  相关与回归分析

第9章相关与回归分析【教学内容】相关分析与回归分析是两种既有区别又有联系的统计分析方法。

本章阐述了相关关系的概念与特点;相关关系与函数关系的区别与联系;相关关系的种类;相关关系的测定方法(直线相关系数的含义、计算方法与运用);回归分析的概念与特点;回归直线方程的求解及其精确度的评价;估计标准误差的计算。

【教学目标】1、了解相关与回归分析的概念、特点和相关分析与回归分析的区别与联系;2、掌握相关分析的定性和定量分析方法;3、掌握回归模型的拟合方法、对回归方程拟合精度的测定和评价的方法。

【教学重、难点】1、相关分析与回归分析的概念、特点、区别与联系;2、相关与回归分析的有关计算公式和应用条件。

第一节相关分析的一般问题一、相关关系的概念与特点(一)相关关系的概念在自然界与人类社会中,许多现象之间是相互联系、相互制约的,表现在数量上也存在着一定的联系。

这种数量上的联系和关系究其实质,可以概括为两种不同类型,即函数关系与相关关系。

相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。

例如,商品销售额与流通费用率之间的关系就是一种相关关系。

(二)相关关系的特点1、相关关系表现为数量相互依存关系。

2、相关关系在数量上表现为非确定性的相互依存关系。

二、相关关系的种类1、相关关系按变量的多少,可分为单相关和复相关2、相关关系从表现形态上划分,可分为直线相关和曲线相关3、相关关系从变动方向上划分,可分为正相关和负相关4、按相关的密切程度分,可分为完全相关、不完全相关和不相关三、相关分析的内容相关分析是对客观社会经济现象间存在的相关关系进行分析研究的一种统计方法。

其目的在于对现象间所存在的依存关系及其所表现出的规律性进行数量上的推断和认识,以便为回归分析提供依据。

相关分析的内容和程序是:(1)判别现象间有无相关关系(2)判定相关关系的表现形态和密切程度第二节相关关系的判断与分析一、相关关系的一般判断(一)定性分析对现象进行定性分析,就是根据现象之间的本质联系和质的规定性,运用理论知识、专业知识、实际经验来进行判断和分析。

应用回归分析.ppt

应用回归分析.ppt

统计依赖关系
正相关 线性相关 不相关 相关系数:
负相关 1 XY 1
正相关 非线性相关 不相关
负相关
2019年8月28
感谢你的观看
有因果关系 回归分析 无因果关系 相关分析
9
1 .1 变量间的统计关系
• 注意 (1)不线性相关并不意味着不相关。 (2)有相关关系并不意味着一定有因果关系。 (3)相关分析对称地对待任何(两个)变量,
2019年8月28
感谢你的观看
18
1 .4 建立实际问题回归模型的过程
五.模型的检验与修改
检验: 1. 回归方程
2. 回归系数
3. 拟合优度
4. 随机误差项序列的相关性 异方差
修改:从设置变量是否合理开始—是否遗漏变量,变量间的依 赖性是否强,样本容量是否少,理论模型是否合适等等.
六. 回归模型的应用
函数关系
商品的销售额与销售量之间的关系 y = px 圆的面积与半径之间的关系
S=R2
、原原材材料料消价耗格额(x与3)之产间量的(x关1) 系、单位产量消耗(x2) y = x1 x2 x3
2019年8月28
感谢你的观看
5
1 .1 变量间的统计关系
y(万元)
6000 5000 4000 3000 2000 1000
0 0
y = 1000x
123456 x(万辆)
图1.1 函数关系图
2019年8月28
感谢你的观看
6
1 .1 变量间的统计关系
相关关系的例子
子女身高 (y)与父亲身高(x)之间的关系 收入水平(y)与受教育程度(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之 间的关系 商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系

第9章 相关与回归分析

第9章 相关与回归分析

第九章相关与回归分析习题一、单选题1.下面的函数关系是()。

A、销售人员测验成绩与销售额大小的关系B、圆周的长度决定于它的半径C、家庭的收入和消费的关系D、数学成绩与统计学成绩的关系2.若要证明两变量之间线性相关程度是高的,则计算出的相关系数应接近于()。

A、+1B、0C、0.5D、+1或-13.回归系数和相关系数的符号是一致的,其符号均可用来判断现象()。

A、线性相关还是非线性相关B、正相关还是负相关C、完全相关还是不完全相关D、单相关还是复相关4.在线性相关的条件下,自变量的均方差为2,因变量均方差为5,而相关系数为0.8时,则其回归系数为( )。

A、8B、0.32C、2D、12.55.下面现象间的关系属于相关关系的是()。

A、圆的周长和它的半径之间的关系B、价格不变条件下,商品销售额与销售量之间的关系C、家庭收入愈多,其消费支出也有增长的趋势D、正方形面积和它的边长之间的关系6.下列关系中,属于正相关关系的是()。

A、合理限度内,施肥量和平均单产量之间的关系B、产品产量与单位产品成本之间的关系C、商品的流通费用与销售利润之间的关系D、流通费用率与商品销售量之间的关系7.相关分析是研究()。

A、变量之间的数量关系B、变量之间的变动关系C、变量之间的相互关系的密切程度D、变量之间的因果关系8.在回归直线y=a+bx中,b<0,则x与y之间的相关系数( )。

A、r=0B、r=lC、0<r<1D、-1<r<09.在回归直线y=a+bx中,b表示()。

A、当x增加一个单位时,y增加a的数量B、当y增加一个单位时,x增加b的数量C、当x增加一个单位时,y的平均增加量D、当y增加一个单位时,x的平均增加量10.当相关系数r=0时,表明()。

A、现象之间完全无关B、相关程度较小C、现象之间完全相关D、无直线相关关系11.下列现象相关密切程度最高的是()。

A、某商店的职工人数与商品销售额之间的相关系数0.87B、流通费用水平与利润率之间的相关关系为-0.94C、商品销售额与利润率之间的相关系数为0.51D、商品销售额与流通费用水平的相关系数为-0.8112.估计标准误差是反映()。

回归模型的要素

回归模型的要素

回归模型的要素
回归模型是一种统计分析方法,用于建立变量之间的关系模型。

它基于变量之间的线性关系假设,并通过拟合数据来估计模型参数。

回归模型包含以下要素:
1. 因变量(Dependent Variable):也称为被解释变量或目标变量,它是我们想要预测或解释的变量。

2. 自变量(Independent Variables):也称为解释变量或预测变量,它们是用来解释或预测因变量的变量。

回归模型可以包含一个或多个自变量。

3. 线性关系(Linear Relationship):回归模型假设因变量与自变量之间存在线性关系,即自变量的变化对因变量的影响是线性的。

4. 残差(Residuals):在回归模型中,残差是指观测值与模型预测值之间的差异。

回归模型的目标是通过最小化残差的平方和来找到最佳拟合线。

5. 模型参数(Model Parameters):回归模型的参数是用来描述自变量与因变量之间关系的数值。

在线性回归模型中,参数表示自变量对因变量的影响程度。

6. 截距(Intercept):截距是回归模型中的常数项,表示在自变量为零时,因变量的预测值。

它反映了因变量在没有自变量影响时的基准水平。

通过确定回归模型的要素,并进行数据拟合和参数估计,我
们可以使用回归模型来预测或解释因变量的变化。

经验分享,使用eviews做回归分析

经验分享,使用eviews做回归分析

[经验分享] 使用eviews做线性回归分析Glossary:ls(least squares)最小二乘法R-sequared样本决定系数(R2):值为0-1,越接近1表示拟合越好,>0.8认为可以接受,但是R2随因变量的增多而增大,解决这个问题使用来调整Adjust R-seqaured()S.E of regression回归标准误差Log likelihood对数似然比:残差越小,L值越大,越大说明模型越正确Durbin-Watson stat:DW统计量,0-4之间Mean dependent var因变量的均值S.D. dependent var因变量的标准差Akaike info criterion赤池信息量(AIC)(越小说明模型越精确)Schwarz ctiterion:施瓦兹信息量(SC)(越小说明模型越精确)Prob(F-statistic)相伴概率fitted(拟合值)线性回归的基本假设:1.自变量之间不相关2.随机误差相互独立,且服从期望为0,标准差为σ的正态分布3.样本个数多于参数个数建模方法:ls y c x1 x2 x3 ...x1 x2 x3的选择先做各序列之间的简单相关系数计算,选择同因变量相关系数大而自变量相关系数小的一些变量。

模型的实际业务含义也有指导意义,比如m1同gdp肯定是相关的。

模型的建立是简单的,复杂的是模型的检验、评价和之后的调整、择优。

模型检验:1)方程显著性检验(F检验):模型拟合样本的效果,即选择的所有自变量对因变量的解释力度F大于临界值则说明拒绝0假设。

Eviews给出了拒绝0假设(所有系统为0的假设)犯错误(第一类错误或α错误)的概率(收尾概率或相伴概率)p 值,若p小于置信度(如0.05)则可以拒绝0假设,即认为方程显著性明显。

2)回归系数显著性检验(t检验):检验每一个自变量的合理性|t|大于临界值表示可拒绝系数为0的假设,即系数合理。

应用回归分析_第9章课后习题答案

应用回归分析_第9章课后习题答案

第9章 含定性变量的回归模型思考与练习参考答案9.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0-1型自变量,用SPSS 软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。

出现这种情况的原因是什么?答:假如这个含有季节定性自变量的回归模型为:t t t t kt k t t D D D X X Y μαααβββ++++++=332211110其中含有k 个定量变量,记为x i 。

对春夏秋冬四个季节引入4个0-1型自变量,记为D i ,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为:⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=000110010110001010010010100011)(616515414313212111k k k k k k X X X X X X X X X X X X D X,显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。

这就是所谓的“虚拟变量陷井”,应避免。

当某自变量x j 对其余p-1个自变量的复判定系数2j R 超过一定界限时,SPSS 软件将拒绝这个自变量x j 进入回归模型。

称Tol j =1-2j R 为自变量x j 的容忍度(Tolerance ),SPSS 软件的默认容忍度为0.0001。

也就是说,当2j R >0.9999时,自变量x j 将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。

⎪⎪⎪⎪⎪⎭⎫⎝⎛=k βββ 10β⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=4321ααααα而在这个模型中出现了完全共线性,所以SPSS软件计算的结果中总是自动删除了其中的一个定性自变量。

9.2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型?答:原因有两个,以例9.1说明。

一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其他统计推断,用一个带有虚拟变量的回归模型来进行也会更加准确,这是均方误差的自由度更多。

计量经济学第九章虚拟变量

计量经济学第九章虚拟变量

虚拟变量的类型
季节虚拟变量
用于反映季节变动对经济活动的影响。
政策虚拟变量
用于反映某项政策实施前后对经济活 动的不同影响。
地区虚拟变量
用于反映不同地区之间经济活动的差 异。
行业虚拟变量
用于反映不同行业之间经济活动的差 异。
虚拟变量的引入原因
解决遗漏变量问题
01
当某些重要变量无法直接观测或获取时,可以通过引入虚拟变
在模型中引入虚拟变量与解释变量的交互项,通过 改变斜率的值来反映不同组别之间的差异。
斜率变动模型的应用
适用于研究不同组别之间在某一解释变量上 的边际效应差异,如不同教育水平对收入的 影响等。
含有多个虚拟变量的模型
含有多个虚拟变量的模型的定义
当模型中引入多个虚拟变量时,称为含有多个虚拟变量的模型。
含有多个虚拟变量的模型的设定
VS
使用计算变量功能
可以使用SPSS的计算变量功能手动创建虚 拟变量。在数据视图中,点击“转换”菜 单下的“计算变量”选项。在弹出的对话 框中,输入虚拟变量的名称和标签,并在 计算表达式中输入相应的逻辑表达式。例 如,对于分类变量`industry`,可以使用如 下表达式生成虚拟变量
SPSS中实现虚拟变量的方法
截距变动模型的设

在模型中引入虚拟变量,通过改 变截距项的值来反映不同组别之 间的差异。
截距变动模型的应

适用于研究不同组别之间在某一 解释变量上的平均差异,如不同 性别、不同地区等。
斜率变动模型
斜率变动模型的定义
当虚拟变量不仅影响模型的截距项,还影响 解释变量的斜率时,称为斜率变动模型。
斜率变动模型的设定
通过比较政策虚拟变量的系数,可以分析 出政策变动对市场需求的影响程度。

第九章 相关与回归分析 《统计学原理》PPT课件

第九章  相关与回归分析  《统计学原理》PPT课件

[公式9—4]
r xy n • xy
x y
[公式9—5]
返回到内容提要
第三节 回归分析的一般问题
一、回归分析的概念与特点
(一)回归分析的概念
现象之间的相关关系,虽然不是严格 的函数关系,但现象之间的一般关系值, 可以通过函数关系的近似表达式来反映, 这种表达式根据相关现象的实际对应资料, 运用数学的方法来建立,这类数学方法称 回归分析。
单相关是指两个变量间的相关关系,如 自变量x和因变量y的关系。
复相关是指多个自变量与因变量间的相关 关系。
(二)相关关系从表现形态上划分,可分为 直线相关和曲线相关
直线相关是指两个变量的对应取值在坐标 图中大致呈一条直线。
曲线相关是指两个变量的对应取值在坐 标图中大致呈一条曲线,如抛物线、指数曲线、 双曲线等。
0.578
a y b x 80 0.578 185 3.844
n
n7
7
yˆ 3.844 0.578x
二、估计标准误差 (一)估计标准误差的概念与计算 估计标准误差是用来说明回归直线方程 代表性大小的统计分析指标。其计算公式为:
Syx
y yˆ 2
n
[公式9—8]
实践中,在已知直线回归方程的情况下, 通常用下面的简便公式计算估计标准误差:
[例9—2] 根据相关系数的简捷公式计算有:
r
n xy x y
n x2 x2 n y2 y2
7 218018580
0.978
7 5003 1852 7 954 802
再求回归直线方程:
yˆ a bx
b
n xy x y
n x2 x2
7 2180 18580 7 50031852

古扎拉蒂《计量经济学基础》第9章

古扎拉蒂《计量经济学基础》第9章

虚拟变量数量的设置规则
1.若定性因素具有m(m≥2)个相互排斥
属性(或几个水平),当回归模型有截距项时, 只能引入m-1个虚拟变量;
2.当回归模型无截距项时,则可引入m个 虚拟变量;否则,就会陷入“虚拟变量陷阱”。 (为什么?)
若对两个相互排斥的属性 “性别属性”, 仍然引入m=2个虚拟变量,则有
E Yi | Di = 0 = 0
Yi ( 0 1) i 女 性
Yi 0 i
男性
(2)一个定性解释变量(两种属性)和一
个定量解释变量的情形
模型形式 Yi = f(Di,Xi )+μi 0 1Di
例如:Yi =0 1Di +Xi +μi
其中:Y-支出;X-收入;
Di
1 0
女性 支出
例:比较改革开放前、后我国居民(平 均)“储蓄-收入”总量关系是否发生了变 化?模型的设定形式为:
Yt 1 2 Dt 1X t 2 (Dt X t ) ut
其中 : Yt为储蓄总额,X t为收入总额。
D
1
0
改革开放后 改革开放前
回归方程:
改革开放后 EYt | Xt , D 1 (1 2)(1 2)Xt 改革开放前 EYt | Xt , D 0 1 1Xt
夏季、农村居民
E Yi | X i ,D1 = 1, D2 = 0 =( 0 + 1)+ X i
冬季、城市居民
E Yi | X i , D1 0, D2 1 (0 2 )+ X i
冬季、农村居民
E Yi | X i , D1 0, D2 0 0 X i
Y
D1 1,D2 1
基准:四季度
(4)两个定性解释变量(均为两种属性) 和一个定量解释变量的情形

回归模型的假设

回归模型的假设

回归模型的假设统计回归模型是将一组变量之间的关系拟合到一个数学方程,用于研究变量之间的关系,以及预测和分析未知变量。

回归模型可以分为:简单线性回归模型、多元线性回归模型、非线性回归模型等。

统计回归模型拟合的过程依赖于其假设,任何一个有效的回归分析需要满足以下几种假设:1.性变量和定量变量要服从正态分布。

定性变量是指只有两类特征的变量,如男性和女性;而定量变量是指可以表示为实数的变量,如身高、体重等。

定性变量和定量变量都应该服从正态分布,以保证具有最佳拟合能力。

2.变量应该独立于其他自变量。

函数参数拟合时,需要保证自变量不受其他自变量的影响,即各自变量之间应为相互独立,以保证最优拟合结果。

3.差应当呈正态分布。

残差是指实际观测值与期望观测值之间的差距,也叫回归残差。

它应当服从正态分布,以保证观测值的准确性,以及误差的有效分布。

4.差应该具有均值为零的分布特性。

根据中心极限定理,残差必须具有均值为零的分布特性,以保证准确拟合模型。

5.差应具有相同的方差。

残差应该具有相同的方差,以保证模型稳定性,以更准确地拟合模型。

以上是回归模型的几种基本假设,当模型的假设条件不满足时,回归分析的结果将不可信,无法准确预测变量之间的关系。

因此,在回归模型的构建和应用过程中,应引起重视,加以考虑假设条件,以确保拟合结果的准确性。

另外,建立回归模型时,还需要考虑其他方面的因素。

首先,要考虑变量与因变量之间的关系类型,是简单线性关系、复杂非线性关系,还是超线性关系;其次,要考虑模型的选取,普通最小二乘法、最小二乘支持向量机等;最后,还要考虑参数校正、特征选择和模型评估等因素,以保证模型表现尽可能好。

因此,在建立回归模型时,需要严格满足假设条件,同时也要充分考虑类型、选取、参数校正等其他方面因素,以获得较优的拟合结果。

完善的回归模型不仅可以有效地预测变量之间的关系,而且还可以在推理据基础上更好地制定管理决策,从而实现实际目标的有效实现。

第9章-定性数据的建模分析(含SPSS)

第9章-定性数据的建模分析(含SPSS)

可得到Logistic回归方程为:
1 P

e 0 1x1 2 x2 ... k xk
(9.4)

P 1 e 0 1x1 2 x2 ...k xk
❖ 其中 0 、1 为常数和解释变量的系数, e 为自然数,其
曲线为s 型。
❖ 某一事件不发生地概率为: ❖ Prob(no event)=1- Prob(event) (9.5) ❖ 二元Logistic模型对数据要求为: ❖ (1)被解释变量应具二分特点。 ❖ (2)解释变量数据最好为多元正态分布。
❖ (3)Step卡方值是在建立模型的过程中,当前与下一步
❖ - 2ll 之间的差值。 ❖ SPSS将自动计算似然比卡方的观测值和相伴概率 p 值。
如果相伴概率值小于给定的显著水平 ,则应拒绝零假设; 反之,如果相伴概率值大于给定的显著水平,则不应拒绝零 假设。
❖ 2、回归系数的显著性检验
❖ Logit回归系数显著性检验的目的是逐个检验模型 中各解释变量是否与Logit有显著的线性关系,对解 释Logit是否有重要贡献。其原假设是,即某回归系 数与零无显著差异,相应的解释变量与Logit之间的 线性关系不显著。
第九章 定性数据的建模分析
本章内容
❖ 第一节 解释变量中含有定性变量的回归模型 ❖ 第二节 二项Logistic回归模型 ❖ 第三节 判别分析
第一节 解释变量中含有定性变量的回归模型
❖ 在回归分析中,我们对一些解释变量是定性变量 的情形先给予数理化,处理方法是引进只取0和1两 个值的虚拟变量。当某一属性出现时,虚拟变量取 值为1,否则为0。
❖ (三)二项Logistic回归模型中回归系数的含义 ❖ 在应用中人们通常更关心的是解释变量给发生比

回归分析实验课 实验8

回归分析实验课 实验8

实验报告八实验课程:回归分析实验课专业:统计学年级:姓名:学号:指导教师:完成时间:得分:教师评语:学生收获与思考:实验八含定性变量的回归模型(4学时)一、实验目的1.掌握含定性变量的回归模型的建模步骤3.运用SAS计算含定性变量的各种回归模型的各参数估计及相关检验统计量二、实验理论与方法在实际问题的研究中,经常会遇到一些非数量型的变量。

如品质变量;性别;战争与和平。

我们把这些品质变量也称为定性变量,在建立回归模型的时候我们需要考虑到这些定性变量。

定性变量的回归模型分为自变量含定性变量的回归模型和因变量是定性变量的回归模型。

自变量含有定性变量的时候,我们一般引进虚拟变量,将这些定性变量数量化。

例如研究粮食产量问题,y为粮食产量,x为施肥量,另外考虑气候问题,分为正常年份和干旱年份两种情况,这个问题数量化方法就是引入一个0-1型变量D,令D i=1 表示正常年份,D i=0表示干旱年份,粮食产量的回归模型为:yi =β+β1xi+β2Di+εi。

因变量是定性变量时,一般用logistic回归模型(分组数据的logistic回归模型,未分组数据的logistic回归模型,多类别的logistic回归模型),probit回归模型等。

三. 实验内容1.用DATA步建立一个永久SAS数据集,数据集名为xt103,数据见表21;对数据集xt103,建立y对公司规模和公司类型的回归,并对所得到的模型进行解释。

2.研制一种新型玻璃,对其做耐冲实验。

用一个小球从不同的高度h对玻璃做自由落体撞击,玻璃破碎记为y=1,玻璃未破碎记y=0.数据见表22.是对表中数据建立玻璃耐冲性对高度h的logistic回归,并解释回归方程的含义。

3.某学校对本科毕业生的去向做了一个调查,分析影响毕业去向的相关因素,结果见表23.其中毕业去向“1”=工作,“2”=读研,“3”=出国留学。

性别“1”=男生,“0”=女生。

用多类别的Logisitic回归分析影响毕业去向的因素。

第9章含定性变量的回归模型

第9章含定性变量的回归模型
其中y为上一年家庭储蓄增加额, x1为上一年家庭总收入, x2表示家庭学历,
高学历家庭x2=1,低学历家庭x2=0。
§9.2 自变量定性变量回归模型的应用
回归模型(9.8)式可以分解为对高学历和对低学历家庭 的两个线性回归模型,分别为:
高学历家庭x2=1, yi=β0+β1xi1+β2+β3xi1+εi =(β0+β2)+(β1+β3)xi1+εi
t Sig. 9.757 .000 -2.65 .045 -1.69 .153
§9.2 自变量定性变量回归模型的应用
对β2的显著性检验的显著性概率Sig=0.153,β2没有通 过显著性检验,不能认为β2非零。用y对x做一元线性回归, 计算结果为:
Coeffi ci ents
(C onstant ) X
x((((
图9.1 单位成本对批量散点图
§9.2 自变量定性变量回归模型的应用
由图9.1可看出数据在生产批量xp=500时发生较大变化, 即批量大于500时成本明显下降。我们考虑由两段构成的分 段线性回归,这可以通过引入一个0-1型虚拟自变量实现。 假定回归直线的斜率在xp=500 yi=β0+β1xi+β2(xi-500)Di+εi
对一般情况,一个定性变量有k类可能的取值 时,需要引入k-1个0-1型自变量。当k=2时,只需要引 入一个0-1型自变量即可。
§9.2 自变量定性变量回归模型的应用
一、分段回归
例9.2 表9.3给出某工厂生产批量xi与单位成本yi(美元)的 数据。试用分段回归建立回归模型。
序号 1 2 3 4 5 6 7 8
§9.1 自变量中含有定性变量的回归模型
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§9.2 自变量定性变量回归模型的应用
一、分段回归 在实际问题中,我们会碰到某些变量在不同的影响因素 范围内变化趋势截然不同。对这种问题,有时用多种曲线 拟合效果仍不能令人满意。如果做残差分析,会发现残差 不是随机的,而具有一定的系统性,对这类问题,自然考 虑用分段回归的方法做处理。
例9.2 表9.3给出某工厂生产批量xi与单位成本yi(美元)的 数据。试用分段回归建立回归模型。
Coefficients Unstandardized Coefficients B Std. Error -8763.936 1270.878 4057.151 359.284 -776.939 2514.459 -787.564 663.367 Standardized Coefficients Beta .977 -.111 -.443
D i = 1, 当 x i > 500 D i = 0, 当 x i ≤ 500
引入两个新的自变量
xi1=xi xi2=(xi-500)Di
这样回归模型转化为标准形式的二元线性回归模型: yi=β0+β1xi1+β2xi2+εi (9.3)式可以分解为两个线性回归方程: 当x1≤500时,E(y)=β0+β1x1 当x1>500时,E(y)=(β0-500β2)+(β1+β2)x1 (9.3)
ANOVA Model 1 Regression Residual Total Sum of Squares 290372875.924 39856639.705 330229515.630 df 2 24 26 Mean Square 145186437.962 1660693.321 F 87.425 Sig. .000
(Constant) X1 X2 X3
t -6.896 11.292 -.309 -1.187
Sig. .000 .000 .760 .247
§9.3 因变量是定性变量的回归模型
在许多社会经济问题中,所研究的因变量往往只有两 个可能结果,这样的因变量也可用虚拟变量来表示,虚拟 变量的取值可取0或1。 一、定性因变量的回归方程的意义 设因变量y是只取0,1两个值的定性变量,考虑简单线 性回归模型 yi=β0+β1xi+εi 在这种y只取0,1两个值的情况下,因变量均值 E(yi)=β0+β1xi有着特殊的意义。 (9.12)
第九章 含定性变量的回归模型
9.1 9.2 9.3 9.4 9.5 9.6 9.7 自变量中含有定性变量的回归模型 自变量定性变量回归模型的应用 因变量是定性变量的回归模型 Logistic(逻辑斯蒂)回归 多类别Logistic回归 因变量是顺序变量的回归 本章小结与评注
在实际问题研究中,常常遇见一些非数量型变量, 如:性别,民族,正常年份,干旱年份,战争与和 平,改革前,改革后等,在建立一个经济问题的回 归方程时,常常考虑这些定性变量,如建立粮食产 量预测方程就应考虑到正常年份与受灾年份的不同 影响。 本章主要介绍自变量含定性变量的回归模型 和因变量是定性变量的回归 模型。
(Constant) X X2
t 9.757 -2.65 -1.69
Sig. .000 .045 .153
对β2的显著性检验的显著性概率Sig=0.153,β2没有通 过显著性检验,不能认为β2非零。用y对x做一元线性回归, 计算结果为:
Coefficients Unstandardized Coefficients B Std. Error 6.795 .324 -6.318E-03 .001 Standardized Coefficients Beta -.976
(Constant) X
t 20.963 -10.90Biblioteka Sig. .000 .000
二、回归系数相等的检验 例9.3 回到例9.1的问题,例9.1引入0-1型自变量的方 法是假定储蓄增加额y对家庭收入的回归斜率β1与家庭年 收入无关,家庭年收入只影响回归常数项β0,这个假设是 否合理,还需要做统计检验。检验方法是引入如下含有 交互效应的回归模型: yi=β0+β1xi1+β2xi2+β3xi1xi2+εi(9.8) 其中y为上一年家庭储蓄增加额, x1为上一年家庭总收入, x2表示家庭学历, 高学历家庭x2=1,低学历家庭x2=0。
用普通最小二乘法拟合模型(9.3)式得回归方程为:
ˆ y =5.895-0.00395x1-0.00389x2
利用此模型可说明生产批量小于500时,每增加1个单位 批量,单位成本降低0.00395美元;当生产批量大于500时, 每增加1个单位批量,估计单位成本降低 0.00395+0.00389=0.00784(美元)。
0 0 0 0 0
建立y对x1、x2的线性回归
Model Summary Adjusted R Square .869 Std. Error of the Estimate 1288.68
Model 1
R R Square a .938 .879
a. Predictors: (Constant), X2, X1
粮食产量的回归模型为: yi=β0+β1xi+β2Di+εi 其中干旱年份的粮食平均产量为: E(yi|Di=0)=β0+β1xi 正常年份的粮食平均产量为: E(yi|Di=1)=(β0+β2)+β1xi
例9.1 某经济学家想调查文化程度对家庭储蓄的 影响,在一个中等收入的样本框中,随机调查了13户 高学历家庭与14户中低学历的家庭, 因变量y为上一年家庭储蓄增加额, 自变量x1为上一年家庭总收入, 自变量x2表示家庭学历, 高学历家庭x2=1,低学历家庭x2=0, 调查数据见表9.1:
以上只是根据散点图从直观上判断本例数据应该用折 线回归拟合,这一点还需要做统计的显著性检验,这只需 对(9.2)式的回归系数β2做显著性检验。
Coefficients Unstandardized Coefficients B Std. Error 5.895 .604 -3.954E-03 .001 -3.893E-03 .002 Standardized Coefficients Beta -.611 -.388
回归模型(9.8)式可以分解为对高学历和对低学历家庭 的两个线性回归模型,分别为: 高学历家庭x2=1, yi=β0+β1xi1+β2+β3xi1+εi =(β0+β2)+(β1+β3)xi1+εi 低学历家庭x2=0, yi=β0+β1xi1+εi
要检验两个回归方程的回归系数(斜率)相等,等价 于检验 H0:β3=0, 当拒绝H0时,认为β3≠0,这时高学历与低学历家庭的 储蓄回归模型实际上被拆分为两个不同的回归模型。 当接受H0时,认为β3=0,这时高学历与低学历家庭的储 蓄回归模型是如下形式的联合回归模型: yi=β0+β1xi1+β2xi2+εi
用回归法算出的高学历家庭每年的平均储蓄额比低学 历的家庭平均少3824元,这是在假设两者的家庭年收入相 等的基础上的储蓄差值,或者说是消除了家庭年收入的影 响后的差值,因而反映了两者储蓄额的真实差异。而直接 由样本计算的差值2050.05元是包含有家庭年收入影响在 内的差值,是虚假的差值。所调查的13户高学历家庭的平 均年收入额为3.8385万元,14户低学历家庭的平均年收入 额为3.4071万元,两者并不相等。
Coefficients Unstandardized Coefficients B Std. Error -7976.809 1093.445 3826.129 304.591 -3700.330 513.445 Standardized Coefficients Beta .921 -.529
表9.1 序号 1 2 3 4 5 6 7
y(元) 235 346 365 468 658 867 1085
x1(万元) 2.3 3.2 2.8 3.5 2.6 3.2 2.6
x2 0 1 0 1 0 1 0
23 24 25 26 27
8950 9865 9866 10235 10140
3.9 4.8 4.6 4.8 4.2
由于yi是0-1型贝努利随机变量,则得如下概率分布: P(yi=1)=πi P(yi=0)=1-πi (9.13) 根据离散型随机变量期望值的定义,可得 E(yi)=1(πi)+0(1-πi)=πi 得到 E(yi)=πi=β0+β1xi
二、定性因变量回归的特殊问题 1. 离散非正态误差项。 对一个取值为0和1的因变量, 误差项εi=yi-(β0+β1xi)只能取两个值: 当yi=1时, 当yi=0时, εi=1-β0-β1xi=1-πi εi=-β0-β1xi=-πi
家庭年收入x1是连续型变量,它对回归的贡献也是 不可缺少的。如果不考虑家庭年收入这个自变量,13户 高学历家庭的平均年储蓄增加额为3009.31元,14户低 学历家庭的平均年储蓄增加额为5059.36元,这样会认 为高学历家庭每年的储蓄额比低学历的家庭平均少 5059.36-3009.31=2050.05元,而用回归法算出的数值 是3824元,两者并不相等。
二、复杂情况 某些场合定性自变量可能取多类值,例如某商厦策划营销 方案,需要考虑销售额的季节性影响,季节因素分为春、 夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、 冬四季,我们初步设想引入如下4个0-1自变量:
x1 = 1, x1 = 0,
x3 = 1, x3 = 0,
春季 其它
秋 季 其它
x2 = 1, x2 = 0,
x4 = 1, x4 = 0,
夏 季 其它
相关文档
最新文档