自变量中含有定性变量的回归分析
自变量中含有定性变量的回归分析
图1 不同教育程度人员保健支出示意图
• (2)乘法方式——斜率旳变化
• 例:根据消费理论,消费水平C主要取决于收入水平X。但 在一种较长旳时期,人们旳消费倾向会发生变化,尤其是在 自然灾害、战争等反常年份,消费倾向往往出现变化。这种 消费倾向旳变化可经过在收入旳系数中引入虚拟变量来考察。
Model
1
(Constant)
B
Std. Error
930.495 466.974
X1
387.616
62.565
X2
1262.693 314.127
a. Dependent Variable: Y
Standardized Coefficients
Beta
.931 .604
t 1.993 6.195 4.020
F 21.357
Sig. .001a
Model Summary
Adjusted Std. Error of R R Square R Square the Estimate .927a .859 .819 459.048 dictors: (Constant), X2, X1
Unstandardized Coefficients
Sig. .069 .001 .004 .005 .003 .002 .015
• 回归方程旳解释 • 当案例在两个分类变量都等于0时,即文化程度为文盲,居住地在农村
时,此种情况称为参照类(其他情况将与此进行比较),其回归方程为: • 表白全部参照类妇女年龄每上升1岁,其曾生子女数旳平均变化量为
则其几何图形如图2所示。
图2 不同年份消费倾向示意图
假如在模型中同步使用加法和乘法两种方式引入虚拟变量, 则回归线旳截距和斜率都会变化。
相关性分析回归分析
问题的提出
发现变量之间的统计关系,并且 用此规律来帮助我们进行决策才 是统计实践的最终目的。 一般来说,统计可以根据目前所 拥有的信息(数据)来建立人们 所关心的变量和其他有关变量的 关系。这种关系一般称为模型 (model)。
问题的提出
假如用Y表示感兴趣的变量,用X表示其 他可能与Y有关的变量(X也可能是若干 变量组成的向量)。则所需要的是建立 一个函数关系Y=f(X)。 这里Y称为因变量或响应变量 (dependent variable, response variable),而X称为自变 量,也称为解释变量或协变量
问题的提出
对于现实世界,不仅要知其然,而且 要知其所以然。顾客对商品和服务的 反映对于企业是至关重要的,但是仅 仅有满意顾客的比例是不够的;商家 希望了解什么是影响顾客观点的因素, 及这些因素如何起作用。 类似地,学校不能仅仅知道大学英语 四级的通过率,而且想知道什么变量 影响通过率,以及如何影响。
80
70
60
但对于具体个人来说,大约有一半的学生的 40 高一平均成绩比初三时下降,而另一半没有 40 50 60 70 80 90 100 110 变化或有进步
初三 成绩
一 绩 高 成
50
问题的提出
目前的问题是怎么判断这两 个变量是否相关、如何相关 及如何度量相关? 能否以初三成绩为自变量, 高一成绩为因变量来建立一 个回归模型以描述这样的关 系,或用于预测。
定量变量的线性回归分析
对例1中的两个变量的数据进行线性回归,就 是要找到一条直线来适当地代表图1中的那些 点的趋势。 首先需要确定选择这条直线的标准。这里介绍 最小二乘回归(least squares regression)。古 汉语“二乘”是平方的意思。 这就是寻找一条直线,使得所有点到该直线的 豎直距离的平方和最小。用数据寻找一条直线 的过程也叫做拟合(fit)一条直线。
第15章 Probit回归(概率单位回归)
• 自然响应率估计值:在没有促销 活动的情况下,总顾客中仍会有 4.1%的人购买产品。
• 模型拟合非常好, 因素变量各分组的 回归方程具有相同 的斜率,满足平行 性假设条件
置信区间表:显示的是制定销售地点的相应概率。
响应概率probit=0.5时,促销价格半数响应估计值: 网上为46.518,货架为57.905,店铺69.8,可见网上促销最有效 刺激强度
15.1 Probit回归的基本原理
• Probit回归与Logistic回归相似,也是拟合0-1型因变量回归 的方法,即把取值分布在实数范围内的变量通过累积概率函 数转换成取值分布在(0,1)区间的概率值。所得概率分布 P 的表达式为: i f ( xi ) f ( i ) • Probit回归常用的累积概率函数有两个: • (1)logit概率函数:
1 0.8 0.6 0.4 0.2 0 0 5 10 15 20
1 0.8 0.6
25
30
Logistic分布函数
0.4 0.2 0 -4 -2 0 2
累积正态概率分布曲线
• 实际应用中,对于同一资料用Probit 回归与Logistic 回归分 析的结果非常接近。但Logistic回归的应用比Probit 回归更 广泛。这是因为: • Logistic 回归中的偏回归系数可以计算其exp (b) , 即OR 值, 可以得到很好的直观解释与应用。Probit 回归模型中偏回归 系数的含义为其他自变量取值保持不变时自变量每改变一个 单位,出现某结果的概率密度函数值的改变量。显然解释起 来比较麻烦,远不如Logistic 模型中,这也导致了研究者更 喜欢使用Logistic 模型。 • 目前有很多针对Logistic 回归模型的诊断及补救措施,而对 于Probit 回归而言而有信方面相对缺乏。当然,这类似"先 有鸡还是先有蛋"的问题,很难说是因为模型诊断措施较多 而导致了Logistic 回归的更多应用,还是说因为Logistic 回 归更多的应用促进了其模型诊断措施的发展。
例解回归分析笔记(1-4章)
二、简单线性回归
只包含一个因变量 Y 和一个自变量 X 的回归为简单线性回归
Y=β0+β1X+ε
1.协方差与相关系数
对 Y 偏离其均值和 X 偏离其均值的乘积,可以计算二者的协方差,协方差会受到 度量单位的影响,因此在计算之前,先对数据进行标准化,即 Z 变换,标准化之 后的 Z 变量也称为 Z 分数,用该变量计算的协方差就是 Y 与 X 的相关系数,相关 系数具有对称性,因此相关系数矩阵也具有对称性。
7.模型的评价和选择 模型的有效性依赖于某些假设,我们需要不断地调整模型,以使模型满足这些假 设达到最优效果,整个过程是一个迭代的过程。
8.回归模型的应用 在拟合最佳模型之后,我们将应用此模型进行预测、或者评估单个变量的重要性、 了解变量之间的相互关系,总之,作为一种分析技术,大多数情况下确定回归方 程使其主要目标,但是拟合期间产生的任何结果,也都是有用的。
此外,关于自变量的取值也应注意,取值距离自变量均值越远,预测的标准误越 大,并且自变量与因变量之间的线性关系有可能不再成立,这点也需要注意。
5.模型拟合优度判断
一个回归模型的拟合优度判断可以通过以下几种方法进行,这些方法都是相关联 的,一般不会出现矛盾结果 (1)假设检验的 t 值,该值越大,说明 Y 与 X 的线性相关性就越强,拟合效果 越好 (2)观测值和预测值的散点图,这些点 (3)决定系数 R2,在简单线性回归中,其值等于相关系数的平方,这是比较重 要的判断拟合优度的指标,反映的是 Y 的总变差中能被自变量 X 所解释的比例, 值越大,说明拟合优度越好。
由于我们总能找到使铅直距离平方和达到最小的直线,因此最小二乘回归直线总 是存在的,但有时并不唯一。可以证明,最小二乘残差之和为 0。
报告中的变量选择和回归分析方法
报告中的变量选择和回归分析方法引言:报告中的变量选择和回归分析方法是数据分析和统计学中的重要内容。
在研究报告和学术论文中,合理选择变量和进行回归分析可以有效地揭示变量之间的关系,提高分析的准确性和可靠性。
本文将从六个方面对报告中的变量选择和回归分析方法进行详细论述。
一、变量选择的意义变量选择是指在进行回归分析时,从众多可能的自变量中选择出最为重要和相关的变量。
合理的变量选择可以减少冗余变量的存在,避免数据过拟合问题,并提高模型的预测能力和可解释性。
变量选择的意义在于提高研究的效率和有效性。
二、变量选择的方法1. 相关系数法:通过计算自变量与因变量之间的相关系数,选择与因变量关系最为密切的自变量。
相关系数法既简单又直观,但在多变量分析中无法考虑到变量之间的相互作用。
2. 正向选择法:从众多可能的自变量中,逐步添加具有显著影响力的变量,并根据模型的显著性检验去除不显著的变量。
正向选择法可以一步步剔除不相关的变量,但可能会错过一些有用的变量。
3. 逆向选择法:从包含所有自变量的模型开始,逐步去除不显著的变量,直到剩下的自变量都显著。
逆向选择法可以保留所有可能有用的变量,但可能出现模型过于复杂的问题。
三、回归分析的基本原理回归分析是通过建立数学模型,分析自变量对因变量的影响程度和方向。
常见的回归分析方法包括线性回归、多元回归、逻辑回归等。
回归分析需要满足一些基本的假设和前提,如线性关系、多元正态分布等。
四、回归分析的评价指标回归分析的结果需要进行评价,以判断模型的拟合程度和可靠性。
常用的评价指标包括判定系数(R平方)、均方根误差(RMSE)、残差等。
这些指标可以帮助研究者判断模型的准确性,并进行模型的改进和优化。
五、回归分析的解读和应用回归分析的结果需要进行解读,以揭示自变量与因变量之间的关系。
解读回归系数可以确定变量之间的正负相关关系,判断自变量对因变量的影响程度。
回归分析的应用广泛,可以用于预测、控制和优化等多个领域。
第15章 Probit回归(概率单位回归)
• 15.2 Probit回归的案例分析
15.1 Probit回归的基本原理
• Probit回归即概率单位回归,主要用来测试分析刺激强 度与反应比例之间关系的关系。例如,对于指定数量的 病人,分析他们的给药剂量与治愈比例之间的关系。此 方法应用的典型例子是分析杀虫剂浓度和杀死害虫数量 之间的关系,并据此判断什么样的剂量浓度是最佳的。 • Probit回归适用于对反应变量(因变量)为分类变量的资 料进行统计分析,也存在反应变量为二分类、有序多分 类、无序多分类三种情况,但目前最常用的是二分类的 情形, SPSS 也仅能处理反应变量为二分类的资料。
(Z )dt
(Z ), (Z ) 分别为标准正态分布的分布函数与密度函数。
或 Pi ( 01 X1i 2 X 21i k X ki )
Probit 模型的边际分析 自变量的变化对响应概率(p)的影响:
dp 1 2Z2 f (Z ) e dZ 2
p= Φ(-3. 364 +0.804 • sex +0. 520 • ecg +0. 0564 • age) 或者写成:probit(p)= -3. 364 +0.804 • sex +0. 520 • ecg +0. 0564 • age)
15.2 Probit回归的案例分析
• 例2:某公司在不同营业所(网上、货架、店铺)采用了不 同的促销价格,请使用probit回归对不同促销价格和对促销 有反馈的顾客数量之间的关系进行分析,并拟合响应模型。 数据文件为:“促销效果评价数据.sav”
• 协变量和三个截距项对方程的作用都有显著意义
显著!
• 由此可得对三种营业场所的probit回归方程: • 网上:probit(p)=-7.219+1.88*ln(促销价格) • 货架:probit(p)=-7.613+1.88*ln(促销价格)
应用回归分析教学大纲
XX师X学院课程教学大纲应用回归分析教学大纲(试行)课程编号:07160110 适用专业:统计学学时数:54 学分数: 3执笔人:黄建文审核人:赵兴杰系别:数学教研室:统计学教研室编印日期:二〇一三年八月前言一、课程性质与任务1. 课程授课对象本大纲适用于师X院校数学学科统计学专业本科生。
2. 课程的性质与任务《应用回归分析》课程是师X院校数学系统计学专业基础课程。
它是在学生掌握了一定的数学专业理论知识的基础上开设的。
3. 在人才培养过程中的地位及作用本课程是学生掌握统计学的基本思想、理论和方法的主要课程,是培养学生熟练应用计算机软件处理统计数据的能力的基础课程.通过本课程的学习,了解统计知识在相关领域(如社会经济、生物、医学、信息管理、保险金融等)的应用,使学生成为具有综合应用能力的应用型人才。
4. 在思想、知识和能力等方面达到的教学目标(1)从生活中的需要出发,并根据回归分析的内容和知识结构,把回归分析的一些基本问题分别组成若干专题,在内容上适当延伸和充实,在理论、观点和方法上予以提高。
(2)对各专题的教学,都要着重基本思维方法的培养和基本技能技巧的训练。
(3)结合学生生活实践,利用生活中的案例进行分析,培养学生的辩证唯物主义观点。
二、教学时间安排(总学时54)三、教材及主要参考书建议教材:何晓群.应用回归分析.中国人民大学,2011.四、学生阅读书目及参考文献1. 《数理统计》,胡发胜.宿洁编,XX大学,2004年9月2. 孙荣恒.应用数理统计.:科学,2003五、考核考核形式:本课程为考试课程。
试卷题型:填空、选择(单项)、判断、计算、证明。
小题总量在20~22个之间。
成绩评定:平时成绩(含平时作业、考勤、半期考试)占30%,期末考试占70%。
六、教学基本要求1. 备课:课程应有规X的教案及讲稿,针对不同班级,任课教师应在教案的统一要求下有比较详细的讲稿。
2. 教学方法与手段:根据内容和教学条件,由任课教师选择适当的教学方法与教学手段。
含定性变量的回归模型
含定性变量的回归模型一、自变量中含有定性变量的回归模型在回归分析中,对一些自变量是定性变量的情形先量化处理,引入只取0和1 两个值的虚拟自变量。
例如,在研究粮食产量问题,需考虑正常年份和干旱年份,对这个问题就可以引入虚拟变量D ,令D=1表示正常年份,D=0表示干旱年份。
当在某些场合定性自变量可能取多类值时,例如考虑销售量的季节性影响,季节因素分为春、夏、秋、冬4种情况。
为了用定性自变量反映四个季度,可以引入自变量⎩⎨⎧==,其他,春季0111x x ,⎩⎨⎧==,其他,夏季0122x x ,⎩⎨⎧==,其他,秋季0133x x ,⎩⎨⎧==,其他,冬季0144x x ,如果这样引入会出现一个问题,即自变量4321,,,x x x x 之和恒等于1,构成了完全多重共线性。
所以,一个定性变量有k 类可能的取值时,只需要引入k-1个0-1型自变量。
所以在分析季节因素的时候,引入3个0-1自变量即可。
例1 某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了13户高学历家庭与14户中低学历的家庭,因变量y 为上一年家庭储蓄增加额,自变量x1为上一年家庭总收入,自变量x2表示家庭学历,高学建立y 对x1,x2的线性回归模型,回归方程为:yˆ=-7976+3826x1-3700x2 这个结果表明,中等收入的家庭每增加1万元收入,平均拿出3826元作为储蓄。
高学历家庭每年的平均储蓄额少于低学历的家庭,平均少3700元。
如果不引入家庭学历定性变量x2,仅用y 对家庭年收入x1做一元线性回归,得判定系数R^2=0.618,拟合效果不好。
家庭年收入x1是连续型变量,它对回归的贡献也是不可缺少的。
如果不考虑家庭年收入这个自变量,13户高学历家庭的平均年储蓄增加额为3009.31元,14户低学历家庭的平均年储蓄增加额为5059.36元,这样会认为高学历家庭每年的储蓄额比低学历的家庭平均少5059.36-3009.31=2050.05元,而用回归法算出的数值是3824元,两者并不相等。
计量经济学第7章含有定性信息的多元回归分析
第7章含有定性信息的多元回归分析:二值(或虚拟)变量在前面几章中,我们的多元回归模型中的因变量和自变量都具有定量的含义。
就像小时工资率、受教育年数、大学平均成绩、空气污染量、企业销售水平和被拘捕次数等。
在每种情况下,变量的大小都传递了有用的信息。
在经验研究中,我们还必须在回归模型中考虑定性因素。
一个人的性别或种族、一个企业所属的产业(制造业、零售业等)和一个城市在美国所处的地理位置(南、北、西等)都可以被认为是定性因素。
本章的绝大部分内容都在探讨定性自变量。
我们在第7.1节介绍了描述定性信息之后,又在第7.2、7.3和7.4节中说明了,如何在多元回归模型中很容易地包含定性的解释变量。
这几节几乎涵盖了定性自变量用于横截面数据回归分析的所有流行方法。
我们在第7.5节讨论了定性因变量的一种特殊情况,即二值因变量。
这种情形下的多元回归模型具有一个有趣的含义,并被称为线性概率模型。
尽管有些计量经济学家对线性概率模型多有中伤,但其简洁性还是使之在许多经验研究中有用武之地。
虽然我们在第7.5节将指出其缺陷,但在经验研究中,这些缺陷常常都是次要的。
7.1 对定性信息的描述定性信息通常以二值信息的形式出现:一个人是男还是女;一个人有还是没有一台个人计算机;一家企业向其一类特定的雇员提供还是不提供退休金方案;一个州实行或不实行死刑。
在所有这些例子中,有关信息可通过定义一个二值变量(binary variable)或一个0-1变量来刻画。
在计量经济学中,对二值变量最常见的称呼是虚拟变量(dummy variable),尽管这个名称并不是特别形象。
在定义一个虚拟变量时,我们必须决定赋予哪个事件的值为1和哪个事件的值为0。
比如,在一项对个人工资决定的研究中,我们可能定义female 为一个虚拟变量,并对女性取值1,而对男性取值0。
这种情形中的变量名称就是取值1的事件。
通过定义male 在一个人为男性时取值1并在一个人为女性时取值0,也能刻画同样的信息。
虚拟变量的回归分析
定量变量: 年龄 定性变量:文化程度、地区 Spss数据:妇女生育子女数.SAV
哑变量的建立
原变量编码值
文化程度=1(文盲) 文化程度=2(小学) 文化程度=3(初中) 文化程度=4(高中) 文化程度=5(大学) 地区=1(城市) 地区=2(农村)
在社会经济研究中,由许多定性变量, 如地区、民族、性别、文化程度、职业和 居住地等。
可以应用它们的信息进行线性回归。 但是,必须现将定性变量转换为哑变量
(也称虚拟变量),然后再将它们引入方 程,所得的回归结果才有明确的解释意义。
哑变量的建立
对于具有k类的定性变量来说,设哑变量 时,我们只设k-1个哑变量。
虚拟变量的回归分析
优选虚拟变量的回归分析
回归分析的类型
因变量与自变量都是定量变量的回归分 析——即我们常做的回归分析
因变量是定量变量,自变量中有定性变量 的回归分析—即含有虚拟变量的回归分析
因变量是定性变量的回归分析—Logistic 回归分析
自变量中有定性变量 的回归分析
自变量中有定性变量的回归
方程为:
对于具有k类的定性变量来说,设哑变量时,我们只设k-1个哑变量。
Spss数据:妇女生育子女数.
表明所有参照类妇女年龄每上升1岁,其曾生子女数的平均变化量为个。
自变量中有定性变量的回归
Spss数据:妇女生育子女数.
因变量是定量变量,自变量中有定性变量的回归分析—即含有虚拟变量的回归分析
应用SPSS建立回归方程
6
3.098 32.759
Sig. .000a
Residual .851
9
常用回归方法
常用回归方法回归分析是一种统计学方法,它着重于研究因变量和自变量之间的关系。
它还能够分析因变量的变化,预测未知的因变量,检验某些假设和评估影响因变量的因素。
归分析可以帮助研究人员分析特定的因素,如年龄、教育水平和收入,如何影响某种行为。
另外,它也可以用来模拟实际情况,以便更好地解释相关性。
除了回归分析之外,还有许多不同的回归方法可供选择。
本文将介绍其中常用的回归方法,并分析它们在实际应用中的优势和劣势。
一、最小二乘法最小二乘法是一种最常见的回归方法,它能够捕捉因变量与自变量之间的线性关系。
它的基本原理是,计算出一组参数量,使给定的观测数据和预期的值之间的差异最小。
最小二乘法具有计算简单、结果易于解释和可以拟合非线性关系等优点,但是,当数据有多重共线性或异常值时,它的效果将会受到负面影响。
二、多项式回归多项式回归是一种可以拟合多项式关系的回归方法。
它可以在自变量和因变量之间拟合更复杂的关系。
它的优势在于可以适用于各种复杂的函数关系,而缺点在于它可能会出现欠拟合或过拟合的情况。
三、岭回归岭回归是一种可以避免多重共线性问题的回归方法。
它比最小二乘法更加稳健,可以减少回归系数的估计误差。
它也可以用于处理大数据集。
但是,它需要更多的运算,并且可能会因模型过度拟合而失效。
四、主成分回归主成分回归是一种结合最小二乘法和主成分分析的回归方法。
它可以用来消除主成分之间的共线性,提高模型的预测准确性。
然而,它也有一些缺点,如只能处理线性模型,并且结果不太好理解。
五、逐步回归逐步回归是一种确定回归系数的方法,它可以自动添加有用的自变量来拟合模型,并自动删除不必要的自变量。
它的优势在于可以自动处理大量自变量,缺点在于可能会出现欠拟合或过拟合的情况。
六、多元逻辑回归多元逻辑回归是一种用于定量变量和定性变量之间的回归分析的方法,它用于对自变量的影响程度进行排序。
它的优势在于可以识别重要的自变量,缺点在于它不适用于非线性关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
▪ (1)加法方式
▪ 引进虚拟变量
1 零售业
1 旅游业
1 航空公司
x1
0
其他行业,x2源自0其他行业,
x3
0
其他行业
▪ 建立回归方程:E(Y)=0+ 1x1+ 2x2+3x3(加法公式) ▪ 0—家电制造业投诉次数的平均值 ▪ (0+ 1)—零售业投诉次数的平均值 ▪ (0+ 2)—旅游业投诉次数的平均值 ▪ (0+ 3)—航空公司投诉次数的平均值
教育水平个人平均保健支出的函数:
高中以下: 高中:
大学及其以上:
E(Yi|Xi,D1i=0,D2i=0)=β0+β1Xi E(Yi|Xi,D1i=1,D2i=0)=(β0+β2 )+β1Xi
E(Yi|Xi,D1i=0,D2i=1)=(β0+β3 )+β1Xi
假定3 2 0 ,且 0 0 ,则其几何意义如图1所示。
设
1 正常年份
Dt=
0 反常年份
则消费模型可建立如下:Ct 0 1Xt 2Dt Xt t
这里,虚拟变量 Dt 以与 Xt 相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。
在E(μt)=0的假定下,上述模型所表示的函数可化为: 正常年份: E(Ct Xt , Dt 1) 0 (1 2)Xt 反常年份: E(Ct Xt , Dt 0) 0 1Xt 假定2 0,
• 本章总结
第4章 自变量中含有定性变量的回归分析
• 4.1 只有一个虚拟变量的回归 • 4.2 含有多个虚拟变量的回归 • 4.3 分段回归
第4章 自变量中含有定性变量的回归分析
• 在社会经济研究中,由许多定性变量,比如地区、民族、 性别、文化程度、职业和居住地等。
• 可以应用它们的信息进行线性回归。 • 但是,必须现将定性变量转换为虚拟变量( (dummy
• 线性回归模型的基本假定 • 误差为独立正态分布的随机变量,其均值为零且方差相
等
(1)误差项的数学期望为0,表明估计的回归方程中不存在系统性 误差(Systematic Error);
(2)各误差项的方差相等; (3)各误差项之间的协方差为0; 以上三项基本假定一般又称为Gauss-Markov高斯-马尔柯夫条件。 (4)自变量与误差项之间的协方差为0,不存在多重共线性; (5)自变量的样本容量必须大于自变量的项数加1。
数值变量作为虚拟变量引入:有些变量虽然是数量变量,即可以获得 实际观测值,但在某些特定情况下把它选取为虚拟变量则是方便的, 以虚变量引入计量经济学模型更加合理。
譬如年龄因素虽然可以用数字计量,但如果将年龄作为资料分组的特 征,则可将年龄选作虚拟变量。
例如:家庭教育经费支出不仅取决于其收入,而且与年龄因素有关。
有相同的斜率,但有不 同的截距
图1 不同教育程度人员保健支出示意图
• (2)乘法方式——斜率的变化
• 例:根据消费理论,消费水平C主要取决于收入水平X。但 在一个较长的时期,人们的消费倾向会发生变化,尤其是在 自然灾害、战争等反常年份,消费倾向往往出现变化。这种 消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。
则其几何图形如图2所示。
图2 不同年份消费倾向示意图
如果在模型中同时使用加法和乘法两种方式引入虚拟变量, 则回归线的截距和斜率都会改变。
例如:对于改革开放前后储蓄-收入模型,可设定为
Y
Yt 0 1Dt 1Xt 2 (Dt Xt ) t
改革开放以后
其中,Y为储蓄,X为收入,Dt为虚拟变1 量改
按年龄划分为三个年龄组:6—18岁年龄组(中小学教育);19—22岁
年龄组(大学教育);其它年龄组。于是设定虚拟变量
1 6-18岁年龄组 D1= 0 其它
1 19-22年龄组 D2= 0 其它
则家庭教育经费支出模型可设定为 Yi 0 1Xi 2D1i 3D2i i
其中,Yi是第i个家庭的教育经费支出;Xi是第i个家庭的收人; 虚拟变量D1i、D2i分别表示第i家庭中是否有6—18岁和19—22岁的成员。
革开放以后
Dt= 0 改革开放以前
改革开放以前 X
图3 改革开放前后储蓄函数示意图
显然在上式中,同时使用加法和乘法两种方式引入了虚拟变
量。 在E(μt)=0的假定下,上述模型所表示的函数可化为: 改革开放以前:E(Yt|Xt,Dt=0)=α0+β1Xt
改革开放以后:E(Yt|Xt,Dt=1)=(α0+α1) +(β1 – β2 ) Xt 假定1 0且2 0, 则其几何图形如图3所示。
多元回归中的几种重要模型
• 第一部分:多重共线情况的处理
– 第3章 岭回归分析( Ridge Regression )
• 第二部分:自变量中含定性变量的处理 – 第4章 自变量中含有定性变量的回归分析
• 第三部分:因变量中含有定性变量情况的处理 – 第5章 二项Logistic回归 – 第6章 多项Logistic回归 – 第7章 有序回归(等级回归分析) – 第8章 Probit回归(概率单位回归) – 第9章 最佳尺度回归
例:考虑个人保健支出对个人收入和教育水平的回归。教育水 平考虑三个层次:高中以下,高中,大学及其以上
• 这时需要引入两个虚拟变量:
1 高中 D1= 0 其它
1 大学及其以上
D2=
0 其它
模型可设定如下:Yi 0 1Xi 2D1i 3D2i i
在 E(i ) =0的初始假定下,容易得到高中以下、高中、大学及其以上
– 比如,性别(男,女)
3. 一般而言,如果定性自变量有k个水平/类别,需要在回 归中模型中引进k-1个虚拟变量,如果引入k个虚拟变量 将会产生完全多重共线性问题(称为虚拟变量陷阱)
1 水平1
1 水平2
1 水平k 1
x1
0
其他水平
,
x2
0
其他水平 ,
,
xk 1
0
其他水平
▪ 虚拟变量作为解释变量引入模型有两种基本方式: 加法方式和乘法方式。
variable)也称哑变量或定性变量),然后再将它们引入 方程,所得的回归结果才有明确的解释意义。 • 只取0和1两个值的变量称为虚拟变量。 • 对于具有k类的定性变量来说,设虚拟变量时,我们只 设k-1个虚拟变量。
1. 回归模型中使用虚拟自变量时,称为虚拟自变量的回归
2. 当虚拟自变量只有两个水平时,可在回归中引入一个虚 拟变量