含定性变量的回归模型
第15章定性响应回归模型
假定E(ui)=0,则得到: (15.2.2)
令Pi = “Y = 1”(即事件发生)的概率,而 1-Pi = “Y = 0”(即事件不发生)的概率
则变量Yi有如下的概率分布:
10
即,Yi遵从贝努里(Bernoulli)概率分布。 我们得到:
11
如果有n次独立实验,每次成功的概率为p, 失败的概率为(1-p),并且X代表成功的次数, 那么我们就称X服从二项式分布(binomial distribution)。
18
答案:
19
但是在实际中,真实的E(Yi|Xi)是未知的,因此 权重Wi也是未知的。为了估计Wi,我们可以用下面的 二步法:
步骤1:对(15.2.1)进行OLS回归,暂时避开异方
差性问题。于是得到 =真实E(Yi|Xi)的估计值,再由
此求得Wi的估计值
。
步骤2:用估计值 作如同(15.2.9)的数据变换,
利用Pi的估计值,可以得到估计的 logit 如下:
Lˆi ln1PˆiPˆi ˆ1ˆ2Xi ui
(15.6.3)
如果Ni相当大,那么
ui ~ N[0, 1/ NiPi (1- Pi )]
(15.6.4)
因此, logit 模型的干扰项也是异方差性的。如此,我们
必须适用加权最小二乘法(WLS)。我们将使用 pˆ i 来代
5. (15.5.6)中给出的 logit 模型的解释如下: 斜率β2度量了随着X每单位变化的L的变化,
也就是说,它说明了随着收入变化一个单位, 比如1000美元,拥有住房的对数-机会比率是 怎样变化的
截距β1是收入为零时拥有住房的对数-机会 比率的值。
33
6. 鉴于LPM假定Pi与Xi之间存在线性关系, logit 模型假定机会比率的对数与Xi之间存在 线性关系。
自变量中含有定性变量的回归分析
图1 不同教育程度人员保健支出示意图
• (2)乘法方式——斜率旳变化
• 例:根据消费理论,消费水平C主要取决于收入水平X。但 在一种较长旳时期,人们旳消费倾向会发生变化,尤其是在 自然灾害、战争等反常年份,消费倾向往往出现变化。这种 消费倾向旳变化可经过在收入旳系数中引入虚拟变量来考察。
Model
1
(Constant)
B
Std. Error
930.495 466.974
X1
387.616
62.565
X2
1262.693 314.127
a. Dependent Variable: Y
Standardized Coefficients
Beta
.931 .604
t 1.993 6.195 4.020
F 21.357
Sig. .001a
Model Summary
Adjusted Std. Error of R R Square R Square the Estimate .927a .859 .819 459.048 dictors: (Constant), X2, X1
Unstandardized Coefficients
Sig. .069 .001 .004 .005 .003 .002 .015
• 回归方程旳解释 • 当案例在两个分类变量都等于0时,即文化程度为文盲,居住地在农村
时,此种情况称为参照类(其他情况将与此进行比较),其回归方程为: • 表白全部参照类妇女年龄每上升1岁,其曾生子女数旳平均变化量为
则其几何图形如图2所示。
图2 不同年份消费倾向示意图
假如在模型中同步使用加法和乘法两种方式引入虚拟变量, 则回归线旳截距和斜率都会变化。
经验分享使用eviews做回归分析
[经验分享] 使用eview s做线性回归分析Glossa ry:ls(least square s)最小二乘法R-sequar ed样本决定系数(R2):值为0-1,越接近1表示拟合越好,>0.8认为可以接受,但是R2随因变量的增多而增大,解决这个问题使用来调整Adjust R-seqaur ed()S.E of regression回归标准误差Log likelihood对数似然比:残差越小,L值越大,越大说明模型越正确Durbin-Watson stat:DW统计量,0-4之间Mean dependent var因变量的均值S.D. dependent var因变量的标准差Akaike info criter ion赤池信息量(AIC)(越小说明模型越精确)Schwar z ctiter ion:施瓦兹信息量(SC)(越小说明模型越精确)Prob(F-statis t ic)相伴概率fitted(拟合值)线性回归的基本假设:1.自变量之间不相关2.随机误差相互独立,且服从期望为0,标准差为σ的正态分布3.样本个数多于参数个数建模方法:ls y c x1 x2 x3 ...x1 x2 x3的选择先做各序列之间的简单相关系数计算,选择同因变量相关系数大而自变量相关系数小的一些变量。
模型的实际业务含义也有指导意义,比如m1同g dp肯定是相关的。
模型的建立是简单的,复杂的是模型的检验、评价和之后的调整、择优。
模型检验:1)方程显著性检验(F检验):模型拟合样本的效果,即选择的所有自变量对因变量的解释力度F大于临界值则说明拒绝0假设。
Eviews给出了拒绝0假设(所有系统为0的假设)犯错误(第一类错误或α错误)的概率(收尾概率或相伴概率)p 值,若p小于置信度(如0.05)则可以拒绝0假设,即认为方程显著性明显。
回归分析作业
回归分析”作业注:需要使用软件的地方请都使用R!Parti 一元线性回归教材p54习题2.152.15-家保险公司十分关心其总公司营业部加班的制度,决定认真调查一下现状。
经过十周时间,收集了每周加班工作时间的数据和签发的新保单数目,x为每周新签发的保单数目,y为每周加班工作时间(小时)。
(1) 画散点图。
(2) x与y之间是否大致呈线性关系?(3) 用最小二乘法求出回归方程。
(4) 求回归标准误差■:?。
(5) 给出回归系数的置信度为95%的区间估计。
(6) 计算决定系数。
(7) 对回归方程作方差分析。
(8) 作回归系数的显著性检验。
(9) 作相关系数的显著性检验。
(10) 该公司预计下一周签发新保单X0=1000张,需要的加班时间是多少?(11) 给出Y0的置信度为95%的精确预测区间和近似预测区间。
(12) 给出E(Y 0)的置信度为95%的区间估计。
2、有一台秤,其测量结果带有随机误差。
用它分别测量A和B两个球的重量,测量结果分别为2磅和3磅;再把A和B同时放到这个秤上,测量结果为4磅。
请采用回归模型,估计出A和B的重量。
3、对于一元线性回归模型:y-飞「ix・;,请阐述如何检验下列假设是否成(1) n2;⑵卄2.Part2多元线性回归教材p87习题3•门研究货运总量y (万吨)与工业总产值x1 (亿元)、农业总产值x2 (亿元)、居民非商品支出x3 (亿元)的关系。
数据见表3.9表3.9编号货运总量y (万吨)工业总产值X1 (亿元)农业总产值X2 (亿元)居民非商品支出X3 (亿元)1 160 70 35 1.02 260 75 40 2.43 210 65 40 2.04 265 74 42 3.05 240 72 38 1.26 220 68 45 1.57 275 78 42 4.08 160 66 36 2.09 275 70 44 3.210 250 65 42 3.0(1)计算出y, X1, x2, X3的相关系数矩阵。
第十章_logit回归
第十章 logitic 回归本章导读:Logitic 回归模型是离散选择模型之一,属于多重变数分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销、会计与财务等实证分析的常用方法。
10.1 logit 模型和原理Logistic 回归分析是对因变量为定性变量的回归分析。
它是一种非线性模型。
其基本特点是:因变量必须是二分类变量,若令因变量为y ,则常用y=1表示“yes ”,y=0表示“no ”。
[在发放股利与不发放股利的研究中,分别表示发放和不发放股利的公司]。
自变量可以为虚拟变量也可以为连续变量。
从模型的角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为0,这样取值为0、1的因变量可以写作:⎩⎨⎧===事情未发生事情发生01y 我们可以采用多种方法对取值为0、1的因变量进行分析。
通常以P 表示事件发生的概率(事件未发生的概率为1-P ),并把P 看作自变量x 的线性函数。
由于y 是0-1型Bernoulli 分布,因此有如下分布:P=P (y=1|x ):自变量为x 时y=1的概率,即发放现金股利公司的概率1-P=P (y=0|x ):自变量为x 时y=0的概率,即不发放现金股利公司的概率 事件发生和不发生的概率比成为发生比,即相对风险,表现为PP odds -=1.因为是以 对数形式出现的,故该发生比为对数发生比(log odds ),表现为)1ln(P P odds -=。
对数发生比也是事件发生概率P 的一个特定函数,通过logistic 转换,该函数可以写成logistic 回归的logit 模型:)1(log )(log PP P it e -= Logit 一方面表达出它是事件发生概率P 的转换单位;另一方面,它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归模式。
根据离散型随即变量期望值的定义,可得:E(y)=1(P)+0(1-P)=P进而得到x P y E 10)(ββ+==因此,从以上分析可以看出,当因变量的取值为0、1时,均值x y E 10)(ββ+=总是代表给定自变量时y=1的概率。
logit定序回归模型
logit定序回归模型
Logit定序回归模型是一种用于分析有序分类因变量的统计模型。
在这种模型中,因变量被分为有序的类别,例如低、中、高。
Logit定序回归模型基于Logistic函数,它可以用来估计因变量落
入每个类别的概率。
这种模型的核心假设是因变量的类别之间存在
顺序关系,并且不同类别之间的距离是相等的。
在Logit定序回归模型中,自变量的系数被用来解释因变量类
别的变化。
这些系数可以告诉我们自变量的变化如何影响向更高类
别转变的概率。
通过估计这些系数,我们可以了解自变量对于因变
量的影响程度。
在实际应用中,Logit定序回归模型常常用于分析教育水平、
收入水平等有序分类变量的影响因素。
这种模型可以帮助研究者了
解不同自变量对于因变量类别的影响,从而进行政策制定或者其他
决策的支持。
需要注意的是,使用Logit定序回归模型时需要满足一些假设,比如因变量的类别之间应该是有序的,自变量与因变量之间应该是
线性关系等。
同时,在解释结果时,应该注意避免因果解释,因为
回归分析本身不能证明因果关系。
因此,在使用Logit定序回归模型时,需要仔细考虑模型的假设和结果的解释。
应用回归分析 第十章
第10章 含定性变量的回归模型10.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0-1型自变量,用SPSS 软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。
出现这种情况的原因是什么? 答:假如这个含有季节定性自变量的回归模型为:其中含有k 个定量变量,记为x i 。
对春夏秋冬四个季节引入4个0-1型自变量,记为D i ,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为:显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。
这就是所谓的“虚拟变量陷井”,应避免。
当某自变量x j 对其余p-1个自变量的复判定系数2j R 超过一定界限时,SPSS 软件将拒绝这个自变量x j 进入回归模型。
称Tol j =1-2j R 为自变量x j 的容忍度(Tolerance ),SPSS 软件的默认容忍度为0.0001。
也就是说,当2j R >0.9999时,自变量x j 将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。
而在这个模型中出现了完全共线性,所以SPSS 软件计算的结果中总是自动删除了其中的一个定性自变量。
10.2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型?答:原因有两个,以例10.1说明。
一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其tt t t kt k t t D D D X X Y μαααβββ++++++=332211110 ⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=000110010110001010010010100011)(616515414313212111k k k k k k X X X X X X X X X X X XD X,⎪⎪⎪⎪⎪⎭⎫⎝⎛=k βββ 10β⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=4321ααααα他统计推断,用一个带有虚拟变量的回归模型来进行也会更加准确,这是均方误差的自由度更多。
Logistic回归模型
Logistic 回归模型一、 分组数据的Logistic 回归模型针对0-1型因变量产生的问题,我们对回归模型应该作两个方面的改进。
第一, 回归函数应该用限制在[0,1]区间内的连续曲线,而不能再沿用沿用直线回归方程。
限制在[0,1]区间内的连续曲线很多,例如所有连续变量的分布函数都符合要求,我们常用的是Logistic 函数与正如分布函数,Logistic 函数的形式为:()1xxe f x e =+Logistic 函数的中文名称逻辑斯蒂函数,简称逻辑函数 第二、因变量y 本身只取0、1两个离散值,不适合直接作为回归模型中的因变量,由于回归函数01()i i i E y x πββ==+表示在自变量为i x 的条件下i y 的平均值,而i y 是0-1型随机变量,因而()i i E y π=就是在自变量为i x 的条件下i y 等于1的比例.这就提示我们可以用i y 等于1的比例代替i y 本身作为因变量.二,例子 在一次住房展销会上,与房地产商签订初步购房意向书的共有325n =名顾客,在随后的3个月的时间内,只有一部分顾客确实购买了房屋.购买了房屋的顾客记为1,没有购买房屋的顾客记为0,以顾客的年家庭收入为自变量x,对下面表所示的数据,序号年家庭收入(万元)x 签订意向书人数n 实际购房人数m 实际购房比例p逻辑变换p′=ln(p/(1-p))权重w=np(1-p)1 1.52580.32-0.7537718 5.442 2.532130.40625-0.37948967.718753 3.558260.448276-0.207639414.344834 4.552220.423077-0.310154912.692315 5.543200.465116-0.139761910.697676 6.539220.5641030.257829119.58974477.528160.5714290.287682076.85714388.521120.5714290.287682075.14285799.515100.6666670.693147183.333333建立Logistic 回归模型:c i x x p i i i,,2,1,)exp(1)exp(1010 =+++=ββββ,其中,c 为分组数据的组数,本例中c=9.将以上回归方程作线性变换,令)1ln(iii p p p -=' 该变换称为逻辑变换,变换后的线性回归模型为 i i i x p εββ++='10该式是一个普通的一元线性回归模型。
回归模型的假设
回归模型的假设统计回归模型是将一组变量之间的关系拟合到一个数学方程,用于研究变量之间的关系,以及预测和分析未知变量。
回归模型可以分为:简单线性回归模型、多元线性回归模型、非线性回归模型等。
统计回归模型拟合的过程依赖于其假设,任何一个有效的回归分析需要满足以下几种假设:1.性变量和定量变量要服从正态分布。
定性变量是指只有两类特征的变量,如男性和女性;而定量变量是指可以表示为实数的变量,如身高、体重等。
定性变量和定量变量都应该服从正态分布,以保证具有最佳拟合能力。
2.变量应该独立于其他自变量。
函数参数拟合时,需要保证自变量不受其他自变量的影响,即各自变量之间应为相互独立,以保证最优拟合结果。
3.差应当呈正态分布。
残差是指实际观测值与期望观测值之间的差距,也叫回归残差。
它应当服从正态分布,以保证观测值的准确性,以及误差的有效分布。
4.差应该具有均值为零的分布特性。
根据中心极限定理,残差必须具有均值为零的分布特性,以保证准确拟合模型。
5.差应具有相同的方差。
残差应该具有相同的方差,以保证模型稳定性,以更准确地拟合模型。
以上是回归模型的几种基本假设,当模型的假设条件不满足时,回归分析的结果将不可信,无法准确预测变量之间的关系。
因此,在回归模型的构建和应用过程中,应引起重视,加以考虑假设条件,以确保拟合结果的准确性。
另外,建立回归模型时,还需要考虑其他方面的因素。
首先,要考虑变量与因变量之间的关系类型,是简单线性关系、复杂非线性关系,还是超线性关系;其次,要考虑模型的选取,普通最小二乘法、最小二乘支持向量机等;最后,还要考虑参数校正、特征选择和模型评估等因素,以保证模型表现尽可能好。
因此,在建立回归模型时,需要严格满足假设条件,同时也要充分考虑类型、选取、参数校正等其他方面因素,以获得较优的拟合结果。
完善的回归模型不仅可以有效地预测变量之间的关系,而且还可以在推理据基础上更好地制定管理决策,从而实现实际目标的有效实现。
计量经济学第7章 含有定性信息的多元回归分析
第7章含有定性信息的多元回归分析:二值(或虚拟)变量在前面几章中,我们的多元回归模型中的因变量和自变量都具有定量的含义。
就像小时工资率、受教育年数、大学平均成绩、空气污染量、企业销售水平和被拘捕次数等。
在每种情况下,变量的大小都传递了有用的信息。
在经验研究中,我们还必须在回归模型中考虑定性因素。
一个人的性别或种族、一个企业所属的产业(制造业、零售业等)和一个城市在美国所处的地理位置(南、北、西等)都可以被认为是定性因素。
本章的绝大部分内容都在探讨定性自变量。
我们在第7.1节介绍了描述定性信息之后,又在第7.2、7.3和7.4节中说明了,如何在多元回归模型中很容易地包含定性的解释变量。
这几节几乎涵盖了定性自变量用于横截面数据回归分析的所有流行方法。
我们在第7.5节讨论了定性因变量的一种特殊情况,即二值因变量。
这种情形下的多元回归模型具有一个有趣的含义,并被称为线性概率模型。
尽管有些计量经济学家对线性概率模型多有中伤,但其简洁性还是使之在许多经验研究中有用武之地。
虽然我们在第7.5节将指出其缺陷,但在经验研究中,这些缺陷常常都是次要的。
7.1 对定性信息的描述定性信息通常以二值信息的形式出现:一个人是男还是女;一个人有还是没有一台个人计算机;一家企业向其一类特定的雇员提供还是不提供退休金方案;一个州实行或不实行死刑。
在所有这些例子中,有关信息可通过定义一个二值变量(binary variable)或一个0-1变量来刻画。
在计量经济学中,对二值变量最常见的称呼是虚拟变量(dummy variable),尽管这个名称并不是特别形象。
在定义一个虚拟变量时,我们必须决定赋予哪个事件的值为1和哪个事件的值为0。
比如,在一项对个人工资决定的研究中,我们可能定义female为一个虚拟变Array量,并对女性取值1,而对男性取值0。
这种情形中的变量名称就是取值1的事件。
通过定义male在一个人为男性时取值1并在一个人为女性时取值0,也能刻画同样的信息。
第9章含定性变量的回归模型
高学历家庭x2=1,低学历家庭x2=0。
§9.2 自变量定性变量回归模型的应用
回归模型(9.8)式可以分解为对高学历和对低学历家庭 的两个线性回归模型,分别为:
高学历家庭x2=1, yi=β0+β1xi1+β2+β3xi1+εi =(β0+β2)+(β1+β3)xi1+εi
t Sig. 9.757 .000 -2.65 .045 -1.69 .153
§9.2 自变量定性变量回归模型的应用
对β2的显著性检验的显著性概率Sig=0.153,β2没有通 过显著性检验,不能认为β2非零。用y对x做一元线性回归, 计算结果为:
Coeffi ci ents
(C onstant ) X
x((((
图9.1 单位成本对批量散点图
§9.2 自变量定性变量回归模型的应用
由图9.1可看出数据在生产批量xp=500时发生较大变化, 即批量大于500时成本明显下降。我们考虑由两段构成的分 段线性回归,这可以通过引入一个0-1型虚拟自变量实现。 假定回归直线的斜率在xp=500 yi=β0+β1xi+β2(xi-500)Di+εi
对一般情况,一个定性变量有k类可能的取值 时,需要引入k-1个0-1型自变量。当k=2时,只需要引 入一个0-1型自变量即可。
§9.2 自变量定性变量回归模型的应用
一、分段回归
例9.2 表9.3给出某工厂生产批量xi与单位成本yi(美元)的 数据。试用分段回归建立回归模型。
序号 1 2 3 4 5 6 7 8
§9.1 自变量中含有定性变量的回归模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
含定性变量的回归模型一、自变量中含有定性变量的回归模型在回归分析中,对一些自变量是定性变量的情形先量化处理,引入只取0和1 两个值的虚拟自变量。
例如,在研究粮食产量问题,需考虑正常年份和干旱年份,对这个问题就可以引入虚拟变量D ,令D=1表示正常年份,D=0表示干旱年份。
当在某些场合定性自变量可能取多类值时,例如考虑销售量的季节性影响,季节因素分为春、夏、秋、冬4种情况。
为了用定性自变量反映四个季度,可以引入自变量⎩⎨⎧==,其他,春季0111x x ,⎩⎨⎧==,其他,夏季0122x x ,⎩⎨⎧==,其他,秋季0133x x ,⎩⎨⎧==,其他,冬季0144x x ,如果这样引入会出现一个问题,即自变量4321,,,x x x x 之和恒等于1,构成了完全多重共线性。
所以,一个定性变量有k 类可能的取值时,只需要引入k-1个0-1型自变量。
所以在分析季节因素的时候,引入3个0-1自变量即可。
例1 某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了13户高学历家庭与14户中低学历的家庭,因变量y 为上一年家庭储蓄增加额,自变量x1为上一年家庭总收入,自变量x2表示家庭学历,高学建立y 对x1,x2的线性回归模型,回归方程为:yˆ=-7976+3826x1-3700x2 这个结果表明,中等收入的家庭每增加1万元收入,平均拿出3826元作为储蓄。
高学历家庭每年的平均储蓄额少于低学历的家庭,平均少3700元。
如果不引入家庭学历定性变量x2,仅用y 对家庭年收入x1做一元线性回归,得判定系数R^2=0.618,拟合效果不好。
家庭年收入x1是连续型变量,它对回归的贡献也是不可缺少的。
如果不考虑家庭年收入这个自变量,13户高学历家庭的平均年储蓄增加额为3009.31元,14户低学历家庭的平均年储蓄增加额为5059.36元,这样会认为高学历家庭每年的储蓄额比低学历的家庭平均少5059.36-3009.31=2050.05元,而用回归法算出的数值是3824元,两者并不相等。
用回归法算出的高学历家庭每年的平均储蓄额比低学历的家庭平均少3824元,这是在假设两者的家庭年收入相等的基础上的储蓄差值,或者说是消除了家庭年收入的影响后的差值,因而反映了两者储蓄额的真实差异。
而直接由样本计算的差值2050.05元是包含有家庭年收入影响在内的差值,是虚假的差值。
所调查的13户高学历家庭的平均年收入额为3.8385万元,14户低学历家庭的平均年收入额为3.4071万元,两者并不相等。
需要指出的是,虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意义,它仅仅用来说明观察单位的性质或属性。
二、单因素方差模型推断统计中的单因素方差分析、无交互作用的双因素方差分析和有交互作用的双因素方差分析模型,都可以转化为0-1型自变量的回归分析模型。
下面以单因素方差为例。
下面给出的先是单因素方差分析的结果。
单因素方差分析:行业因素是否影响投诉次数零售业 旅游业 航空公司 家电制造业57 68 31 44 66 39 49 51 49 29 21 65 40 45 34 77 34 56 40 58 53 51 44方差分析:单因素方差分析SUMMARY组 观测数 求和 平均 方差 零售业 7 343 49 116.6667 旅游业 6 288 48 184.8 航空公司 5 175 35 108.5 家电制造业 5 295 59162.5方差分析差异源 SS df MS F P-value F crit 组间 1456.609 3 485.536232 3.406643 0.038765 3.12735 组内 2708 19 142.526316 总计 4164.609 22将上面的单因素方差分析转化为0-1型自变量的回归分析模型。
设ij y ),,2,1(j n i =是正态总体),(2σμj N ),,2,1(c j =的样本,原假设为c H μμμ=== 210:,记jij ij y με-=,则有),0(~2σεN ij ,进而有ij j ij y εμ+=,),,2,1(j n i =,),,2,1(c j =,记∑==cj jc11μμ,μμ-=j ja ,则有ij j ij a y εμ++=,引入0-1型自变量ij x ,将上式表示为ij ic c i i ij x a x a x a y εμ++++= 2211,其中⎩⎨⎧≠===1,01,111j x j x i i 当当,⎩⎨⎧≠===2,02,122j x j x i i 当当……. ⎩⎨⎧≠===c j x c j x icic 当当,0,1,即为多元线性回归模型。
但其中存在一个问题,就是c 个自变量之和恒等于1,存在完全的多重共线性。
为此需要删除ic x 建立回归模型ij ic c i i ij x a x a x a y εμ++++=--112211 即可。
这个回归方程的显著性检验的原假设为:0:1210====-c a a a H ,由μμ-=j j a 可知。
方差分析的原假设和回归方程的假设是等价的。
作回归方程的F 检验与单因素方差分析的F 检验是等价的。
下面将刚才的例子转化为0-1型自变量的回归分析模型。
将例子的数据整理如下。
投诉次数(y ) 行业 x1x2 x3 57 零售业 1 0 0 66 零售业 1 0 0 49 零售业 1 0 0 40 零售业 1 0 0 34 零售业 1 0 0 53 零售业 1 0 0 44 零售业 1 0 0 68 旅游业 0 1 0 39 旅游业 0 1 0 29 旅游业 0 1 0 45 旅游业 0 1 0 56 旅游业 0 1 0 51 旅游业 0 1 0 31 航空公司 0 0 1 49 航空公司 0 0 1 21 航空公司 0 0 1 34 航空公司 0 0 1 40 航空公司 0 0 1 44 家电制造业 0 0 0 51 家电制造业 0 0 0 65 家电制造业 0 0 0 77 家电制造业 0 0 0 58 家电制造业 0对上面数据进行回归分析,得到结果如下所示。
SUMMARY OUTPUT回归统计Multiple R 0.591404124R Square 0.349758837Adjusted RSquare 0.24708918标准误差11.93843858观测值23方差分析df SS MS F Significance F回归分析 3 1456.609 485.5362 3.406643 0.038764525残差19 2708 142.5263总计22 4164.609Coefficients 标准误差t Stat P-value Lower 95% Upper 95% C 59 5.339032 11.05069 1.03E-09 47.82527753 70.17472 x1 -10 6.990434 -1.43053 0.168807 -24.63114617 4.631146 x2 -11 7.229084 -1.52163 0.144571 -26.13064575 4.130646 x3 -24 7.550532 -3.17858 0.004946 -39.80344407 -8.19656 从线性回归的方差分析表可以看出,单因素方差分析表和回归模型的方差分析表是一样的。
从回归系数表中还可以看出X3的回归系数与其它系数存在差异,这与方差分析的多重比较分析结果也是一样的。
所以,如果所建立的回归模型其中的自变量全是定性变量,称这样的回归模型为方差分析模型,如果模型中既包含数量变量,又包含定性变量,其中以定性自变量为主,称这样的模型为协方差模型。
三、自变量中含有定性变量的回归模型的应用1、分段回归在实际问题中,会碰到某些变量在不同的影响因素范围内变化趋势截然不同,例如经济问题涉及经济政策较大调整时,调整前与调整后的变化幅度会有很大不同。
对于这种问题,有时用多种曲线拟合效果仍不能令人满意。
如果做残差分析,会发现残差不是随机的,而具有一定的系统性。
对这类问题可以考虑分段回归的方法来处理。
例:做出y 与x1的散点图,可以看出当生产批量大于500时,成本可能服从另一种线性关系,可以考虑由两段构成的分段线性回归,这可以通过引入一个0-1型虚拟自变量实现。
假定回归直线的斜率在x=500处改变。
则可以建立回归模型:ii i i i D x x y εβββ+-++=)500(210,其中⎩⎨⎧≤=>=500,0500,1i i i i x D x D 当当,为了方便起见,引入两个新的自变量x1,x2。
这有i i x x =1,i i i D x x )500(2-=,其中x1为生产批量,x2数值列在表中,这样回归模型可以转化为i i i i x x y εβββ+++=22110,该式子可以分解为两个线性回归方程:当5001≤x 时,110)(x y E ββ+=,当5001>x 时,则得到12120)()500()(x y E ββββ++-=,于是1β和21ββ+分别是两条回归线的斜率,0β和20500ββ-是2个y 的截距。
用普通最小二乘法拟合回归方程得:yˆ=5.895-0.00395x1-0.00389x2,利用模型可说明生产批量小于500时,每增加1个单位批量,单位成本降低0.00395;生产批量大于500时,每增加1个单位批量,单位成本降低0.00395+0.00389=0.00784美元;这里只是为了说明分段回归的方法,进一步做统计检验会发现x2的系数并不显著,这里不过多讨论。
2、回归系数相等的检验在第一个例子的问题中,引入0-1型自变量的方法是假定储蓄增加额y 对家庭收入的回归斜率1β与家庭年收入无关,家庭年收入只影响回归常数项0β,这个假设是否合理,还需要作统计检验,检验方法是引入如下含有交互效应的回归模型ii i i i i x x x x y εββββ++++=21322110,其中y 为上一年家庭储蓄增加额,x1为上一年家庭总收入,x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。
所以回归模型可以分解为对高学历和对低学历家庭的两个线性回归模型,分别为:高学历家庭x2=1: i i i x y εββββ++++=13120)()(低学历家庭x2=0: i i i x y εββ++=110 可见,高学历家庭的回归常数为20ββ+,回归系数为31ββ+;低学历家庭的回归常数为0β,回归系数为1β。
要检验这两个回归方程的回归系数相等,等价于检验回归模型参数的假设检验0:30=βH ,当拒绝0H 时,认为3β≠0,这时高学历与低学历家庭的储蓄回归模型实际上被拆分为两个不同的回归模型。