第七章回归案例
第七章╲t 回归间断点
In增se加rt t相ex互t 作用 here的项
历史
选择工具
成熟
对内部效度 的威胁
Mortality
三、回归间断与随机实验的结合
这种结合有以下几种方式: 第一,在截断值一侧的参与者实验作为实验组,剩下的则
作为对照组。 第二,增加一个回归间断点设计到一个已经使用可以量化
的截断值的随机实验中。那么些没有通过截断值可以作为回归 间断控制被保存而不是被放弃。
这种结合的优点:
第一,随机化可以增强实验处理效果的测试效力。
第二,它允许对实验组与对照组的参与者的回归直线 估计在相同的分配值范围内。
第三,当截断的设置不清晰时,它有助于改善这个问题
四、回归间断与准实验设计的结合
当做非等组比较的准实验设计时,这种结合就会特别有用, 而且,在准实验中增加回归间断点设计会对那些需要准实验给 予他们判断力的人更有实践意义。增加回归间断提高从准实验 中得出估计的效力。
二、回归间断点设计的理论
在随机实验中使用间断点回归去估计效果 回归间断作为一个选择过程的完整模型
三、对效度的威胁
1.回归间断点设计(RD)与间断的时间序列设计(ITS)
在间断时间序列和回归间断点设计中,效果都是在连续变 量上一个特定的点上发生的。在ITS中,时间是一个连续变量, 而在RD中,赋值变量是连续变量。在ITS中,干预发生在已知 的时间点上,在RD中,它发生在一个已知的截断值上,如果实 验处理在ITS中是有效的,它可以改变实验处理发生那个点上 时间序列的斜度或是平均值,在RD中,则会改变回归线的斜率 和截距。因此,在RD中对于效度的威胁和在ITS中对于效度的 威胁不会有多大的不同,在很多方面都相似。在简单的间断的 时间序列设计中,最大的威胁是具体的那个点,即干预发生的 时间点。成熟和选择对效度的威胁不是很大,而历史和工具则 会效度的威胁很大,这些同样也对RD的效度产生威胁。
第7章 相关与回归分析。
第七章相关与回归分析学习内容一、变量间的相关关系二、一元线性回归三、线性回归方程拟合优度的测定学习目标1. 掌握相关系数的含义、计算方法和应用2. 掌握一元线性回归的基本原理和参数的最小二3. 掌握回归方程的显著性检验4. 利用回归方程进行预测5. 了解可化为线性回归的曲线回归6. 用Excel 进行回归分析一、变量间的相关关系1. 变量间的关系(函数关系)1)是一一对应的确定关系。
2)设有两个变量x和y,变量y 随变量x一起变化,并完全依赖于x,当变量x 取某个数值时,y依确定的关系取相应的值,则称y 是x的函数,记为y = f (x),其中x 称为自变量,y 称为因变量。
3)各观测点落在一条线上。
4)函数关系的例子–某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价)。
–圆的面积(S)与半径之间的关系可表示为S = π R2。
–企业的原材料消耗额(y)与产量x1、单位产量消耗x2、原材料价格x3间的关系可表示为y =x1 x2 x3。
单选题下面的函数关系是()A、销售人员测验成绩与销售额大小的关系B、圆周的长度决定于它的半径C、家庭的收入和消费的关系D、数学成绩与统计学成绩的关系2. 变量间的关系(相关关系)1)变量间关系不能用函数关系精确表达。
2)一个变量的取值不能由另一个变量唯一确定。
3)当变量 x 取某个值时,变量 y 的取值可能有几个。
4)各观测点分布在直线周围。
5)相关关系的例子–商品的消费量(y)与居民收入(x)之间的关系。
–商品销售额(y)与广告费支出(x)之间的关系。
–粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度 (x3)之间的关系。
–收入水平(y)与受教育程度(x)之间的关系。
–父亲身高(y)与子女身高(x)之间的关系。
3. 相关图表1)相关表:将具有相关关系的原始数据,按某一顺序平行排列在一张表上,以观察它们之间的相互关系。
2)相关图:也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用点描绘出来,通常以直角坐标轴的横轴代表自变量x,纵轴代表因变量y。
第七章 回归正交试验设计
个因素之间的函数关系。
因素水平编码表
自然变量xj 规范变量zj 1 -1 0 △j x1 700 300 500 200 x2 2400 1800 2100 300 x3 10 8 9 1
7.1.2一次回归方程的建立
设总的试验次数为N,其中原正交表所规定的二水平试验次数为 mc,零水平试验次数为m0,即有: N 建立回归方程
m
mc m0
ˆ a b j x j bkj xk x j,k 1,2,, m 1( j k ) y
j 1 k j
其系数的计算公式如下:
将被剔除变量的偏回归平方和、自由度并入到剩余平方和与自由度中,
然后再进行相关的方差分析计算。具体例子见书P126~129例8-1。
7.1 一次回归正交试验设计及结果分析
14
用石墨炉原子吸收分光光度计法测定食品中的铅,为提高吸光度,
对x1(灰化温度/℃)、x2(原子化温度/℃)和x3(灯电流/mA)三个
F0.05(1,6)=5.99 F0.01(1,6)=13.74
可见因素z2对指标影响高度显著,所建的回归方程高度显著:
y 0.50475 0.03375z2
7.1 一次回归正交试验设计及结果分析
N 1 SST Lyy ( yi y ) 2 yi2 ( yi ) 2 N i 1 i 1 i 1 N N
7.1 一次回归正交试验设计及结果分析
10
②一次项zj偏回归平方和
SS j m b ,j= 1 , 2, ,m
第七章回归方程的变量和形式
(1.00***) (1.58***)
7.3 包含虚拟变量的回归模型
2、虚拟变量模型 (2)协方差分析模型(ANCOVA)。指引入虚拟变量后,
回归方程中同时含有一般解释变量和虚拟变量的模型。 例如
yi 1 2Di 3xi ui
其中y为大学教师的年薪,x为教龄,D=1表示男教师, D=0表示女教师,通过求期望可以得到男女教师的平 均年薪。
注意的几个问题:
在模型中引入多个虚拟变量时,虚拟变量的个数应按 下列原则确定:如果模型中含有常数项,对于有 m 种 互斥的属性类型,在模型中引入 m-1 个虚拟变量,即 每个虚拟变量的个数要比该变量的分类数少1。例如性 别有2个互斥的属性,引用2-1=1个虚拟变量。否则就 会陷入虚拟变量陷阱,存在完全的多重共线性,不能 得到参数的唯一估计值。
7.3 包含虚拟变量的回归模型
1、模型中引入虚拟变量的必要性
计量经济学模型,需要经常考虑属性因素(定性变量)的 影响。例如职业、战争与和平、繁荣与萧条、文化程度、 灾害等;这些变量往往很难直接度量它们的大小,只能建 立人工变量给予赋值:“D=1”或”D=0”、或者它们的程度 或等级
回归模型中有必要引入虚拟变量,以表示这些质的区别。 例如消费函数,对于平时与战时,萧条与繁荣,乃至性别、 教育程度、季节性等等,都会因质的不同表现出不同的差 异。
(1)首先简单做Y(抵押贷款债务)对X2(个人收入) 回归,得到以下结果
7.1 回归方程中遗漏和冗余变量问题
Yˆ 861.7 0.9293X 2 (122.5***) (0.0287***)
R2 0.987 R2 0.986
(2)将抵押债务Y对收入和抵押费用同时回归,得到以 下结果
7 岭回归
当自变量间存在复共线性时,|X′X|≈0, 我们设想给X′X加上一个正常数矩阵kI,(k>0), 那么X′X+kI接近奇异的程度就会比X′X接近奇异的程度 小得多。
考虑到变量的量纲问题,我们先对数据做标准化, 为了记号方便,标准化后的设计阵仍然用X表示
中曾研究死亡率与空气污染、气候以及社会经济状况等因素
的关系。考虑了15个解释变量,收集了60组样本数据。
x1—Average annual precipitation in inches 平均年降雨量 x2—Average January temperature in degrees F 1月份平均气温 x3—Same for July 7月份平均气温 x4—Percent of 1960 SMSA population aged 65 or older 年龄65岁以上的人口占总人口的百分比 x5—Average household size 每家人口数 x6—Median school years completed by those over 22 年龄在22岁以上的人受教育年限的中位数
第七章 岭回归
7.1 岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析 7.4 岭参数k的选择 7.5 用岭回归选择变量 7.6 本章小结与评注
§7.1 岭回归估计的定义
一、普通最小二乘估计带来的问题
当自变量间存在复共线性时,回归系数估计的方差就 很大, 估计值就很不稳定,下面进一步用一个模拟的例
§7.2 岭回归估计的性质
在本节岭回归估计的性质的讨论中,假定(7.2) 式中因变量观测向量y未经标准化。
性质 1 βˆ(k)是回归参数β 证明: E[βˆ(k)]=E[(X′X+kI)-1X′y]
一个回归分析法应用例
P0
p
C点的弹性为:0 B点的弹性为:-1
O
Q0
C
A、B两点之间弹性介于负无穷大与-1 之 间,需求量有弹性;B、C两点之间弹性 介于(-1,0)之间,需求量缺乏弹性。
3、价格弹性与收益的关系
需求函数:Q=f(P) 总收益: TR=P.Q 边际收益: MR=d(TR)/dQ=P+dP/dQ.Q=P+PdP/dQ.Q/P =P+P.1/E=P(1+1/E)=P(1-1/[E]) 可见: 当[E]〈1时,MR〈0,此时Q增加,总收益下降;Q减 少,总收益上升。 当[E]=1时,MR=0,此时Q增加,总收益不变。 当[E]〉1时,MR〉0,此时Q增加,总收益上升;Q减 少,总收益下降。
MU/P 1/3 (假设:保龄球每局 10 元,健身每半小时 30 元) 问:若花费 140 元和 90 元呢?
I Px X PyY
购 买 量 和 价 格 的 对 应 关 系 曲 线 。
消 费 者 获 得 最 大 满 足 条 件 下 ,
需求曲线和消费者剩余
一、需求曲线的导出
需 求 曲 线
除商品 x 的价格外其他条件不变条件下,消费者均衡条件是:
计算公式为:
Q
p p0 lim
P
Q P
dQ P dP Q
例:已知需求方程为: P 1,000 4Q 确定价格为200时的需求价格弹性。
解:当P=200时,Q=200
dQ P P dP Q 1 200 4 200 0.25
弧弹性:是需求曲线上两点之间的平均弹性。
率 代无 表差 着异 偏曲 好线 位 置 和 斜
第七章多元回归分析文稿演示
E( ξ i)=0 var(ξ i)=E(ξ i -E(ξ i))2=E(ξ i)2=σ2 ❖ 随机误差项在不同样本点之间是相互独立的,不存在 序列相关
cov(ξ i, ξ j)=0 i≠j i,j=1,2,…n cov(ξ i, ξ j)=E((ξ i -E(ξ i)(ξ j -E(ξ j))
XXB XY
Bˆ XX1 XY
❖ 以上是通过使用最小二乘法(OLSE)对回归参
数进行的估计,得到的回归参数的最小二乘估
计为
B(X'X)1X'Y
❖ 在正态假定下,回归参数
B
的最大似然估计
(MLE)与最小二乘法(OLSE)是完全相同
的
三、回归方程的效果的检验 ❖ 方程显著性检验 ❖ 回归系数显著性检验 ❖ 拟合优度
(2)构造统计量
F SSR/ p
SSE/(n p1)
(3)检验 给定显著性水平α,查F分布表
若F>Fα,拒绝H0,表明回归总体有显著性关系. 若F<F α,接受原假设,表明不存在线性关系
❖ 2.回归系数显著性检验
❖ 回归系数显著性检验,是对每个解释变量进行检验.
❖ 如果解释变量对被解释变量的影响不显著,应从模型中 删除,如果解释变量对被解释变量的影响显著,应保留在 模型中.
❖令
Q
2 i
Q bˆ
0
Q 即 bˆ0
2
yi bˆ0 bˆ1x1i bˆp x pi 0
Q
bˆ1
2
yi bˆ0 bˆ1x1i bˆp x pi x1i 0
Q
bˆp
2
yi bˆ0 bˆ1x1i bˆp x pi x pi 0
回归分析课件-第七章
第七章 多元线性回归模型的有偏估计
性质7.4的证明
并且
ˆ k trCov ˆ k E ˆ k MSE
2
i 1
p
i
i
k
2
k
2
i 1
p
i2
i
k
2
ˆ g1 k g 2 k ˆ g k
1949 年-1959 年法国进口总额与相关变量的数据 x1 149.3 171.5 175.5 180.8 190.7 202.1 202.1 212.4 226.1 231.9 239.0 x2 4.2 4.1 3.1 3.1 1.1 2.2 2.1 5.6 5.0 5.1 0.7 x3 108.1 114.8 123.2 126.9 132.1 137.7 146.0 154.1 162.3 164.3 167.6
第七章 多元线性回归模型的有偏估计
LS 估计的性能效果与设计矩阵 X 有关,当
R X X 接近是一个奇异阵时,即呈现所谓
的“病态”时,LS 估计的性能变坏。
上海财经大学 统计与管理学院 2
第七章 多元线性回归模型的有偏估计
例 7.2
表 7.1 是 Malinvand 于 1966 年提出的研究法国经济
上海财经大学 统计与管理学院 6
第七章 多元线性回归模型的有偏估计
将 x3 看作因变量, x1 自作解释变量,那么 x3 关于 x1 的一元线性回归方 程为
x3 60258 0.686x1 ,
这说明当 x1 变化时, x3 不可能保持一个常数,因此对回归系数的解释 就复杂了,不能仅从其符号上作解释, x1 与 x3 之间存在着多重共线性 关系,
统计学 第 七 章 相关与回归分析
(一)回归分析与相关分析的关系
回归分析与相关分析是研究现象 之间相互关系的两种基本方法。
区别:
1、相关分析研究两个变量之间相关的 方向和相关的密切程度。但是相关分析不 能指出两变量相互关系的具体形式,也无 法从一个变量的变化来推测另一个变量的 变化关系。
2、按研究变量多少分为单相关和 复相关
单相关即一元相关,亦称简单相 关,是指一个因变量与一个自变量 之间的依存关系。复相关又称多元 相关,是指一个因变量与两个或两 个以上自变量之间的复杂依存关系。
3、按相关形式分为线性相关和非 线性相关
从相关图上观察:观察的样本点的 分布近似表现为直线形式,即观察点近 似地分布于一直线的两边,则称此种相 关为直线相关或线性相关。如果这些样 本点近似地表现为一条曲线,则称这种 相关为曲线相关或非线性相关(curved relationship).
不确定性的统计关系 —相关关系
Y= f(X)+ε (ε为随机变量)
在这种关系中,变量之间的关系值 是随机的,当一个(或几个)变量的值 确定以后,另一变量的值虽然与它(们) 有关,但却不能完全确定。然而,它们
之间又遵循一定的统计规律。
相关关系的例子
▪ 商品的消费量(y)与居民收入(x)
之间的关系
▪ 商品销售额(y)与广告费支出(x)
▲相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。
▲相关系数不能确定变量的因果关系,也不能 说明相关关系具体接近于哪条直线。
例题1: 经验表明:商场利润额与 其销售额之间存在相关关系。下表为 某市12家百货公司的销售额与利润额 统计表,试计算其相关系数。
统计学第7章 相关与回归分析 (2)
20 50 20 30 50 20 50 40 20 80 40 20 50 80 30 单位成本(元/小时) 16 16 18 16 15 18 15 14 16 14 15 16 14 15 15
完成量(小时)
整理后有
20 20 20 20 20 20 20 20 20 30 30 30 30 30 40 单位成本(元/小时) 15 16 16 16 16 18 18 18 18 15 15 15 16 16 14
rXY
样本相关系数
通过X和Y的样本观测值去估计样本相关系 数变量X和Y的样本相关系数通常用 r 表示
r
rXY
( x x )( y y ) (x x) ( y y)
2
2
特点:样本相关系数是根据从总体中抽取的随机样 本的观测值计算出来的,是对总体相关系数 的估计,它是个随机变量。
例:为了研究分析某种劳务产品完成量与其单位 产品成本之间的关系,调查30个同类服务公司得到的 原始数据如表。 相关表:将自变量x的数值按照从小到大的顺序,并 配合因变量y的数值一一对应而平行排列的表。
20 30 20 20 40 30 40 80 80 50 40 30 20 80 50 单位成本(元/小时) 18 16 16 15 16 15 15 14 14 15 15 16 18 14 14
根据相关关系的方向划分
1、正相关。指两个因素(或变量)之间的变化方向 一致,都是呈增长或下降的趋势。即自变量x的值 增加(或减少),因变量y的值也相应地增加(或 减少),这样的关系就是正相关。例如,工业总 产值增加,企业税利总额也随之增加;家庭消费 支出随收入增加而增加等。 2、负相关。指两个因素或变量之间变化方向相反, 即自变量的数值增大(或减小),因变量随之减 小(或增大)。 如劳动生产率提高,产品成本降 低;产品成本降低,企业利润增加等。
统计学 第七章 相关与回归分析
数 值 说 明
完全负相关
无线性相关
完全正相关
-1.0
-0.5
0
+0.5
正相关程度增加
+1.0
r
负相关程度增加
通常:当相关系数的绝对值: 通常:当相关系数的绝对值: 小于0.3 小于0.3时,表示不相关或微弱相关 0.3时 介于0.3 0.5, 介于0.3至0.5,表示低度相关 0.3至 介于0.5 0.8,表示显著(中度) 介于0.5至0.8,表示显著(中度)相 0.5至 关 大于0.8Lxx Lyy
r=
n ∑ xy − ∑ x ⋅ ∑ y n ∑ x 2 − (∑ x ) 2 ⋅ n ∑ y 2 − (∑ y ) 2
r=
∑ ( x − x )( y − y) ∑ ( x − x )2 ∑ ( y − y)
2
( x − x )( y − y) = ∑ xy − 1 ∑ x ∑ y ∑ n
第二节
定性分析
相关分析的方法
是依据研究者的理论知识和实践经 验,对客观现象之间是否存在相关 关系,以及何种关系作出判断。 关系,以及何种关系作出判断。 在定性分析的基础上,通过编制相 在定性分析的基础上, 关表、绘制相关图、计算相关系数 等方法, 等方法,来判断现象之间相关的方 向、形态及密切程度。 形态及密切程度。
xy
( y − y) 2 ∑
σ xσ y
3.相关系数的其他公式 相关系数的其他公式
• (1)积差法公式: )积差法公式: • • (2)积差法简化式: )积差法简化式: r= • • (3)简捷公式: )简捷公式: •
∑ ( x − x)( y − y) r=
nσ xσ y
∑ ( x − x )( y − y ) ∑ (x − x) ⋅ ∑ ( y − y)
第七章 多元回归分析-虚拟变量
• • • • • • • • • • 模型 y = β0 + β1x1 + β2x2 + . . . βkxk + u 虚拟变量 表示两个类型的虚拟变量 表示多个类型的虚拟变量 虚拟变量之间的交叉项 虚拟变量和连续变量的交叉项 Chow检验 线性概率模型 项目评估和自选择偏差
多个数值的类型变量(续)
• 任何类型变量都可以变成一组虚拟变量 • 因为参照组由常数项表示了, 那么如果一共 有n 个类型,就应该由n – 1 虚拟变量 • 如果有太多的类型,通常应该对其进行分 组 • 例:前10 , 11 – 25, 等
虚拟变量之间的交叉项
• 求虚拟变量的交叉项就相当于对样本进行进一 步分组 • 例:有男性(male)的虚拟变量和hsgrad (仅仅中学毕业) 和 colgrad (大学毕业)的 虚拟变量 • 加入 male*hsgrad 和 male*colgrad, 共有五个 虚拟变量 –> 共有六种类型 • 参照组是女性中学辍学的人 • 此时hsgrad 代表女性仅仅中学毕业者, colgrad 表示女性大学毕业者 • 交叉项表示男性仅仅中学毕业者和男性大学毕 业者
事实上是经济过程检验
• 做模型回归时我们假设所有的样本观测值 都来自同一个总体,如果总体发生改变, 那么模型参数也将发生改变,因此检验总 体也就是经济过程是否发生改变是用计量 进行经济研究的主要步骤。或者是在进行 经济计量研究时必须考虑的一个重要步 骤。其具体方法是:
• 假设我们在1到n个时期研究经济的结构关系,得到如 下的回归模型: Y=b0+b1X1+b2X2+…+bkXk+e 在第q期(1<q < n)曾出台一个经济政策,为检验该 经济政策是否影响我们所研究的经济结构可作如下检 验: 1、用1到q个观测值对模型进行回归,得到回归残差的平 方和,记为ESS1;用q+1到n个观测值对模型进行回 归,得到回归残差平方和,记为ESS2,并令 ESSUR= ESS1+ ESS2。 2、用1到n个观测值对模型进行回归,得到回归残差平方 和,记为ESSR,这可用下面的F统计量检验在k时期出 台的经济政策是否导致经济结构变化: ( ESS R − ESSUR ) / k F ( k , n − 2k ) = ESSUR /(n − 2k )
生物统计学:第七章 直线回归与相关分析
特别要指出的是:利用直线回归方程进行预 测或控制时,一般只适用于原来研究的范围,不 能随意把范围扩大,因为在研究的范围内两变量 是直线关系,这并不能保证在这研究范围之外仍 然是直线关系。若需要扩大预测和控制范围,则 要有充分的理论依据或进一步的实验依据。利用 直线回归方程进行预测或控制,一般只能内插, 不要轻易外延。
(三)、相关系数的显著性检验
统计学家已根据相关系数r显著性t检验法计算出了 临界r值并列出了表格。 所以可以直接采用查表法对相 关系数r进行显著性检验。
先根据自由度 n-2 查临界 r 值 ( 附表8 ), 得 r0.05(n2) ,r0.01(n2)。若|r|< r0.05(n2),P>0.05,则相 关系数r不显著,在r的右上方标记“ns”;若 r0.05(n2) ≤|r|< r0.01(n2) ,0.01<P≤0.05,则相关系数 r 显 著,在r的右上方标记“*”;若|r|≥ r0.01(n2) ,P ≤ 0.01, 则相关系数 r 极显著,在 r 的右上方标记 “**”。
第七章 直线回归与相关分析
在试验研究中常常要研究两个变量间的关系。 如:人的身高与体重、作物种植密度与产量、食品价格与需
求量的关系等。 两个关系 依存关系:依变量Y随自变量X变化而变化。
—— 回归分析 互依关系:依变量Y与自变量X间的彼此关系.
—— 相关分析
一 直线回归
(一)、直线回归方程的建立 对于两个相关变量x和y,如果通过试验或调查 获得它们的n对观测值: (x1,y1),(x2,y2),……,(xn,yn) 为了直观地看出x和y间的变化趋势,可将每一 对观测值在平面直角坐标系描点,作出散点图。
y)2 y)2
SPxy 2 SSxSS y
SPxy SS x
第7章__分位数回归模型的理论与应用
t:yt X ˆ( )
不可微,因此传统的对目标函数求导的方法不再适用。估计分位数回归方
程参数 βˆ( ) 的一种较好的方法是线性规划方法。
基于 Barrodale 和 Roberts (1973,以下简写为 BR)提出的单纯形法 (simplex algorithm),Koenker 和 D’Orey(1987)提出一种估计分位数回归 系数的方法。EViews 中应用的是 BR 算法的改进形式。
T
T
T
Q
0.5( yt X βˆ(0.5) )
0.5( yt X βˆ(0.5) ) 0.5 yt X βˆ(0.5)
t:yt X ˆ(0.5)
t:yt X ˆ(0.5)
t 1
yˆ (0.5)t = X t βˆ(0.5) 称作中位数回归方程, βˆ(0.5) 称作中位数回归系数估计量。
a
a
E( yt ) = -
(y ) f (y) dy
(y ) f (y)dy = -
f (y)d y
f ( y)dy
-
-
= dF( y) - dF( y) = F ( ) -[1- dF( y)] F ( ) - (1- F ( )) 2F ( ) -1
-
-
式(1)求极小的一阶条件是 E( yt ) = 0,即 2F() -1 =0, F() 0.5 。这意味着等于中位数
对于不同分位数回归函数如果回归系数的差异很大,说明在不同分位 数上解释变量对被解释变量的影响是不同的。
4. 分位数回归(Quantile Regression)模型的估计
由于目标函数(15.3)
T
T
Q
(1 )(yt X βˆ ( ) )
计量经济学第7章 含有定性信息的多元回归分析
第7章含有定性信息的多元回归分析:二值(或虚拟)变量在前面几章中,我们的多元回归模型中的因变量和自变量都具有定量的含义。
就像小时工资率、受教育年数、大学平均成绩、空气污染量、企业销售水平和被拘捕次数等。
在每种情况下,变量的大小都传递了有用的信息。
在经验研究中,我们还必须在回归模型中考虑定性因素。
一个人的性别或种族、一个企业所属的产业(制造业、零售业等)和一个城市在美国所处的地理位置(南、北、西等)都可以被认为是定性因素。
本章的绝大部分内容都在探讨定性自变量。
我们在第7.1节介绍了描述定性信息之后,又在第7.2、7.3和7.4节中说明了,如何在多元回归模型中很容易地包含定性的解释变量。
这几节几乎涵盖了定性自变量用于横截面数据回归分析的所有流行方法。
我们在第7.5节讨论了定性因变量的一种特殊情况,即二值因变量。
这种情形下的多元回归模型具有一个有趣的含义,并被称为线性概率模型。
尽管有些计量经济学家对线性概率模型多有中伤,但其简洁性还是使之在许多经验研究中有用武之地。
虽然我们在第7.5节将指出其缺陷,但在经验研究中,这些缺陷常常都是次要的。
7.1 对定性信息的描述定性信息通常以二值信息的形式出现:一个人是男还是女;一个人有还是没有一台个人计算机;一家企业向其一类特定的雇员提供还是不提供退休金方案;一个州实行或不实行死刑。
在所有这些例子中,有关信息可通过定义一个二值变量(binary variable)或一个0-1变量来刻画。
在计量经济学中,对二值变量最常见的称呼是虚拟变量(dummy variable),尽管这个名称并不是特别形象。
在定义一个虚拟变量时,我们必须决定赋予哪个事件的值为1和哪个事件的值为0。
比如,在一项对个人工资决定的研究中,我们可能定义female为一个虚拟变Array量,并对女性取值1,而对男性取值0。
这种情形中的变量名称就是取值1的事件。
通过定义male在一个人为男性时取值1并在一个人为女性时取值0,也能刻画同样的信息。
第七章 岭回归分析
MSE[
(k
)]
MSE
(
ˆ
)
即
p
E[ j (k) j ]2
p
D(ˆ j )
j 1
j 1
§3 岭迹分析
当岭参数 k 在 (0, ) 内变化时,ˆ j (k)是k 的函数, 在平面坐标系上把函数 ˆ j (k) 描画出来,画出的曲线称
为岭迹。由于尚未找到一种公认的最优选择 k 的方法, 所以在实际应用中,可以根据岭迹曲线的变化形状来确 定适当的 k 值和进行自变量的选择。
用最小二乘法求出回归参数的估计值为
ˆ0 11.292, ˆ1 11.307, ˆ2 6.591,
而原模型的参数为
0 10, 1 2, 3 3,显然相差很大;
计算 X1, X 2 的样本相关系数为 r12 0.986, 表明X1, X 2 之间高度相关.
岭回归的定义
当自变量间存在多重共线性, X X 0 时,设想给 X X 加上一个 正常数矩阵 kI (其中k 0) ,则 X X kI 接近奇异的程度就会比 X X
中 k=0.5 时,岭迹已算平稳,这时 ˆ1(0.5) 2.06已相当接近真值2 , 但此时 ˆ2 (0.5)=1.49与真值3还相差很大 。
岭迹法的缺点是:缺少严格的理论依据; 岭迹法的优点是:发挥了定性分析和定量
分析的有机结合.
方差扩大因子法
记 R 2 j 为自变量 x j 对其余 p 1 个自变量作回 归拟合的复决定系数。这里 R2 j 度量了 x j 与其余 p 1 个变量的线性相关程度。可以证明:
岭迹法
选择k值的一般原则是: 各回归系数的岭估计基本稳定; 用最小二乘估计时符号不合理的回归系数,
其岭估计的符号变得合理; 回归系数没有不合乎经济意义的绝对值; 残差平方和增大不太多.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
y ) 2 /(n p 1)
( y
i
y) 2 ( yi y) 2 ( yi yi ) 2 )
零阶相关系数: Zero Order 计算所有自变量与因变量间相关系数 部分相关系数: 在排除了其他变量对因变量影响后, 当一个自变量进入 回归方程后, 复相关系数平方的增加量. 偏向关系数: 在排除了其他变量的影响后, 自变量 x 对因变量的相关 程度.
回归分析的菜单选项及说明:
在回归过程中包括:
Liner:线性回归 Curve Estimation:曲线估计 Binary Logistic: 二分变量逻辑回归 Multinomial Logistic:多分变量逻辑回归 Ordinal 序回归 Probit:概率单位回归 Nonlinear:非线性回归 Weight Estimation:加权估计 2-Stage Least squares:二段最小平方法 Optimal Scaling 最优编码回归
1. 回归方程:
y b0 b1 x1 ... bn xn
2
( y y) 2. 相关参数:复相关系数 R, R == ( y y)
i i
2 2
调整的判定系数 Adjusted R Square (因 SST=SSA+SSE
R =1—
2
(y
(y
i
i
y) 2 / p
4. 回归方程的建立 Enter 所有变量都进入方程(全模型) Remove 根据设定好的条件, 删除部分变量, 通常根据变量 与模型的相关性 Forward 向前选择 根据条件从无自变量开始逐个选择适 合的变量进入模型 Backward 向后剔除法 根据条件从全模型中逐个剔除变量 Stepwise 逐步进入法 注:衡量变量在回归模型中作用的大小,一般用偏回归平 方和刻画,令S(i1, i2, … , ik)表示方程中有变量(i1, i2, … , ik)时 残差平方和,则第 i个变量的偏回归平方和定义为: Pi2= S(i1, i2, …im-1,im+1,… , ik)—S(i1, i2, … , ik) Pi越大表明该变量越重要。)
Hale Waihona Puke 第一节 Linear过程7.1.1 主要功能 调用此过程可完成二元或多元的线性回归分 析。在多元线性回归分析中,用户还可根据 需要,选用不同筛选自变量的方法(如:逐 步法、向前法、向后法,等)。 一元线性回归方程: y a bx
多元线性回归方程: y b0 b1 x1 ... bn xn
回归的分类: 按是否线性分:线性回归模型和非线性回归 模型。 按自变量个数分:简单的一元回归,多元回 归。 利用SPSS得到模型关系式,是否具有适用性 ,要看回归方程的显著性检验(F检验)和回 归系数b的显著性检验(T检验),还要看拟合 程度R2 (相关系数的平方,一元回归用R square ,多元回归用Adjusted R Square)
一元线性回归方程的检验 回归系数显著性检验: 1.斜率、截距的检验 y a bx 零假设: H0 : a 0; H1 : a 0 t—检验 计算检验统计量样本值 t* 计算显著性概率 P{|t|<t*}=sig 并由此作结论: 2. 回归效果的 R 2 判定系数
R2
( y i y) 2
= ( yi y ) 2
方差分析:利用总平方和分解办法测定自变量与随机 因素引起的差异的大小比较的检验法 : 原假设 H0: 回归系数为零 构造 F 统计量 F=MSA/MSE 计算 F 的样本值 F 计算显著性概率
*
P{F>F*}=sig 并由此作结论:
误差项独立性检验: Durbin-Watson 检验 检验值 D D=2 D>2 D<2 0<D<4 残差与自变量独立 负相关 正相关
3. 多元回归的假设检验: 回归方程的显著性检验: F 检验 原假设: 所有回归系数均为零, 备择假设 : 至少有一个不为零 检验统计量: F=
(y (y
i
i
yi ) 2 /(n p 1)
y) 2 / p
计算统计量的样本值 F* 计算概率: 作结论: 偏回归系数与常数项的显著性检验: 方差齐性检验: 检验残差的分布是否与自变量取值无关 该软件通过绘制残差与自变量的散点图象观察 (因为数据 量不足,一般对自变量的不同取值只采样一次,不足以作方差分析) 残差的正态性检验: 通过残差的直方图以及累积概率 P-P 图来描述(服 从正态分布时,图形在一条斜线附近 P{F>F*}=SIG
回归方程的假设
1.数据正态性假设:误差项的分布与自变量无关,服 从均值0,方差常数的正态分布; 2.方差齐性假设:对不同的自变量取值条件下,误差分 布方差相同; 3.独立性假设:对不同的自变量取值条件下,误差分布 期望为0; 4.无自相关性假设:对不同的自变量取值条件下,误差 不相关; 5.随机误差与自变量对因变量的影响不相关;
第七章 回归分析
第一节 第二节 第三节 第四节 第五节 Linear过程 线性回归 Curve Estimation过程 曲线回归 Logistic过程 罗辑斯谛回归 Probit过程 概率单位回归 Nonlinear过程 非线性回归
回归的主要内容: 从一组样本数据出发,确定这些变量间的定 量关系式; 对这些关系式的可信度进行各种统计检验; 从影响某一变量的诸多变量中,判断哪些变 量的影响显著,哪些不显著; 利用求得的关系式进行预测和控制。
5. 参入分析的观测量的选择: 利用Selection 变量的取 值实现分析中 CASE的选择 6. Statistics 选项设置: R squared Chang : 表示当回归方程中引入或剔除 一个变量后R2的改变量。 7. 共线性诊断:回归方程中,虽然各自变量对因变量 都是有意义的,但是某些自变量可能彼此相关, 即存在共线性问题,因此需要对方程中的自变量 进行共线性诊断。 如果存在常数C0 C1 C2,使C0= C1 X1+C2X2 则称X1,X2具有精确共线性. 如果上式近似成立, 则称近似共线性