第五章 多元线性回归PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 0 1 1 2 2 i i k i k 0 1 1 2 2 i i k k
规范解读方式

(在其他变量不变的情况下,)xi平均变化 一个单位,y平均相应变化bi个单位
回归系数的意义
一元回归系数
多元回归系数 偏回归系数:除去方 程中其他因素对y的共 同影响后,某自变量 对y的边际影响
x及未包括进方程中 的其他与x有关的一 切因素对y的总影响
R
2
二、调整的确定系数
R
2
偏高
<(1:10)
自变量个数 样本规模
三、多元相关系数R
因变量观测值和预测值之间的相关程度
四、方差分析
回归平方和
y的总变 差平方 和
第五节
回归方程的检验和回归系数的推断统计
检验
统计推断
一、确定系数 二、调整的确定系数 三、多元相关系数 四、方差分析
一、确定系数 R (0~1)
回归方程 解释的差 异与用y均 值解释的 差异之比
2
模型中所 有变量解 释y的变化 占总变化 的比例
受奇异值影响
散点图
预测与残差
y b0 b1 x1 b2 x2 ... bk xk e

原理: (1)散点图 (2)每个x值对应的y的均值,构成回归线 (曲折) (3)用最小平方法绘制回归直线 (各个样本个案的估计误差和为误差总数。 为避免正负抵消,改为将误差的平方值相 加。如果回归直线位置能够使此平方和最 小,即为最佳拟和直线)


线性回归方程式不但有简化资料的作用,而且可 以推广应用于预测或估计样本以外之个案的数值

因果关系存在的必要条件: 1、变量间的关系是strong and consistent; 2、变量间有适当的时序性; 3、变量间的关系不能够被其他变量所解释。

对观察数据的统计控制
我们如何排除其他备选解释? 和实验室的实验不同的是,我们不能控制社 会现象发生的环境。 对于观察数据, 因果性问题可以部分地通过统 计控制来解决 即, 我们可以把个体根据我们所要控制的特征 分成几个小组, 来比较组内的结果变量的差异 对定量变量最常用的统计控制体现在多元回 归模型中。
_ _ _ _ _
b2
2 ( X X )( Y Y ) ( X X ) 2 2 1 1 ( X1 X 1 )(Y Y ) ( X1 X1)( X 2 X 2 )
_
_
2 2 ( X X ) ( X X ) ( X X )( X X ) 1 1 2 2 1 1 2 2
ˆ b0 b1 x1 b2 x2 ... bk xk y
如果xi增加一个单位,即xi变为xi+1,而 其他自变量均保持不变,相应有
ˆ b b x b x y
1 0 1 1 2
2
... bi ( xi 1) ... bk xk
则y的变化幅度为
ˆ [b b x b x ... b ( x 1) ... b x ] ˆ y y [b b x b x ... b ( x 1) ... b x ] b

关于模型
现实数据=模型+误差 没有误差的不是模型,是复制 复制很精确,但是往往太不简洁 设置模型一般而言是希望用简洁的方式表 述复杂信息,达到较好的精确度

二、回归方程的建立与最小二乘法
回归分析的目的:找出错误最小的方法来 预测因变量的数值 拟合思路:各点到待估直线铅直距离之和 为最小——最小二乘
志愿 男 快乐家庭 10 性别 女 10 总数 20
理想工作 增广见闻 总数
40 10 60
30 0 40
70 10 100
存在的问题: 1、Lambda系数以众值为预测准则,不理 会众值以外的次数分布,对数据利用率低。 2、因为上述计算方式,如果全部众值集中 在条件次数表的同一列或同一行中,则 Lambda系数会等于0,相关失去意义
ˆ b0 b1 x1 b2 x2 ... bk xk y
^
e=(Y - Y )
The sum of squared errors
SSE
ˆ) ( y y
2
我们通过对该项(残差)最小化方法求得 a and bi.
拟合优度 R

2
where
TSS ( y y )
2
2

首先看只有两个自变量的模型 :
ˆ a b1 x1 b2 x2 y

我们仍可以用最小二乘法,使得观测的Y值和预测 的Y值的差距的平方和最小。利用微积分,
Let Z(a, b1, b2)= Σ(Y-a-b1X1-b2X2)2

对三个未知参数a, b1, and b2 求导:
Z (a, b1 , b2 ) ( 1)(2)(Y i a b1 X i b2 X 2 ) 0 a
m m M M (对称) 2n (M M ) (n M ) (n m ) m M E E (不对称) (n M ) nM E E (n M ) (n m ) m M E (不对称) (n M ) nM E
x y x y x y 1 2 y y y y 1 y y 1 2 x x y x 1 x y
y
y
练习:根据下表数据计算lambda
志愿 男
快乐家庭 理想工作 增广见闻 总数 10 40 10 60
性别 女
30 10 0 40
总数
40 50 10 100
E E (不对称) E (n M ) (n m ) (1) (n M )
一、回归方程与线性回归方程 二、回归方程的建立与最小二乘法 三、回归方程的假定与检验
参见:卢叔华《社会统计学》,北京大学出版社1997 第十二章 回归与相关
一、回归方程与线性回归方程
两变量x与y 对于确定的xi,yi是随机变量,可计算其均 值——回归方程是研究自变量不同取值时, y的均值的变化 当因变量y的均值与自变量x呈线性规律时, 称线性回归方程 根据x个数不同,分为一元线性回归、多元 线性回归

(二)检验 F检验

第三节 多元线性回归模型
一、多元的思路 二、回归方程的建立 三、回归方程的解释 四、标准化回归系数

一、多元的思路
关联性 Association 和因果性Causality 统计意义上的关联性很容易发现 , 难的是, 如何确立因果联系。 然而我们在研究中更加关心的是因果性的 解释。

(二)相关系数r
1、协方差的思想 2、r系数计算 3、PRE计算思路

r
( x x )( y y ) (x x) ( y y)
2
2
r 2为决定系数
四、回归
回归是相关分析的深入 回归分析的结果是建立一个数学模型以表 达变量之间的关系——在分析观测数据的 基础上,确定一个能反映变量之间关系的 近似函数表达式

方法论指导
理 论 思 路
1(多)个 定距(类)变量
线性关联
1个 定距变量
经 验 支 撑
注意

回归模型只是整个研究方案中的一环,它 必须依赖理论和经验的支撑,服从研究设 计的需要,在研究方法论的指导下展开
研究变量间的因果关系
估计
求解模型参数
评价模型拟合度
预测
是否吻合预先构想
第二节
一元线性回归
1 2 y 1 y y y
(100 50) [100 (40 30)] 50 30 0. 4 (100 50) 50 M m (2) nM
y y y
(40 30) 50 20 0.4 (100 50) 50
思考并运算:如果数据有如下变化, lambda值会发生什么变化呢?

and RSS ( y ˆ y)
R
2
TSS SSE RSS TSS TSS
2 2 ( Y Y ) ( Y Y )
_
^
(Y Y )
_
2

和前面一样, 是衡量 Y的所有变异中由所有自 变量的差异共同解释的比例 2 R 越高, 模型拟合数据的程度就越好。 2 R只升不降。 当加入新的变量时, 由于常常是随着自变量数目的增加而增加, 所以 2 直接比较R 没有太大的意义。
( X X )(Y Y ) ( X b
1 1 1 _ 2 _ _ 2
_
_
_
X 2 ) ( X 2 X 2 )(Y Y ) ( X1 X1 )( X 2 X 2 )
2 _ 2 _ _ 2
_
_
_
_
_
ຫໍສະໝຸດ Baidu
( X1 X1 ) ( X 2 X 2 ) ( X1 X1 )( X 2 X 2 )

二、计算相关的思路
定距:数量上的“共变” 定类、定序:“连同发生”——隐含根据一 个变量去预测或估计另一个变量的意思


人们正是根据预测的准确程度来界定定类或 定序变量之间的关系的——消减误差比例
三、相关测量逻辑展示


(一)Lambda相关测量法 基本逻辑:以一个定类变项的值来预测另一个定类变项 的值时,如果以众值作为预测准则,可以减少多少误差 公式: ( )
_ _ _ _
2
这种方法可以扩展到任意多的自变量的模 型。 计算机可以直接给出估计的系数。

三、回归方程的解释
在任何情况下, a 始终为当所有自变量为0时 的应变量值 (截距) 斜率系数 b1 到 bk 表示在其他变量不变的 情况下,相关的X增加一个单位,Y所对应 的变化。

对于方程:
Z (a, b1 , b2 ) ( X1 )(2)(Y a b X 1 b2 X 2 ) 0 1 b1
Z (a, b1 , b2 ) ( X 2 )(2)(Y a b X 1 b2 X 2 ) 0 1 b2

解方程:
a Y b1 X1 b2 X 2
参见郭志刚主编,《社会统计分析方法—SPSS软件应用》第二章, 中国人民大学出版社1999
第一节 相关和回归
一、相关统计量 用一个数值表示两个变量间的相关程度 (无单位度量)(-1~+1)

解读

X与y的相关系数为0.6,x与z的相关系数为 0.3
答案: 只能说明x与y相关程度高于x与z的相关程 度,但不能说前者是后者的两倍
a y bx
( x x)( y y ) b ( x x)
i i 2 i
回归系数的意义: b值的大小表示每增加一个单位的x值,y值 的变化有多大

三、回归方程的假定与检验
(一)基本假定 1、自变量x可以是随机变量,也可以是非随机 变量,其误差忽略不计 2、对于每一个x值,yi都是随机变量。Y的所 有子总体y1,y2…yn,方差相等 3、y的所有子总体,其均值都在一条直线上— —线性假定 4、随机变量yi是统计独立的 5、 y的所有子总体都满足正态分布

二、回归方程的建立
多元回归模型一般表达式
y b0 b1 x1 b2 x2 ... bk xk e
建立的多元回归方程:
ˆ b0 b1 x1 b2 x2 ... bk xk y
其中, bi 称y对x的回归系数或偏回归系数 可用最小二乘法求解
多元回归系数的估计
四、标准化回归系数
问题
需要判别所考察的因素的 重要程度
解决
将回归系数标准化
做法
1、先将变量标准化,再 计算 2、利用回归系数计算
s B b s
i i
i
y
(x x ) b ( y y)
i i i 2
2
变量 xi 每平均变化一个标准分数, y将平均变化 Bi 个标准分数
第四节
方程的解释能力
第二章 多元线性回归 (multiple linear regression)
第一节 第二节 第三节 第四节 第五节 第六节 第七节 第八节 第九节 相关和回归 一元线性回归模型 多元线性回归模型 方程的解释能力 回归方程的检验和回归系数的推断统计 虚拟变量的应用 多重共线性及其解决方案 计算机应用 研究实例
相关文档
最新文档