第五章 多元线性回归PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 0 1 1 2 2 i i k i k 0 1 1 2 2 i i k k
规范解读方式
(在其他变量不变的情况下,)xi平均变化 一个单位,y平均相应变化bi个单位
回归系数的意义
一元回归系数
多元回归系数 偏回归系数:除去方 程中其他因素对y的共 同影响后,某自变量 对y的边际影响
x及未包括进方程中 的其他与x有关的一 切因素对y的总影响
R
2
二、调整的确定系数
R
2
偏高
<(1:10)
自变量个数 样本规模
三、多元相关系数R
因变量观测值和预测值之间的相关程度
四、方差分析
回归平方和
y的总变 差平方 和
第五节
回归方程的检验和回归系数的推断统计
检验
统计推断
一、确定系数 二、调整的确定系数 三、多元相关系数 四、方差分析
一、确定系数 R (0~1)
回归方程 解释的差 异与用y均 值解释的 差异之比
2
模型中所 有变量解 释y的变化 占总变化 的比例
受奇异值影响
散点图
预测与残差
y b0 b1 x1 b2 x2 ... bk xk e
原理: (1)散点图 (2)每个x值对应的y的均值,构成回归线 (曲折) (3)用最小平方法绘制回归直线 (各个样本个案的估计误差和为误差总数。 为避免正负抵消,改为将误差的平方值相 加。如果回归直线位置能够使此平方和最 小,即为最佳拟和直线)
线性回归方程式不但有简化资料的作用,而且可 以推广应用于预测或估计样本以外之个案的数值
因果关系存在的必要条件: 1、变量间的关系是strong and consistent; 2、变量间有适当的时序性; 3、变量间的关系不能够被其他变量所解释。
对观察数据的统计控制
我们如何排除其他备选解释? 和实验室的实验不同的是,我们不能控制社 会现象发生的环境。 对于观察数据, 因果性问题可以部分地通过统 计控制来解决 即, 我们可以把个体根据我们所要控制的特征 分成几个小组, 来比较组内的结果变量的差异 对定量变量最常用的统计控制体现在多元回 归模型中。
_ _ _ _ _
b2
2 ( X X )( Y Y ) ( X X ) 2 2 1 1 ( X1 X 1 )(Y Y ) ( X1 X1)( X 2 X 2 )
_
_
2 2 ( X X ) ( X X ) ( X X )( X X ) 1 1 2 2 1 1 2 2
ˆ b0 b1 x1 b2 x2 ... bk xk y
如果xi增加一个单位,即xi变为xi+1,而 其他自变量均保持不变,相应有
ˆ b b x b x y
1 0 1 1 2
2
... bi ( xi 1) ... bk xk
则y的变化幅度为
ˆ [b b x b x ... b ( x 1) ... b x ] ˆ y y [b b x b x ... b ( x 1) ... b x ] b
关于模型
现实数据=模型+误差 没有误差的不是模型,是复制 复制很精确,但是往往太不简洁 设置模型一般而言是希望用简洁的方式表 述复杂信息,达到较好的精确度
二、回归方程的建立与最小二乘法
回归分析的目的:找出错误最小的方法来 预测因变量的数值 拟合思路:各点到待估直线铅直距离之和 为最小——最小二乘
志愿 男 快乐家庭 10 性别 女 10 总数 20
理想工作 增广见闻 总数
40 10 60
30 0 40
70 10 100
存在的问题: 1、Lambda系数以众值为预测准则,不理 会众值以外的次数分布,对数据利用率低。 2、因为上述计算方式,如果全部众值集中 在条件次数表的同一列或同一行中,则 Lambda系数会等于0,相关失去意义
ˆ b0 b1 x1 b2 x2 ... bk xk y
^
e=(Y - Y )
The sum of squared errors
SSE
ˆ) ( y y
2
我们通过对该项(残差)最小化方法求得 a and bi.
拟合优度 R
2
where
TSS ( y y )
2
2
首先看只有两个自变量的模型 :
ˆ a b1 x1 b2 x2 y
我们仍可以用最小二乘法,使得观测的Y值和预测 的Y值的差距的平方和最小。利用微积分,
Let Z(a, b1, b2)= Σ(Y-a-b1X1-b2X2)2
对三个未知参数a, b1, and b2 求导:
Z (a, b1 , b2 ) ( 1)(2)(Y i a b1 X i b2 X 2 ) 0 a
m m M M (对称) 2n (M M ) (n M ) (n m ) m M E E (不对称) (n M ) nM E E (n M ) (n m ) m M E (不对称) (n M ) nM E
x y x y x y 1 2 y y y y 1 y y 1 2 x x y x 1 x y
y
y
练习:根据下表数据计算lambda
志愿 男
快乐家庭 理想工作 增广见闻 总数 10 40 10 60
性别 女
30 10 0 40
总数
40 50 10 100
E E (不对称) E (n M ) (n m ) (1) (n M )
一、回归方程与线性回归方程 二、回归方程的建立与最小二乘法 三、回归方程的假定与检验
参见:卢叔华《社会统计学》,北京大学出版社1997 第十二章 回归与相关
一、回归方程与线性回归方程
两变量x与y 对于确定的xi,yi是随机变量,可计算其均 值——回归方程是研究自变量不同取值时, y的均值的变化 当因变量y的均值与自变量x呈线性规律时, 称线性回归方程 根据x个数不同,分为一元线性回归、多元 线性回归
(二)检验 F检验
第三节 多元线性回归模型
一、多元的思路 二、回归方程的建立 三、回归方程的解释 四、标准化回归系数
一、多元的思路
关联性 Association 和因果性Causality 统计意义上的关联性很容易发现 , 难的是, 如何确立因果联系。 然而我们在研究中更加关心的是因果性的 解释。
(二)相关系数r
1、协方差的思想 2、r系数计算 3、PRE计算思路
r
( x x )( y y ) (x x) ( y y)
2
2
r 2为决定系数
四、回归
回归是相关分析的深入 回归分析的结果是建立一个数学模型以表 达变量之间的关系——在分析观测数据的 基础上,确定一个能反映变量之间关系的 近似函数表达式
方法论指导
理 论 思 路
1(多)个 定距(类)变量
线性关联
1个 定距变量
经 验 支 撑
注意
回归模型只是整个研究方案中的一环,它 必须依赖理论和经验的支撑,服从研究设 计的需要,在研究方法论的指导下展开
研究变量间的因果关系
估计
求解模型参数
评价模型拟合度
预测
是否吻合预先构想
第二节
一元线性回归
1 2 y 1 y y y
(100 50) [100 (40 30)] 50 30 0. 4 (100 50) 50 M m (2) nM
y y y
(40 30) 50 20 0.4 (100 50) 50
思考并运算:如果数据有如下变化, lambda值会发生什么变化呢?
and RSS ( y ˆ y)
R
2
TSS SSE RSS TSS TSS
2 2 ( Y Y ) ( Y Y )
_
^
(Y Y )
_
2
和前面一样, 是衡量 Y的所有变异中由所有自 变量的差异共同解释的比例 2 R 越高, 模型拟合数据的程度就越好。 2 R只升不降。 当加入新的变量时, 由于常常是随着自变量数目的增加而增加, 所以 2 直接比较R 没有太大的意义。
( X X )(Y Y ) ( X b
1 1 1 _ 2 _ _ 2
_
_
_
X 2 ) ( X 2 X 2 )(Y Y ) ( X1 X1 )( X 2 X 2 )
2 _ 2 _ _ 2
_
_
_
_
_
ຫໍສະໝຸດ Baidu
( X1 X1 ) ( X 2 X 2 ) ( X1 X1 )( X 2 X 2 )
二、计算相关的思路
定距:数量上的“共变” 定类、定序:“连同发生”——隐含根据一 个变量去预测或估计另一个变量的意思
人们正是根据预测的准确程度来界定定类或 定序变量之间的关系的——消减误差比例
三、相关测量逻辑展示
(一)Lambda相关测量法 基本逻辑:以一个定类变项的值来预测另一个定类变项 的值时,如果以众值作为预测准则,可以减少多少误差 公式: ( )
_ _ _ _
2
这种方法可以扩展到任意多的自变量的模 型。 计算机可以直接给出估计的系数。
三、回归方程的解释
在任何情况下, a 始终为当所有自变量为0时 的应变量值 (截距) 斜率系数 b1 到 bk 表示在其他变量不变的 情况下,相关的X增加一个单位,Y所对应 的变化。
对于方程:
Z (a, b1 , b2 ) ( X1 )(2)(Y a b X 1 b2 X 2 ) 0 1 b1
Z (a, b1 , b2 ) ( X 2 )(2)(Y a b X 1 b2 X 2 ) 0 1 b2
解方程:
a Y b1 X1 b2 X 2
参见郭志刚主编,《社会统计分析方法—SPSS软件应用》第二章, 中国人民大学出版社1999
第一节 相关和回归
一、相关统计量 用一个数值表示两个变量间的相关程度 (无单位度量)(-1~+1)
解读
X与y的相关系数为0.6,x与z的相关系数为 0.3
答案: 只能说明x与y相关程度高于x与z的相关程 度,但不能说前者是后者的两倍
a y bx
( x x)( y y ) b ( x x)
i i 2 i
回归系数的意义: b值的大小表示每增加一个单位的x值,y值 的变化有多大
三、回归方程的假定与检验
(一)基本假定 1、自变量x可以是随机变量,也可以是非随机 变量,其误差忽略不计 2、对于每一个x值,yi都是随机变量。Y的所 有子总体y1,y2…yn,方差相等 3、y的所有子总体,其均值都在一条直线上— —线性假定 4、随机变量yi是统计独立的 5、 y的所有子总体都满足正态分布
二、回归方程的建立
多元回归模型一般表达式
y b0 b1 x1 b2 x2 ... bk xk e
建立的多元回归方程:
ˆ b0 b1 x1 b2 x2 ... bk xk y
其中, bi 称y对x的回归系数或偏回归系数 可用最小二乘法求解
多元回归系数的估计
四、标准化回归系数
问题
需要判别所考察的因素的 重要程度
解决
将回归系数标准化
做法
1、先将变量标准化,再 计算 2、利用回归系数计算
s B b s
i i
i
y
(x x ) b ( y y)
i i i 2
2
变量 xi 每平均变化一个标准分数, y将平均变化 Bi 个标准分数
第四节
方程的解释能力
第二章 多元线性回归 (multiple linear regression)
第一节 第二节 第三节 第四节 第五节 第六节 第七节 第八节 第九节 相关和回归 一元线性回归模型 多元线性回归模型 方程的解释能力 回归方程的检验和回归系数的推断统计 虚拟变量的应用 多重共线性及其解决方案 计算机应用 研究实例
规范解读方式
(在其他变量不变的情况下,)xi平均变化 一个单位,y平均相应变化bi个单位
回归系数的意义
一元回归系数
多元回归系数 偏回归系数:除去方 程中其他因素对y的共 同影响后,某自变量 对y的边际影响
x及未包括进方程中 的其他与x有关的一 切因素对y的总影响
R
2
二、调整的确定系数
R
2
偏高
<(1:10)
自变量个数 样本规模
三、多元相关系数R
因变量观测值和预测值之间的相关程度
四、方差分析
回归平方和
y的总变 差平方 和
第五节
回归方程的检验和回归系数的推断统计
检验
统计推断
一、确定系数 二、调整的确定系数 三、多元相关系数 四、方差分析
一、确定系数 R (0~1)
回归方程 解释的差 异与用y均 值解释的 差异之比
2
模型中所 有变量解 释y的变化 占总变化 的比例
受奇异值影响
散点图
预测与残差
y b0 b1 x1 b2 x2 ... bk xk e
原理: (1)散点图 (2)每个x值对应的y的均值,构成回归线 (曲折) (3)用最小平方法绘制回归直线 (各个样本个案的估计误差和为误差总数。 为避免正负抵消,改为将误差的平方值相 加。如果回归直线位置能够使此平方和最 小,即为最佳拟和直线)
线性回归方程式不但有简化资料的作用,而且可 以推广应用于预测或估计样本以外之个案的数值
因果关系存在的必要条件: 1、变量间的关系是strong and consistent; 2、变量间有适当的时序性; 3、变量间的关系不能够被其他变量所解释。
对观察数据的统计控制
我们如何排除其他备选解释? 和实验室的实验不同的是,我们不能控制社 会现象发生的环境。 对于观察数据, 因果性问题可以部分地通过统 计控制来解决 即, 我们可以把个体根据我们所要控制的特征 分成几个小组, 来比较组内的结果变量的差异 对定量变量最常用的统计控制体现在多元回 归模型中。
_ _ _ _ _
b2
2 ( X X )( Y Y ) ( X X ) 2 2 1 1 ( X1 X 1 )(Y Y ) ( X1 X1)( X 2 X 2 )
_
_
2 2 ( X X ) ( X X ) ( X X )( X X ) 1 1 2 2 1 1 2 2
ˆ b0 b1 x1 b2 x2 ... bk xk y
如果xi增加一个单位,即xi变为xi+1,而 其他自变量均保持不变,相应有
ˆ b b x b x y
1 0 1 1 2
2
... bi ( xi 1) ... bk xk
则y的变化幅度为
ˆ [b b x b x ... b ( x 1) ... b x ] ˆ y y [b b x b x ... b ( x 1) ... b x ] b
关于模型
现实数据=模型+误差 没有误差的不是模型,是复制 复制很精确,但是往往太不简洁 设置模型一般而言是希望用简洁的方式表 述复杂信息,达到较好的精确度
二、回归方程的建立与最小二乘法
回归分析的目的:找出错误最小的方法来 预测因变量的数值 拟合思路:各点到待估直线铅直距离之和 为最小——最小二乘
志愿 男 快乐家庭 10 性别 女 10 总数 20
理想工作 增广见闻 总数
40 10 60
30 0 40
70 10 100
存在的问题: 1、Lambda系数以众值为预测准则,不理 会众值以外的次数分布,对数据利用率低。 2、因为上述计算方式,如果全部众值集中 在条件次数表的同一列或同一行中,则 Lambda系数会等于0,相关失去意义
ˆ b0 b1 x1 b2 x2 ... bk xk y
^
e=(Y - Y )
The sum of squared errors
SSE
ˆ) ( y y
2
我们通过对该项(残差)最小化方法求得 a and bi.
拟合优度 R
2
where
TSS ( y y )
2
2
首先看只有两个自变量的模型 :
ˆ a b1 x1 b2 x2 y
我们仍可以用最小二乘法,使得观测的Y值和预测 的Y值的差距的平方和最小。利用微积分,
Let Z(a, b1, b2)= Σ(Y-a-b1X1-b2X2)2
对三个未知参数a, b1, and b2 求导:
Z (a, b1 , b2 ) ( 1)(2)(Y i a b1 X i b2 X 2 ) 0 a
m m M M (对称) 2n (M M ) (n M ) (n m ) m M E E (不对称) (n M ) nM E E (n M ) (n m ) m M E (不对称) (n M ) nM E
x y x y x y 1 2 y y y y 1 y y 1 2 x x y x 1 x y
y
y
练习:根据下表数据计算lambda
志愿 男
快乐家庭 理想工作 增广见闻 总数 10 40 10 60
性别 女
30 10 0 40
总数
40 50 10 100
E E (不对称) E (n M ) (n m ) (1) (n M )
一、回归方程与线性回归方程 二、回归方程的建立与最小二乘法 三、回归方程的假定与检验
参见:卢叔华《社会统计学》,北京大学出版社1997 第十二章 回归与相关
一、回归方程与线性回归方程
两变量x与y 对于确定的xi,yi是随机变量,可计算其均 值——回归方程是研究自变量不同取值时, y的均值的变化 当因变量y的均值与自变量x呈线性规律时, 称线性回归方程 根据x个数不同,分为一元线性回归、多元 线性回归
(二)检验 F检验
第三节 多元线性回归模型
一、多元的思路 二、回归方程的建立 三、回归方程的解释 四、标准化回归系数
一、多元的思路
关联性 Association 和因果性Causality 统计意义上的关联性很容易发现 , 难的是, 如何确立因果联系。 然而我们在研究中更加关心的是因果性的 解释。
(二)相关系数r
1、协方差的思想 2、r系数计算 3、PRE计算思路
r
( x x )( y y ) (x x) ( y y)
2
2
r 2为决定系数
四、回归
回归是相关分析的深入 回归分析的结果是建立一个数学模型以表 达变量之间的关系——在分析观测数据的 基础上,确定一个能反映变量之间关系的 近似函数表达式
方法论指导
理 论 思 路
1(多)个 定距(类)变量
线性关联
1个 定距变量
经 验 支 撑
注意
回归模型只是整个研究方案中的一环,它 必须依赖理论和经验的支撑,服从研究设 计的需要,在研究方法论的指导下展开
研究变量间的因果关系
估计
求解模型参数
评价模型拟合度
预测
是否吻合预先构想
第二节
一元线性回归
1 2 y 1 y y y
(100 50) [100 (40 30)] 50 30 0. 4 (100 50) 50 M m (2) nM
y y y
(40 30) 50 20 0.4 (100 50) 50
思考并运算:如果数据有如下变化, lambda值会发生什么变化呢?
and RSS ( y ˆ y)
R
2
TSS SSE RSS TSS TSS
2 2 ( Y Y ) ( Y Y )
_
^
(Y Y )
_
2
和前面一样, 是衡量 Y的所有变异中由所有自 变量的差异共同解释的比例 2 R 越高, 模型拟合数据的程度就越好。 2 R只升不降。 当加入新的变量时, 由于常常是随着自变量数目的增加而增加, 所以 2 直接比较R 没有太大的意义。
( X X )(Y Y ) ( X b
1 1 1 _ 2 _ _ 2
_
_
_
X 2 ) ( X 2 X 2 )(Y Y ) ( X1 X1 )( X 2 X 2 )
2 _ 2 _ _ 2
_
_
_
_
_
ຫໍສະໝຸດ Baidu
( X1 X1 ) ( X 2 X 2 ) ( X1 X1 )( X 2 X 2 )
二、计算相关的思路
定距:数量上的“共变” 定类、定序:“连同发生”——隐含根据一 个变量去预测或估计另一个变量的意思
人们正是根据预测的准确程度来界定定类或 定序变量之间的关系的——消减误差比例
三、相关测量逻辑展示
(一)Lambda相关测量法 基本逻辑:以一个定类变项的值来预测另一个定类变项 的值时,如果以众值作为预测准则,可以减少多少误差 公式: ( )
_ _ _ _
2
这种方法可以扩展到任意多的自变量的模 型。 计算机可以直接给出估计的系数。
三、回归方程的解释
在任何情况下, a 始终为当所有自变量为0时 的应变量值 (截距) 斜率系数 b1 到 bk 表示在其他变量不变的 情况下,相关的X增加一个单位,Y所对应 的变化。
对于方程:
Z (a, b1 , b2 ) ( X1 )(2)(Y a b X 1 b2 X 2 ) 0 1 b1
Z (a, b1 , b2 ) ( X 2 )(2)(Y a b X 1 b2 X 2 ) 0 1 b2
解方程:
a Y b1 X1 b2 X 2
参见郭志刚主编,《社会统计分析方法—SPSS软件应用》第二章, 中国人民大学出版社1999
第一节 相关和回归
一、相关统计量 用一个数值表示两个变量间的相关程度 (无单位度量)(-1~+1)
解读
X与y的相关系数为0.6,x与z的相关系数为 0.3
答案: 只能说明x与y相关程度高于x与z的相关程 度,但不能说前者是后者的两倍
a y bx
( x x)( y y ) b ( x x)
i i 2 i
回归系数的意义: b值的大小表示每增加一个单位的x值,y值 的变化有多大
三、回归方程的假定与检验
(一)基本假定 1、自变量x可以是随机变量,也可以是非随机 变量,其误差忽略不计 2、对于每一个x值,yi都是随机变量。Y的所 有子总体y1,y2…yn,方差相等 3、y的所有子总体,其均值都在一条直线上— —线性假定 4、随机变量yi是统计独立的 5、 y的所有子总体都满足正态分布
二、回归方程的建立
多元回归模型一般表达式
y b0 b1 x1 b2 x2 ... bk xk e
建立的多元回归方程:
ˆ b0 b1 x1 b2 x2 ... bk xk y
其中, bi 称y对x的回归系数或偏回归系数 可用最小二乘法求解
多元回归系数的估计
四、标准化回归系数
问题
需要判别所考察的因素的 重要程度
解决
将回归系数标准化
做法
1、先将变量标准化,再 计算 2、利用回归系数计算
s B b s
i i
i
y
(x x ) b ( y y)
i i i 2
2
变量 xi 每平均变化一个标准分数, y将平均变化 Bi 个标准分数
第四节
方程的解释能力
第二章 多元线性回归 (multiple linear regression)
第一节 第二节 第三节 第四节 第五节 第六节 第七节 第八节 第九节 相关和回归 一元线性回归模型 多元线性回归模型 方程的解释能力 回归方程的检验和回归系数的推断统计 虚拟变量的应用 多重共线性及其解决方案 计算机应用 研究实例