第十四章 回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

判定系数与相关系数的区别: 判定系数与相关系数的区别:
判定系数无方向性,相关系数则有方向, 判定系数无方向性,相关系数则有方向, 无方向性 则有方向 相同; 其方向与样本回归系数 b 相同; 判定系数说明变量值的总离差平方和中 判定系数说明变量值的总离差平方和中 可以用回归线来解释的比例, 可以用回归线来解释的比例,相关系数 只说明两变量间关联程度及方向; 只说明两变量间关联程度及方向; 相关系数有夸大变量间相关程度的倾向, 相关系数有夸大变量间相关程度的倾向, 有夸大变量间相关程度的倾向 因而判定系数是更好的度量值。 判定系数是更好的度量值 因而判定系数是更好的度量值。
2、同方差假定 3、线性假定
Yi=A+BX, =A+BX,
4、独立性假定 之间是独立的, 假定Yi之间是独立的,也就是说抽 样时, 样时,Y的值在每取一个X值的条件 分布相互独立。 分布相互独立。
简单线性回归模型
在实际应用中,我们对 和 所代表的总体往往不 在实际应用中,我们对X和Y所代表的总体往往不 可能全面的观察和了解, 可能全面的观察和了解,而只能从中抽取部分资料 作为样本,并通过样本提供的信息来认识总体, 作为样本,并通过样本提供的信息来认识总体,找 出总体回归模型的估计式, 出总体回归模型的估计式,其估计式的方程式可写 为: 样本回归
y= −0.208 + 0.718x 从回归模型可知 回归模型可知:居民每增加1元的可支配收入, 可知 将增加0.718元用于消费支出。 因此, 因此,如果估计其中一位居民可支配收入提高 到100元,则可预测其消费支出将上升到71.556元 。
14.3 回归模型的检验 1、拟合优度检验
确定回归直线后, 确定回归直线后,需要评价这一直线方程是否有效 地反映了这两变量之间的关系。 地反映了这两变量之间的关系。评价回归方程配合 判定系数(或称确定系数 好坏的一个主要指标是判定系数 或称确定系数) 好坏的一个主要指标是判定系数 或称确定系数 判定系数 是相关系数的平方,用 r2 表示; 是相关系数的平方, 表示;用来 衡量回归方程对y的解释程度。 衡量回归方程对y的解释程度。
消费与 可支配 收入的 相ቤተ መጻሕፍቲ ባይዱ图
消费支出
r =
5620 . 4 4134 . 1 × 7831 . 6
= 0 . 9878
r=
n∑xy − ∑x∑y n∑x − (∑x) ⋅ n∑y − (∑y)
2 2 2 2
计算回归系数(见数据文件)
nΣxy − ΣxΣy b = nΣx 2 − (Σx) 2 = 0.718 a = ∑ y − b Σx = y − b x = y − 0.718x = −0.208 n n
ˆ y = a + bx 是理论模型,表明 之间的平均变动关系,
x 与 y 变量
而变量 y 的实际
ˆ 值应为 y i = ( a + bx i ) + ε i = y + ε i
X对y的线性影响而形 成的系统部分, 成的系统部分,反映两 变量的平均变动关系, 变量的平均变动关系, 即本质特征。 即本质特征。
第十四章
回归分析
14.1 回归的历史 14.2 简单线性回归模型 14.3 回归模型的检验 14.4 多元回归模型
14.1 回归分析法产生的历史
回归: 回归:退回 regression 平均身高
1877年 弗朗西斯 高尔顿爵士 年 弗朗西斯•高尔顿爵士 学研究 回归线
遗传
回归分析法产生的历史
• 回归分析法。由著名的英国生物学家、统计学家 回归分析法。由著名的英国生物学家、 高尔顿( 达尔文的表弟所创。 高尔顿(F.Gallton)——达尔文的表弟所创。 ) 达尔文的表弟所创 • 早年,高尔顿致力于化学和遗传学领域的研究。 早年,高尔顿致力于化学和遗传学领域的研究。 • 他研究父亲们的身高与儿子们的身高之间的关系 建立了回归分析法。 时,建立了回归分析法。
整理得到由两个关于a 整理得到由两个关于a、b的二元一次 方程组成的方程组: 方程组成的方程组: Σ y = na + b Σ x 2 Σ xy = a Σ x + b Σ x 进一步整理, 进一步整理,有:
n Σ xy − Σ x Σ y b = 2 2 n Σ x − (Σ x ) a = ∑ y − b Σx = y − b x n n
其中: 表示因变量Y 其中:Yi表示因变量Y在总体中某一个具体的观察 表示在研究总体中自变量X的具体观察数值; 值;Xi表示在研究总体中自变量X的具体观察数值;A 是参数,称为回归系数; 是一个随机变量, 与B是参数,称为回归系数;εi是一个随机变量,其 平均数为0 方差为σ 平均数为0,方差为σ2.
随机干扰:各种偶然 随机干扰: 因素、 因素、观察误差和其 他被忽视因素的影响
ˆ 一元线性回归方程 y 中参数a 中参数a、b的确定:
最小平方法 基本数学要求
2
= a + bx
ˆ ∑ (y − y ) = 0 ˆ ∑ ( y − y ) = min
2
2
ˆ 由∑ ( y − y ) = min ,有 ∑ ( y − a − bx ) = min, 分别对函数中 a、 b求偏导数,并令其为零 ,有 2∑ ( y − a − bx )(− 1) = 0 2∑ ( y − a − bx )(− x ) = 0
一元线性回归方程的几何意义
E (Y )
ˆ Y =α + βX
截距
X
斜率
一元线性回归方程的可能形态
β为正 β为负 β为 0
总体一元线性 回归方程: 回归方程:
Yˆ = E (Y
)=
A + BX
以样本统计量估计总体参数
样本一元线性回归方程: 样本一元线性回归方程:
截距
(估计的回归方程) 估计的回归方程)
回归方程 反映自变量和因变量之间数学 联系的表达式。 联系的表达式。 回归模型 某一类回归方程的总称。 某一类回归方程的总称。
X 自变量(independent variable):解释 自变量 解释 变量,给定的或可以控制的、用来解释、 变量,给定的或可以控制的、用来解释、 预测应变量的变量。 预测应变量的变量。 Y 因变量(dependent variable):响应变 因变量 响应变 由自变量来解释其变化的变量。 量,由自变量来解释其变化的变量。
14.2 简单线性回归模型
回归分析
回归: 回归:退回 regression 通过一个变量x或一些变量(x 通过一个变量x或一些变量(x1,x2,x3…) ) 的变化解释另一变量y的变化. 的变化解释另一变量y的变化.即根据相 关关系的数量表达式(回归方程式) 关关系的数量表达式(回归方程式)与 自变量x 因变量y 给定的自变量x,揭示因变量y在数量上 的平均变化和求得因变量的预测值的统 计分析方法
回归分析法产生的历史
父亲们的身高与儿子们的身高之间 关系的研究
• 1889年F.Gallton和他的朋友 年 和他的朋友K.Pearson收集了 和他的朋友 收集了 上千个家庭的身高、 上千个家庭的身高、臂长和腿长的记录 • 企图寻找出儿子们身高与父亲们身高之间关系的 具体表现形式 • 下图是根据 下图是根据1078个家庭的调查所作的散点图 个家庭的调查所作的散点图 (略图) 略图)
Y
• • • • •

• •
X
回归分析的分类 根据变量的多少分为: 根据变量的多少分为:
简单回归 多元回归 只有一个自变量和一个因变量的回归 自变量数目在两个或两个以上
根据建立的回归模型形式分为: 根据建立的回归模型形式分为: 线性回归 非线性回归 从所拟合的回归模型来看,一变量 从所拟合的回归模型来看, 表现为其它变量的线性组合。 表现为其它变量的线性组合。 从所拟合的回归模型来看,一变量 从所拟合的回归模型来看, 表现为其它变量的非线性组合
回归分析与相关分析
联系: 联系:
理论和方法具有一致性; 理论和方法具有一致性; 无相关就无回归,相关程度越高, 无相关就无回归,相关程度越高, 回归越好; 回归越好; 相关系数和回归系数方向一致, 相关系数和回归系数方向一致,可 以互相推算。 以互相推算。
回归分析与相关分析
区别: 区别:
相关分析中x与 对等 回归分析中x与 对等, 相关分析中 与y对等,回归分析中 与y 要确定自变量和因变量; 要确定自变量和因变量; 相关分析中x、 均为随机变量 均为随机变量, 相关分析中 、y均为随机变量,回归分 析中只有y为随机变量 为随机变量; 析中只有 为随机变量; 相关分析测定相关程度和方向, 相关分析测定相关程度和方向,回归分 析用回归模型进行预测和控制。 析用回归模型进行预测和控制。
简单线性回归模型的假设
1、正态性假定 相应的Y 当确定某一个Xi时,相应的Y就有许多 Yi值与之对应。Yi是一个随机变量, 值与之对应。 是一个随机变量, 构成一个在X 这些Yi构成一个在X取值为Xi条件下的 条件分布、并假设其服从正态分布。 条件分布、并假设其服从正态分布。 假定所有Yi这一条件分布的方差是 相等的。 相等的。 假定所有Yi这一条件分布的平均数 位于一条直线上, 位于一条直线上,这条直线为
y i = a + bx i + e i
模型
其中: 分别为A 的估计量。 其中:a,b和ei分别为A、B及εi的估计量。 由于抽样的随机性, 由于抽样的随机性,使样本回归线不可能与总体回归 完全重合, 完全重合,从而会出现样本回归函数高估或低估总体 回归函数的情况, 回归函数的情况,我们能做的就是设法使样本回归函 数尽可能接近总体回归函数, 数尽可能接近总体回归函数,也就是说要使回归方程 参数的估计值a、 尽量接近总体真实参数 尽量接近总体真实参数A、 。 参数的估计值 、b尽量接近总体真实参数 、B。
例 一个10户居民的可支配收入 (百元)与消费支出(百元) 的统计资料按升序排列入下表(相关表): (相关表) 消费支出 15 20 30 40 42 53 60 65 70 78 可支配收入 18 25 45 60 62 75 88 92 99 98
90 80 70 60 50 40 30 20 10 0 18 25 45 60 62 75 可 支 配 收 入 88 92 99 98
ˆ y = a + bx
斜率(回归系数) 斜率(回归系数)
截距a 表示在没有自变量 的影响时,其它各 表示在没有自变量x的影响时 的影响时, 种因素对因变量y的平均影响 的平均影响; 种因素对因变量 的平均影响;回归系数b 表
明自变量x每变动一个单位,因变量 平均变 明自变量 每变动一个单位,因变量y平均变 每变动一个单位 个单位。 动b个单位。 个单位
简单线性回归模型
指根据成对的两个变量的数值, 指根据成对的两个变量的数值,配合直线 方程式,根据自变量的变动, 方程式,根据自变量的变动,来推算因变 量发展变动趋势的方法,其模型为: 量发展变动趋势的方法,其模型为:
y i = A + Bx i + ε i
Yˆ = β
0
总体回归 模型
+ β1X
总体一元线性回归方 程
判定系数取值范围: 判定系数取值范围:
0 ≤ r ≤1
2
越接近于1 表明x 越接近于1,表明x与y之间的相关性 越强; 越接近于0 越强; r 2 越接近于0,表明两个变量之 间几乎没有直线相关关系. 间几乎没有直线相关关系.
r
2
数量关系及意义
总偏差 = 回归偏差 + 剩余偏差
r2表示全部偏差中有百分之几的偏差可由 与y的 表示全部偏差中有百分之几的偏差可由x与 的 回归关系来解释 r 的符号同 b
儿子们身高向着平均身高“回归” 儿子们身高向着平均身高“回归”,以保持种族的稳定
185
180
175 Y
170
y
165
160 140
x
150 160 170 X 180 190 200
y = a + bx + u ˆ y = 84.33+ 0.516x
• 他发现某人种的平均身高是相当稳定的。 他发现某人种的平均身高是相当稳定的。 最后得到结论: 最后得到结论:儿子们的身高回复于全体 男子的平均身高, 回归” 男子的平均身高,即“回归”——见 见 1889年F.Gallton的论文《普用回归定 的论文《 年 的论文 律》。 • 后人将此种方法普遍用于寻找变量之间的 规律
相关文档
最新文档