一元线性回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例如,人的体重y与身高x有关,一般而言,较高的人 体重较重,但同样身高的人体重却不会完全相同;又如居 民的储蓄存款额y与他的收入x有关,但同样收入的人储蓄 存款额也不会相同. 函数关系往往通过具有不确定性的相关关系表现出来, 而完全的相关关系必定是函数关系.
相关关系的种类
⑴ 按相关的方向划分|
正相关——两个变量按照相同的趋势变化,或者说某 个现象的变量增加,另一个现象的变量也增加的现象. 负相关——两个变量按照相反的趋势变化,或者说某 个现象的变量增加,另一个现象的变量反而减少的现象. 零相关——两个变量在数量上完全独立,在一定的形 式下,互不影响,互不相干的关系.严格的讲,零相关不 是“不相关”,因为事物的联系是绝对的,而独立是相对 的,只有在某种形式下它才能互不影响,互不相干.
1 1 X 1
x1 x2 , xn
ˆ A , ˆ
则一元线性回归的数据模型为 y XA 这是一个不相容线性 方程组,当 rank( X ) 2 n 时,其最小二乘解为
A X X X T y.
更依赖变量之间真实相关性的存在. 然而,现象之间是否
存在真实相关,必须根据有关专业领域的学科理论来确定. 因此,回归分析必须要在定性分析前提下进行,不能进行 纯数量的计算.
2. 一元线性回归分析
一元线性回归模型
模型的理论假设 设x是自变量(非随机变量,其值 是可以控制或精确测量),y是因变量(随机变量,对给 定的x值不能事先确定y的取值),则一元线性回归模型的 理论假设是
y x , ~ N (0, ).
2
模型的建立 求线性函数
Ey x
的经验回归方程
其中
ˆ ˆ ˆ y x ˆ y 是 Ey 的统计估计, ˆ , 分别是 , ˆ
模型的数据结构
的统计估
计,称为回归系数. 设数据对 ( xi , yi ), i 1,2,, n 是对
ˆ ˆ ˆ yi xi
为因变量 yi (i 1, 2,, n) 的回归拟合值,简称回归值或拟 合值.称
ˆ ei yi yi
为因变量 yi (i 1, 2,, n) 的残差. 参数估计的算法 记
y1 y2 y , y n
一元线性回归分析
Linear Regression Analysis, LRA
1.回归分析的基本概念 2.一元线性回归分析
3.应用范例与MATLAB实现
1. 回归分析的基本概念
函数关系与相关关系
函数关系——变量之间确实存在的,且在数量上表现 为确定性的相互依存关系. 例如,圆的面积S与半径R有关,一旦半径R确定, 则 面积S可通过函数 f ( R) R 2 求出,即 S R 2 . 相关关系——变量之间确实存在的,但在数量上表现 为不确定的相互依存关系.
回归方程的显著性检验
显著性检验的基本定理 定义
SST ( yi y ) 2 ─ 总偏差平方和,自由度 fT n 1.
i 1 n
ˆ SSR ( yi y ) 2 ─ 回归平方和,自由度 fT 1.
.
i 1
n
ˆ SSE ( y i y i ) 2 ─ 残差平方和,自由度 f n 2. T
在 H 0 为真时,SSR 与 SSE 相互独立,SSR ~ 2 (1) ,于是检验统计量
SSR F ~ F (1, n 2). SSE /(n 2)
检验的显著性概率
p P( F (1, n 2) F ).
决策准则
在显著性水平 下,当 回归方程有显著意义. ① 当 p 0.01 时,称回归方程高度显著,标记为**; ② 当 0.01 p 0.05 时,称回归方程显著,标记为*; ③ 当 p 0.05 时,称回归方程不显著,不做标记.
3. 应用范例与MATLAB实现
社会商品零售总额与百度文库收总额的线性回归分析
为变量
y
对
x
的最小二乘回归的估计标准误差.显然,
s
的值越小,表明回归直线对各个观测点的拟合程度越
高.注意, s 2 SSE /(n 2) 是 2 的无偏估计.
利用回归方程进行预测 点预测 设
x0 是自变量 x 的预测值,则因变量
ˆ y0 a bx0 ,
y 的预测值为
是
y0 a bx0
ˆ Q( , ) ( yi E ( yi )) 2 ( yi xi ) 2 ,
i 1 i 1
n
n
ˆ ˆ 求 , 使得
ˆ ˆ Q( , ) min Q( , ),
,
称 , 为模型参数 , 的最小二乘估计,称 ˆ ˆ
p
时拒绝 H 0 ,即认为
检验结果的报告(方差分析表)
方差来源 偏差平方和 回归 残差 总计
自由度
F值
SSR / f R SSE / f E
p值
显著 性
SSR SSE SST
fR 1
fE n 2 fT n 1
F
p P( F (1, n 2) F )
⑵ 拟合程度测定
有内在联系的相关关系.
回归分析的一般概念
回归分析——分析变量间相关关系的一种统计方法.根 据相关关系的具体形态,明确谁是自变量(可控变量),谁 是因变量(随机变量),选择一个合适的数学模型,来近似 地表达变量间的平均变化关系.
“回归”一词由英国统计学家道尔顿提出.道尔顿在研
究人的身高问题时,发现父母的身高与子女的身高有一定 关系,父母高的子女反而矮一些,父母矮的子女反而高一 些,他称这种返祖现象为回归. 此后,回归分析泛指遵循 道尔顿研究问题的思想和方法的一类统计分析方法. 回归分析的目的——建立变量之间相关关系的具体的 数学表达形式,并藉此来探讨对因变量的预测问题.这不 仅依赖变量之间相关程度的度量(需要相关分析的辅助),
即 SSR 0, 表明
y
对
x
完全没有线性相关关系.
ˆ ˆ ˆ T ② r r 2 的统计意义是数据向量 ( y1 , y 2 ,, y n )
ˆ ( y1 , y 2 ,, y n ) T 的相关系数,其正负号与回归系数 与
的正负号相同.
⑶ 估计的标准误差 定义
s SSE n2
i 1
n
则有
⑴ ⑵ ⑶
SST SSR SSE.
SSE
2
~ 2 (n 2) 且 E ( SSE) (n 2) 2 .
ˆ SSE 与 相互独立.
显著性检验的基本方法 ⑴ 方差分析(F检验)
检验假设
H 0 : 变量
y 对变量 x 不存在线性相关关系(即
0 ).
检验统计量及其分布
对变量对
( x, y ) 的观测数据,则
yi xi i ,
称为一元样本回归方程,其中 i ~ N (0, 2 ), i 1,2,, n 且各 个
i 相互独立.
模型参数
与 的最小二乘估计
y i 回归到直线 Ey x
参数估计的准则 定义(诸 时的误差平方和)
可决系数 (测定回归直线对各个观测点的拟合程度的
的统计量)
SSR r . SST
2
可决系数的解释
① r 2 [0,1], r 2 的值越大(小),表明回归直线对
r 2 1, 即 SSE 0, 各个观测点的拟合程度越高(低);若
2 几乎有确定的线性函数关系;若 r 0,
表明
y
对
x
的无偏估计. 区间预测 当 x 0 取在
x
附近, n 很大时,
ˆ y0 y0 ~ N (0, s 2 ), s
⑴ ⑵
近似
SSE n2
因此,
y 0 的0.95预测置信区间近似为 ( y0 2s, y0 2s). ˆ ˆ
y 0 的0.99预测置信区间近似为 ( y0 3s, y0 3s). ˆ ˆ
⑵ 按相关形式划分 线性相关——两个变量之间呈线性关系的相关. 非线性相关——两个变量之间呈非线性关系的相关关系. ⑶ 按变量多少划分 单相关——两个变量之间的相关关系. 复相关——两个以上的变量之间的相关关系. 偏相关——在多个变量相关的场合,考察其中两个变量 的相关关系(假定其他变量不变).
⑷ 按相关性质划分 真实相关——变量之间具有内在联系的相关关系. 虚假相关——变量之间只是表面存在、而实质上并没
T 1
可以证明
ˆ ) , var( ) 1 2并且 k r ( k 0). ˆ ˆ E ( xy l xx
1 x2 ˆ ˆ E ( ) , var( ) n l xx 2 ,
其中
n 1 n x xi , l xx ( xi x ) 2 . n i 1 i 1