多元统计学课件 回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
yi y
yˆi y
y
x
误差平方和的分解
n
n
一元线性回归的数学模型
建筑面积与建筑成本
序号 1 2 3 4 5 6
x建筑面积(万平米) 4 2 3 5 4 5
y建造成本(万元) 14.8 12.8 13.3 15.4 14.3 15.9
16.0
15.5
15.0
14.5
14.0
建造成本
13.5
13.0
12.5
1.5
2.0
2.5
3.0
3.5
4.0
回归分析解决的问题及步骤
1. 利用样本数据建立模型的估计方程(回归方程)
2. 对模型进行显著性检验 模型的整体性检验 回归系数的检验
3. 模型的进一步应用 预测:进而通过一个或几个自变量的取值来 估计或预测因变量的取值 控制:给定因变量一定范围的取值,控制自 变量的取值
一元线性回归分析
➢最小平方估计 ➢假设检验 ➢利用一元线性回归模型预测
(xi x )
n
x )yi
(xi x )2
i 1
➢ 性质2 无偏性
E(ˆ1) 1, E(ˆ0) 0
➢ 性质3
var(ˆ1)
2
Lxx
,
var(ˆ0 )
1 n
x2 Lxx
2,
cov(
ˆ0
,
ˆ1
)
x Lxx
2
在进一步假定εi ~N(0,σ2) 时,有
ˆ1
~
N
(1,
2
Lxx
),
ˆ0
~
N
0,
1 n
回归分析 (Regression Analysis)
主要内容
➢ 一元线性回归分析 ➢ 多元线性回归分析 ➢ 逐步回归分析 ➢ 含定性自变量的回归分析
回归分析的起源(1)
英国统计学家F.高尔顿和皮尔逊在研究父母身高 与其子女身高的遗传问题时,观察了1078对夫妇, 以每对夫妇的平均身高作为x,而取他们的一个成 年儿子的身高作为y,将结果在平面直角坐标系上 绘成散点图,发现趋势近乎一条直线。并计算出的 回归直线方程为
yˆ 3 3 .7 3 0 .5 1 6 x
回归分析的起源(2)
➢ 研究结果表明 一群高个子父辈的儿子们在同龄人中平均仅为略 高个子,一群矮个子父辈的儿子们在同龄人中平 均仅为略矮个子,即子代的平均高度向中心“回 归”了。这一趋势现在被称作“回归效应”。
回归分析的起源(3)
➢ 后来,人们发现它的应用很广,而不局限于身高的遗传问 题。 如,在第一次考试中成绩最差的那些学生在第二次考试 中倾向于有更好的成绩(比较接近所有学生的平均成绩), 而第一次考试中成绩最好的那些学生在第二次考试中则 倾向于有较差的成绩(同样比较接近所有学生的平均成 绩)。 同样,平均来说,第一年利润最低的公司第二年不会最 差,而第一年利润最高的公司第二年则不会是最好的
为y关于x的一元线性回归方程
最小二乘估计(性质)
➢ 性质1 线性:估计量 ˆ0和 ˆ1 分别为随机变量 y 的 线性函数
n
(xi x )( yi y ) n
ˆ1 i1 n
(xi x )
n
yi
(xi x )2
i1 ( xi x )2
i 1
i 1
ˆ0
y
ˆ1 x
n i 1
(1 n
x
n
使 Q ( 0 , 1 ) yi 0 1xi 2 为最小 பைடு நூலகம் 1
Q(β0, β1)分别对β0, β1求偏导,并令其为零,即可得 到对应的解
n
其解:
ˆ1
Lxy Lxx
xi x yi y
i 1 n
, ˆ0 y ˆ1x
xi x 2
i 1
为0 ,1的最小平方估计
称 yˆ ˆ0 ˆ1x
4.5
5.0
5.5
建筑面积
x与y间的散点图
数据结构 回归函数 回归方程
y 0 1x
E( y) 0 1x
y 0 1 x
0, 1为模型的参数 回归系数:0 , 1
一、数学模型
yi 0 1xi i , i 1,2,..., n i , j相互独立,且E ( i ) 0, D( i ) 2
回归分析与相关分析的区别
1. 相关分析:变量x和变量y处于平等的地位 回归分析:变量y称为因变量,处在被解释的地位,x称自 变量,用于预测因变量的变化
2. 相关分析:描述两个变量之间线性关系的密切程度 回归分析:可以揭示变量x对变量y的影响大小,还可以由 回归方程进行预测和控制
回归分析与相关分析的联系
什么是回归分析
➢ 研究某些实际问题时往往涉及到多个变量。在这 些变量中,有一个变量是研究中特别关注的,称 为因变量,通常用y表示;而其他变量则看成是 影 响 这 一 变 量 的 因 素 , 称 为 自 变 量 , 用 x1 , x2,……,xp表示。
➢ 假定因变量与自变量之间有某种关系,并把这种 关系用适当的数学模型表达出来,从而揭示变量 现象间的统计关系。这就是回归分析。
i, j 1,2,..., n
必要时还假定 :
各
独
i
立
同
分
布
(即
iid
),
服
从
N
(
0,
2
)
E ( yi ) 0 1 xi , var( yi )= 2 , i 1, 2, , n.
回归函数 E ( y ) 0 1 x
描述了y的均值与x的关系,或者可以理解为从平 均意义上表达了变量y与x的统计规律性
x2 Lxx
2
三、回归方程的显著性检验(回归系数检验)
➢ 要使一元线性回归方程有意义,仅对β1是否为零 进行显著性检验
➢ y1, y2 , 不, y同n 的原因有两个: E( y) 随 x 线性变化所导致的; 其它一切因素的影响造成的。
误差分解图
y
(xi, yi )
yi yˆi
yˆ ˆ 0 ˆ1 x
二、最小平方估计(最小二乘法)
➢ 基本思想:散点图中的点 (xi , yi )与回归直线 上的点 (xi , yˆi ) 偏离越小越好。
最小二乘估计(图示)
y
(xn , yn)
(x , y ) 2
2 Yˆ ˆ0 ˆ1 X
ei = yi-^yi
(x1 , y1)
(xi , yi)
yˆ ycˆ0 a ˆb1 x
➢ 相关分析需要回归分析来标明变量间数量关系 的具体形式
➢ 回归分析应建立在相关分析的基础上 依靠相关分析表明现象的数量变化密切相关 时,进行回归分析求其相关的具体形式才有 意义。 在相关程度很低的情况下,回归函数的表达 式代表性就很差。
回归模型的类型
回归模型
一元回归
多元回归
线性回归 非线性回归 线性回归 非线性回归