3.2 回归分析-王后雄学案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
张喜林制
3.2 回归分析
教材知识检索
考点知识清单
1.对于一组具有线性相关关系的数据
,),,(),,(2211 y x y x
),,(n n y x
我们知道其回归方程的截距和斜率的最小二乘估计
公式分别为:
(1)
(2)
其中
,1,11
1i n
i i n i y n y x n x ∑∑==== 称为样本点的中心,回
归直线必然过样本点的中心,
,2e a bx y ++=⋅
这里a 和b 为模型的未知参数,e 是y 与
+=bx y
ˆ a
之间的误差,通常e 为随机变量,称为随机误差,它的均值
,0)(=e E
方差
.0)(2>=σe D
这样线性回归模型的完整表达
式为:
=i e
ˆ.3 i e
ˆ 称为相应于点
),(i i y x
的残差.类比样本方差估计总体方差
的思想,可以用 作为
2σ
的估计量,其中
b h a
ˆ*ˆ 由相应
公式给出,
)ˆ,ˆ(b a
Q 称为残差平方和( residual sum of squares).
可以用
2ˆσ
衡量回归方程的预报精度,通常
2ˆ,σ
越小,预报精
度越高.
4.在研究两个变量间的关系时,首先要根据 来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后,可以通过残差 来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析,
要点核心解读
1.变量间的相关关系及线性回归方程(1)变量间的相关关系:
①变量与变量间的两种关系:a .函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确
定.例如圆的面积S 与半径r 之间的关系
2r s π=
为函数关系.
b .相关关系:这是一种非确定性关系.即当自变量取值一定时,因变量的取值有一定的随机性,它还受一些其他因素的影响,例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系.
相关关系又包括两种:a .在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量.b .两个变量均为随机变量,如某学生的语文成绩与化学成绩.本
书主要涉及上述相关关系的前一种情况.
②散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据,
③正相关与负相关:根据变量相关性的不同,线性相关关系可分为正相关与负相关.正相关是指两个变量之间的变化趋势方向一致,即一个变量随另一个变量的增长而呈增长趋势;负相关是指两个变量变化趋势方向相反,如产品单位成本降低,利润随之增加就是负相关.
(2)线性回归方程:
①线性回归模型:一组数据对应点在一条直线附近,但并不在同一条直线上,也就是说,两者之间不能用线性关系准确地表
示出来,为此我们将两者之间的关系表示为
,⊕++=εbx a y
其
中a+ bx 称为确定性函数,£称为随机误差,它产生的原因主要有:a .所用的确定性函数不恰当引起的误差.b .忽略了某些因素的影响;c .观测误差.我们将方程④称为线性回归模型( linearregression model).
②回归直线:一般地,设x 与y 是具有相关关系的两个变
量,且对应于几组观测值的几个点
),,2,1)(,(n i y x i i =
大致
分布在一条直线附近,我们就称这两个变量之间具有线性相关关系.显然,这样的直线可以画出许多条,其中“最贴近”这些数据点的一条叫做回归直线,
③线性回归方程:根据线性回归模型,对于每一个
,i x
对应
的随机误差
),(i i i bx a y +-=ε
利用最小二乘法可求出线性回
归方程( equation of linear regression)为
.ˆˆˆx
b a y += 其中的
a
ˆ 称为
回归截距,
b
ˆ 称为回归系数,
y
ˆ
称为回归值.求
b a
ˆˆ- 的具体计算公
式为
⎪⎪⎪⎩⎪⎪⎪⎨⎧-=-=--=∑∑∑∑∑=====.ˆˆ,)()()(ˆ22112111x b y a
S y x xy x x n y x y x n b x n i i n i i n i i n i i n i i i 其中
x
与
x S
分
别表示数据
),,2,1(n i x i =
的均值和标准差,
γ⋅
表示数据
=⋅i y i (
),,2,1n
的均值,
xy
表示数据
),,2,1(n i y x i i =
的均值.
b a
ˆˆ 的意义是:以
a
ˆ 为基数,x 每增加一个单位,y 相应地平均
变化
⋅b
ˆ