第九章 线性回归与方差分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i 1
x)( yi
y)
n i 1
xi yi
1
n
n i 1
xi
n i 1
yi .
S
yy
n
( yi
i 1
y )2
n i 1
yi2
1
n
n i 1
yi
2
这样a,b的估计值可写成

S xy S xx

1 n
n i 1
yi
1 n
n i 1
xi

下面再用矩法求 2的估计
直线附近.但各点不完全在一条直线上,这是由于Y
还受到其他一些随机因素的影响.
这样,Y可以看成是由两部分叠加而成,一部
分是x的线性函数a+bx,另一部分是随机因素引起的
误差 ,即
y
Y=a+bx+
500
* *L
400 300
*
*
*
*
200
100
o
* **
20
40
60
Βιβλιοθήκη Baidu
80
100 120
这就是所谓的 一元线性回归模型
对于具有相关关系的变量,虽然不能找到他们之间 的确定表达式,但是通过大量的观测数据,可以发 现他们之间存在一定的统计规律,
数理统计中研究变量之间相关关系的一种有效方法 就是回归分析。
一、 一元线性回归模型
假定我们要考虑自变量x与因变量Y之间的相关关系 假设x为可以控制或可以精确观察的变量,即x为普 通的变量。由于自变量x给定后,因变量Y并不能确 定,从而Y是一个与x有关的随机变量
函数关系,事实上,即使不同的厂家投入了相同 的广告费,其销售额也不会是完全相同的。影响 销售额的因素是多种多样的,除了广告投入的影 响,还与厂家产品的特色、定价、销售渠道、售 后服务以及其他一些偶然因素有关。
画出散点图如图9-1所示.从图中可以看出,随
着广告投入费x的增加,销售额Y基本上也呈上升
趋势,图中的点大致分布在一条向右上方延伸的
小二乘估计
此时,拟合直线为
yˆ aˆ bˆx
或 $y y bˆ(x x)
拟合直线也称为y关于x的经验回归方程、 有时也称为y关于x的一元线性回归方程
为了计算上的方便, 引入下述记号:
Sxx
n i 1
( xi
x )2
n i 1
xi2
1
n
n i 1
xi
2
S
xy
n
( xi
Q(a, b)为最小(图9-2)
图9-2
为了求Q(a, b)的最小值,分别求Q关于a, b的偏导数,并令它们等于零:
a
Q(a,
b)
b
Q(a,
b)
n
i 1 n
i 1
( yi ( yi
a a
bxi )(2) bxi )(2xi )
0
0
经整理后得到
na
n
xi b
n
bi
i1
由于 2 D E 2
由矩估计法,可用
1 n
n i1
2 i
估计
E
2
而i yi a bxi ,a、b分别由 aˆ、bˆ代入

2可用
ˆ 2
1 n
n
( yi
i1
aˆ bˆxi )2
作估计
为了计算¶2 ,引入下述残差平方和
记 µyi $y xxi a$ b$x i
, 则称
yi
我们对于可控制变量x取定一组不完全相同的值 x1,…,xn,作n次独立试验,得到n对观测结果:
(x1,y1) ,(x2,y2),…,(xn, yn)
其中yi是x=xi时随机变量Y的观测结果.将n对观测结 果(xi,yi)(i=1,…,n)在直角坐标系中进行描点, 这种描点图称为散点图.散点图可以帮助我们精略 地看出Y与x之间的某种关系.
例如,农作物的单位面积产量与施肥量之间有 密切的关系,但是不能由施肥量精确知道单位面积 产量,这是因为单位面积产量还受到许多其他因素 及一些无法控制的随机因素的影响。
又如,人的身高与体重之间存在一种关系,一般来 说,人身高越高,体重越大,
但同样高度的人,体重却往往不同。这种变量之间 的不确定性关系称之为相关关系。
x
图9-1
一般地,假设x与Y之间的相关关系可表示为
Y a bx (1)
其中:a, b为未知常数
为随机误差且 ~ N (0, 2 ) 2 未知,
x与Y的这种关系称为一元线性回归模型
y=a+bx称为回归直线 b称为回归系数
此时 Y ~ N(a bx, 2 )
对于(x, Y)的样本(x1,y1),…,(xn,yn)有:
i 1
n i 1
xi a n i1
xi2 b
n i 1
xi yi
式(2)称为正规方程组.
(2)
由正 规方程组解得
n
( xi x)( yi y)
bˆ i1 n
(xi x) 2
i 1
aˆ y bˆx
其中
x
1 n
n i1
xi ,
y
1 n
n i1
yi
用最小二乘法求出的估计 aˆ 、bˆ 分别称为a、b的最
(2)对回归模型作显著性检验; (3)当x=x0时对Y的取值作预测,即对Y作区间 估计.
二、 参数a、b、 2 的估计
现在我们用最小二乘法来估计模型(1)中的
未知参数a,b.
n
n
记 Q Q(a,b)
2 i
( yi a bxi )2
i 1
i 1
称Q(a, b)为偏差平方和
最小二乘法就是选择a,b的估计 aˆ, bˆ,使得
yi a bxi i i 1,, n
i ~ N (0, 2 )
1,
,
相互独立
n
如果由样本得到式(1)中,a, b的估计值 aˆ, bˆ ,
则称 yˆ aˆ bˆx为拟合直线或经验回归直线,它 可作为回归直线的估计
一元线性回归主要解决下列一些问题:
(1)利用样本对未知参数a、b、 2进行估计;
第九章 线性回归分析与方差分析
第一节 一元线性回归分析 第二节 可线性化的非线性回归 第三节 多元线性回归简介 第四节 方差分析
第一节 一元线性回归分析
在许多实际问题中,我们常常需要研究多 个变量之间的相互关系。 一般来说,变量之间的关系可分为两类: 一类是确定性关系,确定性关系是指变量之间的关 系可以用函数关系来表达,例如电流I电压V电 阻R之间有关系式V=IR。 另一类是非确定性关系,有些变量之间的关系是非 确定性的关系,这种关系无法用一个精确的函数 式来表示。
µyi为x
例1 对某广告公司为了研究某一类产品的广告费用x 与其销售额Y之间的关系,对多个厂家进行调查, 获得如下数据
厂家 1 广告费 6 销售额 31
23 456789 10 21 40 62 62 90 100 120 58 124 220 299 190 320 406 380
广告费与销售额之间不可能存在一个明确的
相关文档
最新文档