一元线性回归方程的建立22页word
一元线性回归方程
Upper 95% 238.4541 -118.508
第二十六页,编辑于星期六:十三点 五十五分。
Y
140 120 100
80 60 40 20
0 0
X Variable 1 Line Fit Plot
0.2
0.4
0.6
0.8
1
X Variable 1
Y 预测 Y
1.2
第二十七页,编辑于星期六:十三点 五十五分。
i 1
y )2
第八页,编辑于星期六:十三点 五十五分。
散点图
以(xi ,yi)为坐标在平面直角坐标系中描 点,所得到的这张图便称之为散点图.
第九页,编辑于星期六:十三点 五十五分。
北京市城市居民家庭生活抽样调查表1
Y:人均收入
14 12 10 8 6 4 2 0
1976
1978
1980 1982 1984
第二节
一元线性回归方程
第一页,编辑于星期六:十三点 五十五分。
一 回归直线方程
两个变量之间的线性关系,其回归模型为:
yi a bxi i
y称为因变量,x称为自变量, 称为随
机扰动,a,b称为待估计的回归参数, 下标i表示第i个观测值。
第二页,编辑于星期六:十三点 五十五分。
对于回归模型,我们假设:
4.代入样本信息,F落入否定域则否定原假设,
线性关系显著;落入接受域则接受原假设,
线性关系不显著.
第二十一页,编辑于星期六:十三点 五十五分。
相关系数检验法:
1.提出原假设:H0:b=0;
2.选择统计量 R lxy lxxl yy
3.对给定的显著性水平α,查临界值rα (n-2),
一元线性回归方程教学课件
Y:人均食品支出
北京市城市居民家庭生活抽样调查图表
10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18
x:人均生活费收入
第3页,共28页。
§1.1 模型的建立及其假定条件
一、一元线性回归模型
例如:研究某市可支配收入X对人均消费支出Y 的影响。建立如下理论 回归模型:
总离差平方和 = 回归平方和 + 残差平方和
SST
=
SSR
+
SSE
H0: 1 0 H1: 1 0
F SSR /1 ~ F (1, n 2) SSE /(n 2)
拒绝域 F >Fα (1,n-2)
第21页,共28页。
三、 用样本可决系数检验回归方程的拟合优度
R2 = SSR
SST
R2=0时 表明解释变量X与被解释变量Y之间不存在线性关系; R2=1时 表明样本回归线与样本值重合,这种情况极少发生; 一般情况下,R2越接近1表示拟合程度越好,X对Y的解释能力越强。
Yi = 0 + 1 Xi + εi
其中: Yi——被解释变量;
ε I ——随机误差项;
Xi——解释变量; 0,1—回归系数
随机变量ε i包含:
回归模型中省略的变量; 确定数学模型的误差; 测量误差
第4页,共28页。
假设调查了某社区所有居民,他们的人均可支配 收入和消费支出数据如下:
X 80 100 Y
(ei为εi的估计值)
第9页,共28页。
注意:分清4个式子的关系 (1)理论(真实的)回归模型:
Yi 0 1Xi i
(2)理论(真实的)回归直线:
E( Y | X i ) 0 1X i
(完整word版)一元线性回归方程的建立分析
第二节一元线性回归方程的建立一元线性回归分析是处理两个变量之间关系的最简单模型,它所研究的对象是两个变量之间的线性相关关系。
通过对这个模型的讨论,我们不仅可以掌握有关一元线性回归的知识,而且可以从中了解回归分析方法的基本思想、方法和应用。
一、问题的提出例2-1-1 为了研究氮含量对铁合金溶液初生奥氏体析出温度的影响,测定了不同氮含量时铁合金溶液初生奥氏体析出温度,得到表2-1-1给出的5组数据。
表2-1-1 氮含量与灰铸铁初生奥氏体析出温度测试数据如果把氮含量作为横坐标,把初生奥氏体析出温度作为纵坐标,将这些数据标在平面直角坐标上,则得图2-1-1,这个图称为散点图。
从图2-1-1可以看出,数据点基本落在一条直线附近。
这告诉我们,变量X与Y的关系大致可看作是线性关系,即它们之间的相互关系可以用线性关系来描述。
但是由于并非所有的数据点完全落在一条直线上,因此X与Y的关系并没有确切到可以唯一地由一个X值确定一个Y值的程度。
其它因素,诸如其它微量元素的含量以及测试误差等都会影响Y 的测试结果。
如果我们要研究X与Y的关系,可以作线性拟合(2-1-1)我们称(2-1-1)式为回归方程,a与b是待定常数,称为回归系数。
从理论上讲,(2-1-1)式有无穷多组解,回归分析的任务是求出其最佳的线性拟合。
二、最小二乘法原理如果把用回归方程计算得到的i值(i=1,2,…n)称为回归值,那么实际测量值y i与回归值i之间存在着偏差,我们把这种偏差称为残差,记为e i(i=1,2,3,…,n)。
这样,我们就可以用残差平方和来度量测量值与回归直线的接近或偏差程度。
残差平方和定义为:(2-1-2) 所谓最小二乘法,就是选择a和b使Q(a,b)最小,即用最小二乘法得到的回归直线是在所有直线中与测量值残差平方和Q最小的一条。
由(2-1-2)式可知Q是关于a,b的二次函数,所以它的最小值总是存在的。
下面讨论的a和b的求法。
三、正规方程组根据微分中求极值的方法可知,Q(a,b)取得最小值应满足(2-1-3)由(2-1-2)式,并考虑上述条件,则(2-1-4)(2-1-4)式称为正规方程组。
一元线性回归方程的建立22页
第二节一元线性回归方程的建立一元线性回归分析是处理两个变量之间关系的最简单模型,它所研究的对象是两个变量之间的线性相关关系。
通过对这个模型的讨论,我们不仅可以掌握有关一元线性回归的知识,而且可以从中了解回归分析方法的基本思想、方法和应用。
一、问题的提出例2-1-1 为了研究氮含量对铁合金溶液初生奥氏体析出温度的影响,测定了不同氮含量时铁合金溶液初生奥氏体析出温度,得到表2-1-1给出的5组数据。
表2-1-1 氮含量与灰铸铁初生奥氏体析出温度测试数据如果把氮含量作为横坐标,把初生奥氏体析出温度作为纵坐标,将这些数据标在平面直角坐标上,则得图2-1-1,这个图称为散点图。
从图2-1-1可以看出,数据点基本落在一条直线附近。
这告诉我们,变量X与Y的关系大致可看作是线性关系,即它们之间的相互关系可以用线性关系来描述。
但是由于并非所有的数据点完全落在一条直线上,因此X与Y的关系并没有确切到可以唯一地由一个X值确定一个Y值的程度。
其它因素,诸如其它微量元素的含量以及测试误差等都会影响Y的测试结果。
如果我们要研究X与Y的关系,可以作线性拟合(2-1-1)我们称(2-1-1)式为回归方程,a与b是待定常数,称为回归系数。
从理论上讲,(2-1-1)式有无穷多组解,回归分析的任务是求出其最佳的线性拟合。
二、最小二乘法原理如果把用回归方程计算得到的i值(i=1,2,…n)称为回归值,那么实际测量值yi 与回归值i之间存在着偏差,我们把这种偏差称为残差,记为ei(i=1,2,3,…,n)。
这样,我们就可以用残差平方和来度量测量值与回归直线的接近或偏差程度。
残差平方和定义为:(2-1-2) 所谓最小二乘法,就是选择a和b使Q(a,b)最小,即用最小二乘法得到的回归直线是在所有直线中与测量值残差平方和Q最小的一条。
由(2-1-2)式可知Q是关于a,b的二次函数,所以它的最小值总是存在的。
下面讨论的a和b的求法。
三、正规方程组根据微分中求极值的方法可知,Q(a,b)取得最小值应满足(2-1-3) 由(2-1-2)式,并考虑上述条件,则(2-1-4)(2-1-4)式称为正规方程组。
一元线性回归分析PPT课件
拟合程度评价
拟合程度是指样本观测值聚集在样本回归线周围的紧
密程度. ( Y t Y ) ( Y ˆ t Y ) ( Y t Y ˆ t)
n
n
n
(Y t Y )2 (Y ˆt Y )2 (Y t Y ˆ)2
t 1
t 1
t 1
n
(Yt Y)2 :总离差平方和,记为SST;
t1
n
第8页/共40页
例
食品序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
求和
脂肪Xt 4 6 6 8 19 11 12 12 26 21 11 16 14 9 9 5
热量Yt 110 120 120 164 430 192 175 236 429 318 249 281 160 147 210 120
第1页/共40页
回归分析的分类
一个自变量
一元回归
回归分析
两个及以上自变量
多元回归
线性 回归
非线性 回归
线性 回归
非线性 回归
第2页/共40页
一元线性回归模型
(一)总体回归函数
Yt=0+1Xt+ut
ut是随机误差项,又称随机干扰项,它是一个特殊的 随机变量,反映未列入方程式的其他各种因素对Y的 影响。
(ˆ1t(n2)Sˆ1)
2
第15页/共40页
回归分析的Excel实现
“工具”->“数据分析”->“回归”
第16页/共40页
ˆ 0
S ˆ 0
ˆ 1
S ˆ 1
(ˆ0t(n2)Sˆ0)
2
(ˆ1t(n2)Sˆ1)
2
第17页/共40页
一元线性回归方程
Sy
S余 n - m-1
4.94 0.994 7 11
当置信度为95.4%时,预测值y0的置信区间为: [ŷ0-2Sy,ŷ0+2Sy]=[59.46-2×0.994,
59.46+2×0.994]=[57.47,61.45]
多元线性回归预测分析法
在市场预测中,一个结果,有时会遇到两个因素或两 个以上的因素共同发生作用,此时就不能再用一元线性回归 方程预测了,而多元线性回归方程预测就是解决这类问题。
指数函数指数函数exponentialfunctionexponentialfunctionbtlnblnalnab回归分析中的非线性问题回归分析中的非线性问题33幂函数幂函数powerfunctionpowerfunction44双曲函数双曲函数hyperbolafunctionhyperbolafunction55对数函数对数函数logarithmfunctionlogarithmfunctionbtblntlna某店在19841993年的商品流通费用率和商品零售额的具体情况见表67若1995年商品销售额3633万元请预测1995年的商品流通费用率
chap7 回归分析预测法
一元线性回归预测法 多元线性回归预测法 非线性回归预测法 虚拟变量回归预测法
本章学习要点:
本章重点是要掌握回归分析预 测的原理与方法、步骤,特别是 能从实际出发解决一元线性回归 的预测问题。
第六章 回归分析预测法
回归分析起源于生物学的研究。 英国的著名生物学家达尔文在19世纪末,发现父 亲的身高与儿子的身高之间有密切的关系。一般来说, 父亲身材高大的,其子也比较高大,父亲矮小的,其 子也比较矮小。但是,在大量的研究资料中,又发现 身高有一种向平均身高回归的倾向,即身高很高大的 父亲,其子比父亲略矮;反之,很矮的父亲,其子比 父亲略高。这种身高倾向平均数的现象称为回归
课件 一元线性回归
y=7.743x+8.371
求回归直线方程的步骤:
⑴计算平均数 x 与 y ; ⑶计算 ;
2
⑵计算xi与yi的积,求 x
⑷将结果代入公式求 a;
i
yi
xi
⑸用 b y a x 求 b ; ⑹写出回归方程 .
教材 P 198 A 组
最佳直线的方程即为
这条直线就称作为
回归直线
以直线表示的相关关系就叫做
一元线性关系
一般地,寻求数学公式表达,我们总结出一个普遍适用的式子
回归直线方程 y a bx 其中a、b是待定系数 ˆ
b
n
xi yi nx y , xi nx
2 2
i 1
n
i ⑵在直角坐标系内作出图象.
⑶观察图象中的点有什么特点?
70 60 50 40 30 20 10 0 -5 0
热茶销售量/杯
y=bx+a
5
10
15
20
25 30 最低气温/℃
W(a,b)=(26b+a-20)2+(18b+a-24)2+(13b+a-34)2 + (10b+a-38)2+ (4b+a-50)2+(- b+a-64)2
x y 2 25
设对变量 x,y 有如下观察数据:
4 40 5 48 6 50 7 60 8 75
试写出y对x的回归直线方程
解: x(平均)=16/3 y(平均)=149/3 x(平均)*y(平均)=2384/9 x i y i(总和)=1770 x i2(总和)=194 n=6
得 b=7.743
第2章一元线性回归-精品文档
2 .1 一元线性回归模型
例2.2 全国人均消费金额记作y(元);
人均国民收入记为x(元)
表2.2
人均国民收入表
年份
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989
人均国民收 入(元) 460 489 525 580 692 853 956 1104 1355 1512
797.08
1879
890.66
2287
1063.39
2939
1323.22
3923
1736.32
4854
2224.59
5576
2627.06
6053
2819.36
6392
2958.18
2 .1 一元线性回归模型
一元线性回归模型 y=β0+β1x+ε
E( ) 0 var( ) 2
(xi , yi)
yˆ ˆ0 ˆ1x
x
2 .2 参数β0、β1的估计
Q
0
0
ˆ0
n
2
i1
(yi
ˆ0
ˆ1xi
)
0
Q
1 1
ˆ1
n
2
i1
(yi
ˆ0
ˆ1xi)xi
0
经整理后,得正规方程组
nˆ0
n
n
表2.1
火灾损失表
距消防站离 x(km) 3 . 4 1 . 8 4 . 6 2 . 3 3 . 1 5 . 5 0 . 7 3 . 0 火灾损失 y(千元) 26.2 17.8 31.3 23.1 27.5 36.0 14.1 22.3 距消防站离 x(km) 2 . 6 4 . 3 2 . 1 1 . 1 6 . 1 4 . 8 3 . 8 火灾损失 y(千元) 19.6 31.3 24.0 17.3 43.2 36.4 26.1
一元线性回归
2020/2/1
中山学院经济与管理系
4
2.1 模型的建立及其假定条件
2 回归分析的概念 回归分析研究一个变量关于另一个(些)变量的
具体依赖关系的计算方法和理论。
其用意:在于通过后者的已知或设定值,去估计 (或)预测前者的(总体)均值。
2020/2/1
中山学院经济与管理系
5
2.1 模型的建立及其假定条件
一般来说,回归模型的随机误差项中可能包 括如下几项内容。
(1)未在模型中列出的影响y变化的非重要
解释变量。如消费模型中家庭人口数、消 费习惯、物价水平差异等因素的影响都包 括在随机误差项中。
(2)人的随机行为。经济活动都是人参与 的。人的经济行为的变化也会对随机误差 项产生影响。
2020/2/1
中山学院经济与管理系
squares estimators)。
2020/2/1
中山学院经济与管理系
24
2.2 一元线性回归模型的参数估计
3 最小二乘直线的性质
(1)残n 差ei的均值等于0
因为 ei 0 ,所以 e
n
ei
i1
0
i 1
n
(2)残差ei与解释变量xi不相关
n
即
ei xi 0
(3)i1样本回归直线经过点( x, y )
y=33.73+0.516 x 这一方程表明:父母平均身高每增减一个单位时,其年 子女的身高仅平增减0.516个单位
2020/2/1
中山学院经济与管理系
6
这项研究结果表明,虽然高个子父辈有生高个子儿子
的趋势,矮个子的父辈有生矮个子儿子的趋势,但父辈
身高增减一个单位,儿子身高仅增减半个单位左右。通
一元线性回归方程
n
n
避免其偏离差(有正误差、负误差)相互抵消,采用偏离差平方和 Q(a ,b) ( yi yi )2
i 1
i 1
( yi a bxi )2(也称残差平方和)来刻画观测值(xi ,yi )与直线 y a bx 的偏离程度 . 一般
所说的回归直线就是使 Q(a ,b) 最小的直线,求所需回归直线的截距和斜率,就转化成了求使
Lxx (4)写出回归(估计)方程 y a bx .
一元线性回归方程
1.2 线性相关关系的显著性检验
从以上建立回归直线方程的过程不难看出,用最小二乘法所建立的回归直线方程,只是通 过一组样本观察值 (xi ,yi ) (i 1,2 , ,n) 来建立的 . 变量 x 与 y 之间是否存在线性关系,或者 其线性关系是否显著,还需进行检验.常用的线性相关关系的显著性检验有两种方法,即 F 检 验法和相关系数检验法 . 在此仅介绍相关系数检验法 .
0, 0.
即nan b a i1 xi
n
n
xi yi ,
i 1
i 1
n
n
b xi2 xi
i 1
i 1
yi
,取
x
y
1 n 1 n
n
i 1 n
i 1
xi , yi .
一元线性回归方程
n
n
n
n xi yi xi yi
n
xi yi nx y
b
解之得
i 1
,
即Q(a ,b) Lyy (1 R2 ) .
一元线性回归方程
n
n
因为Q(a ,b) ( yi yi )2 0 ,Lyy ( yi y)2 0 ,
i 1
建立一元线性回归模型
建立一元线性回归模型
建立一元线性回归模型的步骤如下:
1.选择自变量和因变量:确定自变量和因变量之间的关系,并准备
好数据。
2.计算自变量的平均值和标准差,因变量的平均值和标准差:使用
公式计算自变量和因变量的平均值和标准差。
3.计算自变量和因变量的相关系数:使用公式计算自变量和因变量
的相关系数。
4.计算回归系数:使用公式计算回归系数。
5.建立回归方程:使用计算得到的回归系数和自变量的平均值,建
立回归方程。
6.对回归方程进行检验:使用残差平方和、残差平均值、残差标准
差和相关系数等指标对回归方程进行检验。
7.进行预测:使用建立的回归方程进行预测,得出因变量的预测值。
8.对预测结果进行评估:使用预测误差、预测精度、预测准确率等
指标对预测结果进行评估。
总的来说,建立一元线性回归模型的过程包括选择自变量和因变量、计算自变量和因变量的平均值和标准差、计算自变量和因变量的相关系数、计算回归系数、建立回归方程、对回归方程进行检验、进行预测和对预测结果进行评估。
一元线性回归案例-22页PPT资料
例2. 一个简单的工资方程
美国研究者以1976年的526名美国工人为样 本,OLS回归方程为:
W=-0.90 +0.54 E 这里W单位为美元/小时,E单位为年. E平均工资计算为5.90美元/小时. 根据消费者价格指数,这一数值相当于2019
年的19.06美元.
例2. 一个简单的工资方程
对同样的数据,但是把log(w)作为因变量, 得到的回归方程为:
Log(invpc)=-0.550+1.24log(price) (0.043) (0.382)
N=42 R^2=0.208 显著性检验不明显,事实上这一关系也是错误的,未
来我们将加上时间序列分析中特有的趋势分析说 名这个问题.
例8. 集装箱吞吐量与外贸额
2019-2019年中国集装箱吞吐量增长与外贸 额增长的弹性分析.以Y表示集装箱吞吐量 (百万标准箱),X表示外贸额(百亿美元).
出勤率无关,但这几乎不可能.
例5. 学校的数学成绩与学校午餐项目
以math10表示高中十年级学生在一次标准化 数学考试中通过的百分比.lnchprg表示有资 格接受午餐计划的学生的百分比.
若其他条件不变,若学生太贫穷不能保证正常 饮食,可以有资格接受学校午餐项目的资助, 他的成绩应有所提高.
例5. 学校的数学成绩与学校午餐项目
OLS回归方程为 Y=3.7667+0.509X
(2.06) (31.78) t0.1(5)=2.776 n=6 R^2=0.996
例8. 集装箱吞吐量与外贸额
2019年 对外贸易总额217.37 Y(2019)=114.43 实际数据114.74 2019年 对外贸易总额256.16 Y(2019)=134.18 0.9区间为(128.81,139.54) 实际数据 129 2009年 对外贸易总额220.727 Y(2019)=116.14 0.9区间为(111.92,120.36) 实际数据 121
一元线性回归方程的建立精品文档21页
第二节一元线性回归方程的建立一元线性回归分析是处理两个变量之间关系的最简单模型,它所研究的对象是两个变量之间的线性相关关系。
通过对这个模型的讨论,我们不仅可以掌握有关一元线性回归的知识,而且可以从中了解回归分析方法的基本思想、方法和应用。
一、问题的提出例2-1-1 为了研究氮含量对铁合金溶液初生奥氏体析出温度的影响,测定了不同氮含量时铁合金溶液初生奥氏体析出温度,得到表2-1-1给出的5组数据。
表2-1-1 氮含量与灰铸铁初生奥氏体析出温度测试数据如果把氮含量作为横坐标,把初生奥氏体析出温度作为纵坐标,将这些数据标在平面直角坐标上,则得图2-1-1,这个图称为散点图。
从图2-1-1可以看出,数据点基本落在一条直线附近。
这告诉我们,变量X与Y的关系大致可看作是线性关系,即它们之间的相互关系可以用线性关系来描述。
但是由于并非所有的数据点完全落在一条直线上,因此X与Y的关系并没有确切到可以唯一地由一个X值确定一个Y值的程度。
其它因素,诸如其它微量元素的含量以及测试误差等都会影响Y 的测试结果。
如果我们要研究X与Y的关系,可以作线性拟合(2-1-1)我们称(2-1-1)式为回归方程,a与b是待定常数,称为回归系数。
从理论上讲,(2-1-1)式有无穷多组解,回归分析的任务是求出其最佳的线性拟合。
二、最小二乘法原理如果把用回归方程计算得到的i值(i=1,2,…n)称为回归值,那么实际测量值y i与回归值i之间存在着偏差,我们把这种偏差称为残差,记为e i(i=1,2,3,…,n)。
这样,我们就可以用残差平方和来度量测量值与回归直线的接近或偏差程度。
残差平方和定义为: (2-1-2) 所谓最小二乘法,就是选择a和b使Q(a,b)最小,即用最小二乘法得到的回归直线是在所有直线中与测量值残差平方和Q最小的一条。
第一节 回归方程的建立
x)
2
(x
i 1
n
x)
2
b
ˆ x ) Ey xE ( b ˆ) ˆ ) E( y b E(a a bx bx a
ˆ 的方差 ˆ、b 2、关于a
ˆ 由b Lxy Lxx
n
(x
i 1
n
i
x ) yi y (x i x )
i 1 2 ( x x ) i i 1 n n
(x
i 1 n
n
i
x )( yi y )
2 ( x x ) i i 1
记
Lxx (x i - x) x i nx
2 2
n
n
2
L yy (y i - y) y i ny
2 2 i 1 i 1 n n
i 1 n
i 1 n
2
Lxy (x i - x)(y i - y) x i yi nx y
n
i 1
i 1
由于yi 相互独立,且D(yi )=2
(x i x ) 2 2 ˆ 所以D( b ) (n ) 2 i 1 ( x x ) i
n i 1
n i 1
2
2 ( x x ) i
2 ˆ 回归系数b的波动不仅与随机误差 的方差 有关,
还与观测数据 xi的波动有关,如果 xi 取值较分散, ˆ 的波动就小,即估计量 ˆ 就较稳定。 则b b
第九章
§9.1
一元线性回归
回归方程的建立
一、变量间的关系 1、函数关系:确定性关系,它反映客观现 象的严格依存关系。
如:圆的半径 r 与周长 L 可以看成两个变 量,它们之间关系式 :L = 2r
建立一元线性回归方程一元线性回归方程如下三
可行性研究的概念
可行性研究的作用 可行性研究的阶段划分 可行性研究的基本工作程序 可行性研究报告的编制依据 可行性研究的编制原则 可行性研究的内容
一、可行性研究的概念 可行性研究(Feasibility Study) 建设必要性、可能性 技术先进性、适用性
工程项目的必要性、 可行性、合理性
第六章 建设项目可行性研究
§1 可行性研究概述
§2 市场调查方法 §3 市场预测方法
本章要求
熟悉可行性研究的概念和工作程序
明确可行性研究报告的作用和编制依据
掌握可行性研究报告的基本内容
了解市场调查的方法
本章重点
可行性研究的概念和工作程序 可行性研究报告的作用、编制依据和基本内容
§1可行性研究概述
【资料】
长江三峡水利枢纽工程是开发和治理长江的一项关键性 骨干工程,大坝坝址位于湖北省宜昌市三斗坪,在已建成的 葛洲坝水利枢纽上游的40公里处。三峡工程是中国也是世界 最大的水利枢纽工程。水库正常蓄水位175米,总库容积393 亿立方米。三峡水利枢纽是具有防洪、发电、航运等综合效 益的水资源多目标开发工程。 三峡工程的前期工作规模之大,时间之长,研究和论证 程度之深,在国内外是少见的。 国务院三峡工程审查委员 会对可行性研究报告进行了认真审查,认为三峡工程建设是 必要的,技术上是可行的,经济上是合理的,随着经济的发 展,国力是可以负担的。
管理科学为一体的综合性学科。
【资料】 联合国工业发展组织(UNIDO)
1978年《工业可行性研究手册》
1980年《工业项目评价手册》 1981年国务院第30号文件把可行性研究作为建
设前期工作中一个重要技术经济论证阶段,纳入基 本建设程序,作为编制和审批项目任务书的基础和 依据。
9.3一元线性回归模型构建
0
正规方程组
n
n
n
n
( Xi X )(Yi Y ) n XiYi Xi Yi
ˆ1
i 1
n
(Xi X )2
i 1
i1 n
i1 i1 n
n
X
2 i
(
Xi )2
i 1
i 1
n
n
n
n
ˆ0
i 1
一元线性回归模型构建
1.最小二乘法 2.正规方程组 3.一元线性回归模型构建实例
最小二乘法(Method of Least Squares )
一元线性回归模型 Yi 0 1Xi i (i 1, 2,...)
样本回归方程
Yˆi ˆ0 ˆ1Xi (i 1, 2,..., n)
一元线性回归模型构建实例
销售周期
1 2 3 4 5 … 26 27 28 29 30
表 牙膏销售量与广告费用的数据
销售量/百万支
广告费用/百万元
7.38 8.51 9.52 7.50 9.33
… 9.21 8.27 7.67 7.93 9.26
5.50 6.75 7.25 5.50 7.00
… 6.80 6.50 5.75 5.80 6.80
最小二乘法(Method of Least Squares )
Y
Yˆi ˆ0 ˆ1 X i
.( X n ,Yn ) ..
. . . ..
. ( X1,Y1)
.ei Yi Yˆi
( X i ,Yi )
.
( X 2 ,Y2 )
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节一元线性回归方程的建立一元线性回归分析是处理两个变量之间关系的最简单模型,它所研究的对象是两个变量之间的线性相关关系。
通过对这个模型的讨论,我们不仅可以掌握有关一元线性回归的知识,而且可以从中了解回归分析方法的基本思想、方法和应用。
一、问题的提出例2-1-1 为了研究氮含量对铁合金溶液初生奥氏体析出温度的影响,测定了不同氮含量时铁合金溶液初生奥氏体析出温度,得到表2-1-1给出的5组数据。
表2-1-1 氮含量与灰铸铁初生奥氏体析出温度测试数据如果把氮含量作为横坐标,把初生奥氏体析出温度作为纵坐标,将这些数据标在平面直角坐标上,则得图2-1-1,这个图称为散点图。
从图2-1-1可以看出,数据点基本落在一条直线附近。
这告诉我们,变量X与Y的关系大致可看作是线性关系,即它们之间的相互关系可以用线性关系来描述。
但是由于并非所有的数据点完全落在一条直线上,因此X与Y的关系并没有确切到可以唯一地由一个X值确定一个Y值的程度。
其它因素,诸如其它微量元素的含量以及测试误差等都会影响Y的测试结果。
如果我们要研究X与Y的关系,可以作线性拟合(2-1-1)我们称(2-1-1)式为回归方程,a与b是待定常数,称为回归系数。
从理论上讲,(2-1-1)式有无穷多组解,回归分析的任务是求出其最佳的线性拟合。
二、最小二乘法原理如果把用回归方程计算得到的i值(i=1,2,…n)称为回归值,那么实际测量值yi 与回归值i之间存在着偏差,我们把这种偏差称为残差,记为ei(i=1,2,3,…,n)。
这样,我们就可以用残差平方和来度量测量值与回归直线的接近或偏差程度。
残差平方和定义为:(2-1-2) 所谓最小二乘法,就是选择a和b使Q(a,b)最小,即用最小二乘法得到的回归直线是在所有直线中与测量值残差平方和Q最小的一条。
由(2-1-2)式可知Q是关于a,b的二次函数,所以它的最小值总是存在的。
下面讨论的a和b的求法。
三、正规方程组根据微分中求极值的方法可知,Q(a,b)取得最小值应满足(2-1-3) 由(2-1-2)式,并考虑上述条件,则(2-1-4)(2-1-4)式称为正规方程组。
解这一方程组可得(2-1-5) 其中(2-1-6)(2-1-7)式中,Lxy 称为xy的协方差之和,Lxx称为x的平方差之和。
如果改写(2-1-1)式,可得(2-1-8) 或(2-1-9)由此可见,回归直线是通过点的,即通过由所有实验测量值的平均值组成的点。
从力学观点看,即是N个散点的重心位置。
现在我们来建立关于例1的回归关系式。
将表2-1-1的结果代入(2-1-5)式至(2-1-7)式,得出a=1231.65b=-2236.63因此,在例1中灰铸铁初生奥氏体析出温度(y)与氮含量(x)的回归关系式为y=1231.65-2236.63x四、一元线性回归的统计学原理如果X和Y都是相关的随机变量,在确定x的条件下,对应的y值并不确定,而是形成一个分布。
当X取确定的值时,Y的数学期望值也就确定了,因此Y的数学期望是x的函数,即E(Y|)=f(x) (2-1-10)X=x这里方程f(x)称为Y对X的回归方程。
如果回归方程是线性的,则)=α+βx (2-1-11)E(Y|X=x或Y=α+βx+ε (2-1-12) 其中ε―随机误差从样本中我们只能得到关于特征数的估计,并不能精确地求出特征数。
因此只能用f(x)的估计式 来取代(2-1-11)式,用参数a 和b 分别作为α和β的估计量。
那么,这两个估计量是否能够满足要求呢?1. 无偏性把(x,y)的n 组观测值作为一个样本,由样本只能得到总体参数α和β的估计值。
可以证明,当满足下列条件:(1)(x i ,y i )是n 个相互独立的观测值(2)εi 是服从 分布的随机变量则由最小二乘法得到的a 与b 分别是总体参数α和β的无偏估计,即E(a)= αE(b )=β由此可推知 E( )=E(y)即y 是回归值 在某点的数学期望值。
2. a 和b 的方差可以证明,当n 组观测值(x i,y i )相互独立,并且D(y i )=σ2,时,a 和b 的方差为(2-1-13)(2-1-14)以上两式表明,a和b的方差均与xi 的变动有关,xi分布越宽,则a和b的方差越小。
另外a的方差还与观测点的数量有关,数据越多,a的方差越小。
因此,为提高估计量的准确性,xi的分布应尽量宽,观测点数量应尽量多。
第三节回归方程的显著性检验一、相关系数的显著性检验在上面的分析中,为了求得回归方程,我们曾假定x与y之间存在着线性关系。
在求得回归方程后,我们必须对这一假定进行检验,以确定x与y是否的确存在线性关系。
设(X,Y)为二维随机变量,如果E[X-EX][Y-EY]存在,则称它为X 与Y之间的协方差,记为Cov(X,Y)。
即Cov(X,Y)=E[X-E(x)][Y-E(y)] (2-1-15) 如果D(X)>0,D(Y)>0,则称(2-1-16) 为X与Y之间的相关系数。
对于一个具有n组观测值的样本,其相关系数γ定义为(2-1-17)称为观测值的离差平方和,记为其中Lyy(2-1-18)见式(2-1-7)。
相关系数是绝对值小于1,大于0的无量纲统计量。
接近于1,表明x与y之间线性关系密切。
当=1时,表示两个变量间存在确定性的线性函数关系。
当=0时,表示两个变量间无线性关系。
这时有两种可能情况,一种是二者没有关系(如图2-1-2(c)),另一种可能是二者有非线性关系(如图2-1-2(d))。
相关系数的正负号由决定,即与b同号。
当 >0时,y随x的增加而增加,当 <0时,y随的x增加而减少。
相关系数的直观意义参见图2-1-2。
见方开泰《实用回归分析》P32图2.2相关性检验一般利用相关系数检验表(见附录)进行。
该表中给出的值为相关系数的起码值。
只有当求出的相关系数大于表上相应的数值时,才能考虑用直线来描述x和y之间的相关关系。
查表时要遇到三个参数:变量总数、自由度和置信水平。
对于一元回归分析,变量只有两个(x,y)。
自由度等于数据组数与变量个数之差。
置信水平(5%和1%)表示线性相关的程度。
通常当大于表上相应的值,但小于表上相应的值时,称为x与y有显著的线性关系;如果大于表上相应的值时,称x与y有十分显著的线性关系;如果小于表上相应的值时,称为x与y没有明显的线性关系,即回归方程没有实际意义。
对于本章例1,变量有2个,共5组数据,故自由度数为5-2=3,表中相应的值为0.878,相应的值为0.959。
由式(2-1-17)计算得到的相关系数。
可见0.878< <0.959因此灰铸铁初生奥氏体析出温度与含氮量之间存在着显著的线性关系。
二、方差分析与F检验与其平均值的偏 n个观测值之间存在着差异,我们用观测值yi差平方和来表示这种差异程度,称其为总离差平方和,记为(2-1-19)由于(2-1-20) 所以(2-1-21)式中 称为回归平方和,记为S 回。
称为残差平方和,记为 。
不难证明,最后一项。
因此S 总=S 回+S 残 (2-1-22)上式表明,y 的偏差是由两个因素造成的,一是x 变化所引起,二是各种偶然因素干扰所致。
事实上,S 回和S 残可用下面更简单的关系式来计算。
(2-1-23)(2-1-24) 具体检验可在方差分析表上进行。
见方开泰《实用回归分析》P34表2.2这里要注意S 回的自由度为1,S 残的自由度为n -2,S 总的自由度为n -1。
如果x 与y 有线性关系,则(2-1-25)其中,F (1,n-2)表示第一自由度为1,第二自由度为n-2的分布。
在F 表中显著性水平用 表示, 一般取0.10,0.05,0.01,1- 表示检验的可靠程度。
在进行检验时,表2-1-2中的F 值应大于F 表中的临界值F α。
若F<0.05(1,n-2),则称x 与y 没有明显的线性关系,若F 0.05(1,n-2)<F<F 0.01(1,n-2),则称x 与y 有显著的线性关系;若F>F 0.01(1,n-2),则称x 与y 有十分显著的线性关系。
当x 与y 有显著的线性关系时,在表2-1-2的显著性栏中标以〝*〞;当x 与y 有十分显著的线性关系时,标以〝**〞。
下面对例1中x 与y 的线性关系进行F 检验。
由式(2-1-6)、式(2-1-7)、式(2-1-18)、式(2-1-23)及式(2-1-24),可得计算结果如表2-1-3。
由F 表查得F 0.05(1,3)=10.1,F 0.01(1,3)=34.1,而计算值F=16.37,可见F 0.05<F<F 0.01,因此x 与y 之间有显著的线性相关关系,在表2-1-3中标以〝*〞。
表2-1-3 例1方差分析表第四节残差分析、预报和控制一、残差分析前面我们介绍了线性回归方程的建立和检验。
在实际问题中,由于观察人员的粗心或偶然因素的干扰。
常会使我们所得到的数据不完全可靠, 即出现异常数据。
有时即使通过相关系数或F检验证实回归方程可靠,也不能排除数据存在上述问题。
残差分析的目的就在于解决这一问题。
所谓残差是指实际观察值与回归估计值的差,即(2-1-26) 显然,有多少对数据,就有多少个残差。
残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。
首先介绍如何检查异常数据。
异常数据是指与其它数据产生的条件有明显不同的数据,因此异常数据的残差会特别的大。
一旦发现异常数据应及时剔除,用剩余数据重新建立回归方程,以提高回归方程的质量。
发现异常数据主要从技术上找原因,当技术上无法找到原因时,就得借助于数理统计方法。
由数理统计方法可以证明(2-1-27)或记为(2-1-28)这说明残差的方差D(e)是x的函数,且二者呈曲线关系。
以回归方程及方程和作图。
见方开泰《实用回归分析》P45图2.3考虑到较小,当n较大时(2-1-29) 此时图中的两条曲线可近似于两条平行直线。
从而有(2-1-30) 或近似地(2-1-31)落在图2-1-3的长条形带子中的概率约为这表明,当n较大时yi95%,只要知道,就可以得到残差的置信区域。
一般是未知的,通常用残差标准差来估计。
可用下式求得(2-1-32)由此可得残差置信带(2-1-33)对残差在置信带以外的数据都要进行检查,以区别是否是异常数据,如果是异常数据就要剔除掉。
现在我们对例1做残差检查。
由式(2-1-32)残差置信带为(-5.712,5.712)。
计算5个实验点的预报值与残差值(见表2-1-4),并作出残差检查图(见图2-1-4)表2-1-4 例1的残差值图2-1-4 例1的残差图由图2-1-4可见,例1中全部数据的残差都在置信带内,没有异常数据。