第八章一元线性回归分析
一元回归及简单相关分析PPT课件
不同NaCI含量对单位叶面积干物重影响的散点图
增加每一NaCI含量下观测次数(10次重复观测值及平均值如下)
土壤NaCI含量 / g.kg-1
0
0.8
1.6
2.4
3.2
4.0
4.8
1
80
90
95
115
130
115
135
2
100
85
89
94
106
125
137
3
75
107
115
103
103
128
128
(df: n大-2, n小-2)
F >Fα/2时,拒绝H0,说明两回归线的总体方差不一致,差异显著;
F<Fα/2时,接受H0,说明两回归线有一共同的总体方差,估计值为:
MS e
n1
2MSe1 n2 n1 2 n2
2MSe2 2
⑵ 检验b1和b2有无显著差异:
H0: β1-β2=0
HA: β1-β2≠0
n
用SXY表示。
n
xi
i 1 n
x yi
y
示X的。校正平方和,用SXX表
xi x 2
i 1
n
表Y的示总。校正平方和,用SYY
b S XY
yi y 2
i 1
S XX
⑵ α的最小二乘估计:
a y bx
x
1 n
n i 1
xi
y
1 n
n i 1
yi
四、回归方程的计算实例
【例10.1】根据下表中的数据,计算干物重在NaCI含量上的回归 方程。
S S X1X1
X2X2
一元线性回归分析
一元线性回归分析摘要:一元线性回归分析是一种常用的预测和建模技术,广泛应用于各个领域,如经济学、统计学、金融学等。
本文将详细介绍一元线性回归分析的基本概念、模型建立、参数估计和模型检验等方面内容,并通过一个具体的案例来说明如何应用一元线性回归分析进行数据分析和预测。
1. 引言1.1 背景一元线性回归分析是通过建立一个线性模型,来描述自变量和因变量之间的关系。
通过分析模型的拟合程度和参数估计值,我们可以了解自变量对因变量的影响,并进行预测和决策。
1.2 目的本文的目的是介绍一元线性回归分析的基本原理、建模过程和应用方法,帮助读者了解和应用这一常用的数据分析技术。
2. 一元线性回归模型2.1 模型表达式一元线性回归模型的基本形式为:Y = β0 + β1X + ε其中,Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项。
2.2 模型假设一元线性回归模型的基本假设包括:- 线性关系假设:自变量X与因变量Y之间存在线性关系。
- 独立性假设:每个观测值之间相互独立。
- 正态性假设:误差项ε服从正态分布。
- 同方差性假设:每个自变量取值下的误差项具有相同的方差。
3. 一元线性回归分析步骤3.1 数据收集和整理在进行一元线性回归分析之前,需要收集相关的自变量和因变量数据,并对数据进行整理和清洗,以保证数据的准确性和可用性。
3.2 模型建立通过将数据代入一元线性回归模型的表达式,可以得到回归方程的具体形式。
根据实际需求和数据特点,选择适当的变量和函数形式,建立最优的回归模型。
3.3 参数估计利用最小二乘法或最大似然法等统计方法,估计回归模型中的参数。
通过最小化观测值与回归模型预测值之间的差异,找到最优的参数估计值。
3.4 模型检验通过对回归模型的拟合程度进行检验,评估模型的准确性和可靠性。
常用的检验方法包括:残差分析、显著性检验、回归系数的显著性检验等。
4. 一元线性回归分析实例为了更好地理解一元线性回归分析的应用,我们以房价和房屋面积之间的关系为例进行分析。
一元线性回归分析
S xx xi2 nx 2 218500 10 1452 8250 S xy xi yi nx y 101570 10 145 67.3
i 1
3985 ˆ S xy 3985 0.483 b S xx 8250 ˆ ˆ a y xb 67.3 145 0.483 2.735
这里45.394>2.306,即|t|值在H0的拒绝域内,故 拒绝H0 ,说明回归效果是显著的。 b的置信度为0.95(=0.05)的置信区间为 0.934 0.934 (b, b ) 0.483 2.306 , 0.483 2.306 8250 8250
i 1 n 2 n
2
ˆ ˆ yi y yi yi
i 1 i 1
2
S回 Qe
18
线性回归的方差分析
回归平方和
残差平方和
ˆ S回 yi y
i 1 n
n
2
ˆ Qe yi yi
i 1
2
Syy自由度为n-1, Qe自由度为n-2, S回自由度为1
平方和 1924.6 7.5 1932.1
自由度
均方
F比
回归 残差 总和
1 8 9
1924.6 0.94
2047.4
30
对=0.01,查出F0.01(1,8)=11.26 因为2047.3 >>11.26,所以回归效果是 非常显著的。
六、利用回归方程进行预报(预测) 回归问题中Y是随机变量,x是普通 变量。回归方程 y a bx 是Y对x的依赖 ˆ ˆ ˆ 关系的一个估计。对给定的x值,用回归 方程确定Y的值,叫预报。
第八章8.2一元线性回归模型及其应用PPT课件(人教版)
三、非线性回归
例3 下表为收集到的一组数据: x 21 23 25 27 29 32 35 y 7 11 21 24 66 115 325 (1)作出x与y的散点图,并猜测x与y之间的关系;
解 作出散点图如图,从散点图可以看出x 与y不具有线性相关关系,根据已有知识可 以发现样本点散布在某一条指数函数型曲线 y=c1ec2x的周围,其中c1,c2为待定的参数.
年份
2015 202X 202X 202X 202X
时间代号t
1
2
3
4
5
储蓄存款y(千亿元) 5
6
7
8
10
(1)求 y 关于 t 的经验回归方程y^=b^ t+a^ ;
n
tiyi-n t y
i=1
参考公式:b^ =
n
t2i -n
t2
,a^ =
y
-b^
t
i=1
解 由题意可知,n=5, t =1nn ti=155=3, i=1
来比较两个模型的拟合效果,R2 越 大 ,模型
n
yi- y 2
i=1
拟合效果越好,R2 越 小 ,模型拟合效果越差.
思考 利用经验回归方程求得的函数值一定是真实值吗? 答案 不一定,他只是真实值的一个预测估计值.
思考辨析 判断正误
SI KAO BIAN XI PAN DUAN ZHENG WU
知识点四 对模型刻画数据效果的分析
1.残差图法
在残差图中,如果残差比较均匀地集中在以 横轴为对称轴的水平带状
区域内 ,则说明经验回归方程较好地刻画了两个变量的关系.
2.残差平方和法
n
(yi-y^i)2
残差平方和 i=1
一元线性回归
一元线性回归
一、回归分析的基本思想 二、一元线性回归的数学模型 三、可化为一元线性回归的问题 四、小结
一、回归分析的基本思想
确定性关系 变量之间的关系 相 关 关 系
S πr 2
身高和体重
确定性关系 相关关系
相关关系的特征是:变量之间的关系很难用一 种精确的方法表示出来.
确定性关系和相关关系的联系
n
xi x
2 ( x x ) j j 1 n
var( y ) i
2
2
2 ( x x ) j j 1 n
1 xi x ˆ 0 y 1 x ( x ) yi n lxx
1 xi x ˆ Var ( 0 ) x lxx n
由于存在测量误差等原因,确定性关系在实际 问题中往往通过相关关系表示出来;另一方面,当对 事物内部规律了解得更加深刻时,相关关系也有可 能转化为确定性关系. 回归分析——处理变量之间的相关关系的一 种数学方法,它是最常用的数理统计方法.
回 归 分 析
线性回归分析
非线性回归分析
一元线性回归分析
多元线性回归分析 β1 = Nhomakorabea(x
i=1 n
n
i
x )( yi y ) ,
2 ( x x ) i i=1
β0 = y β1 x,
1 n 1 n 其中 x xi , y yi . n i 1 n i 1
记
l xx = ( xi x )2 ,
i=1
n
l yy = ( yi y )2 ,
2 x x x 2 2 i ˆ ˆ ˆ cov(y , 1 ) x cov(1 , 1 ) x nlxx l xx l xx
一元线性回归分析的作用方法步骤
一元线性回归分析的作用方法步骤一元线性回归分析是一种用来探究两个变量之间关系的统计方法。
它基于一个假设,即两个变量之间存在线性关系。
以下是一元线性回归分析的一般步骤:1. 数据收集:首先,需要收集所需的数据。
需要考虑收集的数据是否与研究目的相关,并确保数据的准确性和完整性。
2. 变量定义:定义自变量和因变量。
自变量是用来预测因变量的变量,而因变量是我们想要预测或解释的变量。
3. 数据探索:进行数据探索,包括数据的描述性统计和绘图。
这一步可以帮助我们了解数据的分布、异常值和离群点。
4. 模型选择:选择适当的线性模型。
这可以通过查看散点图、相关性分析和领域知识来完成。
通常,一个线性模型可以用以下方程表示:Y = β0 + β1X + ε,其中Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项。
5. 模型估计:使用最小二乘法来估计回归系数。
最小二乘法的目标是找到最佳拟合直线,使得预测值与实际值之间的残差平方和最小化。
6. 模型评估:评估模型的拟合优度。
常用的指标包括R平方值和调整R平方值。
R平方值介于0和1之间,表示因变量变异性的百分比可以由自变量解释。
调整R平方值是对R平方值的修正,考虑了自变量的数量和样本量。
7. 模型解释:根据回归系数的估计值,解释自变量对因变量的影响。
根据回归系数的正负和大小,可以确定变量之间的关系是正向还是负向,并量化这种关系的强度。
8. 结果验证:验证模型的有效性和稳健性。
这可以通过对新数据集的预测进行测试,或使用交叉验证的方法来完成。
9. 结果解释:对模型结果进行解释,提供有关回归系数的结论,并解释模型对现实世界问题的意义。
总结来说,一元线性回归分析的方法步骤包括数据收集、变量定义、数据探索、模型选择、模型估计、模型评估、模型解释、结果验证和结果解释。
它们相互关联,构成了一元线性回归分析的完整过程。
一元线性回归模型.ppt
yˆ aˆ bˆx
(2)
称此方程为y关于x的回归方程 .
y=a+bx+ε, ε ~N(0, )2 (1)
现对模型(1)中的变量x , y进行了n次独 立观察, 得样本
(x1,y1),…,(xn,yn) (3) 据(1)式, 此样本的构造可由方程
yi a bxi i , i=1,2, …,n (4) 来描述. 这里 i 是第i次观察时随机误
事实上, 还有许多其它因素对y产生影 响,如当年的平均气温、当年的降雨量等等, 都是影响y取什么值的随机因素.
如果我们只研究x和y的关系, 可以假定有 如下结构式:
y =a+bx+ε
其中a和b是未知常数, 称回归系数, ε表示 其它随机因素对灌溉面积的影响.
实际中常假定ε服从正态分布N(0,σ2), 即
E( ) 0 D( ) 2
, 0
2未
知
通常称
y=a+bx+ε, ε ~N(0, )2 (1)
为一元线性回归模型.
由(1)式, 我们不难算得y的数学期望:
E(y)=a+bx
该式表示当x已知时,可以精确地算出E(y).
由于ε是不可控制的随机因素,通常就用E(y) 作为y的估计, 记作 . 这yˆ 样我们得到
年序
1 2 3 4 5 6 7 8 9 10
最大积雪深度x(米) 5.1 3.5 7.1 6.2 8.8 7.8 4.5 5.6 8.0 6.4
灌溉面积y(公顷) 1907 1287 2693 2373 3260 3000 1947 2273 3113 2493
为了研究这些数据中所蕴含的规律性,
这种大量存在的变量间既互相联系但又不 是完全确定的关系,称为相关关系.
第八章 相关与回归分析-一元线性回归
12
1、散点图
不良贷款
14
12
10
8
6
4
2
0 0
100
200
300
400
贷款余额 不良贷款与贷款余额的散点图
14
12
10
8 6
4
2
0 0
10
20
30
40
贷款项目个数
不良贷款与贷款项目个数的散点图不来自贷款不良贷款14
12
10
8
6
4
2
0 0
10
20
30
累计应收贷款
不良贷款与累计应收贷款的散点图
14
2
本章主要内容
➢ 相关分析
• 相关关系度量 • 相关关系显著性检验
➢ 一元线性回归分析
• 一元线性回归模型 • 参数的最小二乘估计 • 回归直线的拟合优度 • 显著性检验
➢ 利用回归方程进行预测
➢ 残差分析
3
第一节 直线相关分析 一、变量间的关系
函数关系
相关关系
函数关系的例子
▪ 某种商品的销售额(y)与销售量(x)之间的关系可 表示为 y = px (p 为单价)
儿子与父亲的身高关系:Y=33.73+0.516X(英寸)
24
一、概述——什么是回归分析(Regression )?
1. 从一组样本数据出发,确定变量之间的数学关系式 2. 对这些关系式的可信程度进行各种统计检验,并从
影响某一特定变量的诸多变量中找出哪些变量的影 响显著,哪些不显著 3. 利用所求的关系式,根据一个或几个变量的取值来 预测或控制另一个特定变量的取值,并给出这种预 测或控制的精确程度
一元线性回归分析的特点
一元线性回归分析的特点
(1)在此回归分析中,须明确区分影响因素和被影响因素,其中影响因素常称为解释变量或自变量,被影响因素常称为被解释变量或因变量。
在单一回归分析中,因变量只能有一个,而自变量可以有若干个。
但在一元回归中,仅有一个自变量,也即元的个数就表明自变量的个数。
(2)在一些情况下,事物之间的因果关系常是相互的。
如在公司经营中,如果经营收入增长了,则营业支出也将随之增长,此时收入是自变量,支出是因变量;但在一些情况下,支出同样也会影响下一期收入的变化,如公司加大广告宣传支出和研发支出,则极有可能促进以后时期的营业收入不断增加,此时,支出是自变量,收入是因变量。
因此,在两个现象互为根据的情况下,可以有两个回归方程:
一是y依x的回归方程;
二是x依y的回归方程。
这和用以说明两个变量之间关系密切程度的相关关系只能计算
一个相关系数是不同的。
概率论与数理统计教程 第8章
MSe= Se/fe
总和
ST
fT=n1
对给定的,可作如下判断:
若F F1 (fA ,fe) ,则说明因子A不显著。 该检验的p值也可利用统计软件求出,若 以Y记服从F(fA ,fe)的随机变量,则检验的 p 值为 p=P(YF)。
如果 F >F1 (fA ,fe),则认为因子A显著;
由定理8.1.2,若H0成立,则检验统计量F服从自由度为fA和fe的F分布,因此拒绝域为W={FF1 (fA ,fe)},通常将上述计算过程列成一张表格,称为方差分析表。
表8.1.3 单因子方差分析表
来源
平方和
自由度
均方和
F比
因子
SA
fA=r1
MSA= SA/fA
F= MSA/ MSe
误差
Se
第八章 方差分析与回归分析
§8.1 方差分析 §8.2 多重比较 §8.3 方差齐性分析 §8.4 一元线性回归 §8.5 一元非线性回归
§8.1 方差分析
8.1.1 问题的提出 实际工作中我们经常碰到多个正态总体均值的比较问题,处理这类问题通常采用所谓的方差分析方法。
例8.1.1 在饲料养鸡增肥的研究中,某研究所提出三种饲料配方:A1是以鱼粉为主的饲料,A2是以槐树粉为主的饲料,A3是以苜蓿粉为主的饲料。为比较三种饲料的效果,特选 24 只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量。试验结果如下表所示:
模型(8.1.3)可以改写为 (8.1.8) 假设(8.1.1)可改写为 H0 :a1 =a2 =…=ar =0 (8.1.9)
8.1.5 参数估计
在检验结果为显著时,我们可进一步求出总均值 、各主效应ai和误差方差 2的估计。
一元线性回归分析的结果解释
一元线性回归分析的结果解释1.基本描述性统计量分析:上表是描述性统计量的结果,显示了变量y和x的均数(Mean)、标准差(Std. Deviation)和例数(N)。
2.相关系数分析:上表是相关系数的结果。
从表中可以看出,Pearson相关系数为0.749,单尾显著性检验的概率p值为0.003,小于0.05,所以体重和肺活量之间具有较强的相关性。
3.引入或剔除变量表分析:上表显示回归分析的方法以及变量被剔除或引入的信息。
表中显示回归方法是用强迫引入法引入变量x的。
对于一元线性回归问题,由于只有一个自变量,所以此表意义不大。
4.模型摘要分析:上表是模型摘要。
表中显示两变量的相关系数(R)为0.749,判定系数(R Square)为0.562,调整判定系数(Adjusted R Square)为0.518,估计值的标准误差(Std. Error of the Estimate)为0.28775。
5.方差分析表分析:上表是回归分析的方差分析表(ANOVA)。
从表中可以看出,回归的均方(Regression Mean Square)为1.061,剩余的均方(Residual Mean Square)为0.083,F检验统计量的观察值为12.817,相应的概率p 值为0.005,小于0.05,可以认为变量x和y之间存在线性关系。
6.回归系数分析:上表给出线性回归方程中的参数(Coefficients)和常数项(Constant)的估计值,其中常数项系数为0(注:若精确到小数点后6位,那么应该是0.000413),回归系数为0.059,线性回归参数的标准误差(Std. Error)为0.016,标准化回归系数(Beta)为0.749,回归系数T检验的t统计量观察值为3.580,T检验的概率p值为0.005,小于0.05,所以可以认为回归系数有显著意义。
由此可得线性回归方程为:y=0.000413+0.059x7.回归诊断分析:上表是对全部观察单位进行回归诊断(CasewiseDiagnostics-all cases)的结果显示。
8.回归分析方法
2.一元线性回归分析法
2.一元线性回归分析法
实际值
Syy
Q U
理论值
一元线性回归分析法
2.一元线性回归分析法
a y bx
x y x y b x x x
i i 2 i i i
2.一元线性回归分析法
2.一元线性回归分析法
相关性检验 X,y之间是否真的有回归模型描述的关系? 回归方程的可信性:回归方差占总方差的比重:
ˆ 4、将 a, b 两个参数值代入 y a bx
5、根据
ˆ 中求出 y
值;
ˆ y 值正负或大小,说明相关程度
6、如有要求;编制相关分析图。
2.一元线性回归分析法
张秀
等 运用布拉德福定律测定检索工具的完整性 情 报科学 2006,24(1):69-73 CNKI期刊数与发表论文数的分布
0.8539
f n2927
查相关系数临界值表 因为 所以回归方程在
R0.01 0.7977
R R0.01
的检验水平下有统计意义。 0.01
即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。
第一节 简单线性回归方法 二、多元线性回归模型
1. 多元线性回归模型
2. 多元线性回归系数的确定
儿子身高与父母身高发现父母的身高可以预测子女的身高两者近乎一条直线当父母越高或越矮时子女的身高会比一般儿童高或矮儿子与父母身高的这种现象拟合出一种线形关系其回归直线方程为33730516x这种趋势及回归方程表明
第八章 回归分析法
1.概述:回归的概念
Francis
Galton:神童,与达尔文 同一个外祖父。 特立独行、知识渊博而又毁誉不一。 人体测量学、实验心理学、生物统计学、地理学、遗 传学…… 优生学:“种族主义者和法西斯蒂的精神领袖和鼻
一元线性回归模型案例分析
一元线性回归模型案例分析一、研究的目的要求居民消费在社会经济的持续发展中有着重要的作用。
居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。
改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。
但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。
例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。
为了研究全国居民消费水平及其变动的原因,需要作具体的分析。
影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。
为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。
二、模型设定我们研究的对象是各地区居民消费的差异。
居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。
而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。
所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。
因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。
因此建立的是2002年截面数据模型。
影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。
精品数学 高中数学人教A版选择性必修三第八章 §8.2 一元线性回归模型及其应用
§8.2 一元线性回归模型及其应用学习目标 1.结合实例,了解一元线性回归模型的含义,了解模型参数的统计意义.2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.知识点一 一元线性回归模型称⎩⎪⎨⎪⎧Y =bx +a +e ,E (e )=0,D (e )=σ2为Y 关于x 的一元线性回归模型.其中Y 称为因变量或响应变量,x 称为自变量或解释变量,a 称为截距参数,b 称为斜率参数;e 是Y 与bx +a 之间的随机误差,如果e =0,那么Y 与x 之间的关系就可以用一元线性函数模型来描述. 知识点二 最小二乘法将y ^=b ^x +a ^称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的b ^,a ^叫做b ,a 的最小二乘估计,其中b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x 思考1 经验回归方程一定过成对样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的某一点吗? 答案 不一定.思考2 点(x ,y )在经验回归直线上吗? 答案 在.知识点三 残差与残差分析 1.残差对于响应变量Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的y ^称为预测值,观测值减去预测值称为残差. 2.残差分析残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析. 知识点四 对模型刻画数据效果的分析 1.残差图法在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系. 2.残差平方和法残差平方和∑i =1n(y i -y ^i )2越小,模型的拟合效果越好.3.R 2法可以用R 2=1-∑i =1n(y i -y^i )2∑i =1n(y i -y )2来比较两个模型的拟合效果,R 2越大,模型拟合效果越好,R 2越小,模型拟合效果越差.思考 利用经验回归方程求得的函数值一定是真实值吗? 答案 不一定,他只是真实值的一个预测估计值.1.求经验回归方程前可以不进行相关性检验.( × )2.在残差图中,纵坐标为残差,横坐标可以选为样本编号.( √ ) 3.利用经验回归方程求出的值是准确值.( × )4.残差平方和越小,线性回归模型的拟合效果越好.( √ ) 5.R 2越小,线性回归模型的拟合效果越好.( × )一、求经验回归方程例1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:x 6 8 10 12 y2356(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的经验回归方程y ^=b ^x +a ^; (3)试根据求出的经验回归方程,预测记忆力为9的同学的判断力.⎝ ⎛⎭⎪⎪⎫参考公式:b ^=∑i =1nx i y i-n x ·y ∑i =1nx 2i-n x 2,a ^=y -b ^x 解 (1)散点图如图所示:(2)x =6+8+10+124=9,y =2+3+5+64=4, ∑i =14x 2i =62+82+102+122=344,∑i =14x i y i =6×2+8×3+10×5+12×6=158,b ^=158-4×9×4344-4×92=1420=0.7,a ^=y -b ^x =4-0.7×9=-2.3, 故经验回归方程为y ^=0.7x -2.3.(3)由(2)中经验回归方程可知,当x =9时,y ^=0.7×9-2.3=4,即预测记忆力为9的同学的判断力为4.反思感悟 求经验回归方程可分如下四步来完成 (1)列:列表表示x i ,y i ,x 2i ,x i y i . (2)算:计算x ,y ,∑i =1nx 2i ,∑i =1nx i y i .(3)代:代入公式计算a ^,b ^的值.(4)写:写出经验回归方程.跟踪训练1 随着我国经济的发展,居民储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:(1)求y 关于t 的经验回归方程y ^=b ^t +a ^;(2)用所求经验回归方程预测该地区2021年(t =7)的人民币储蓄存款.⎝ ⎛⎭⎪⎪⎫参考公式:b ^=∑i =1n t i y i-n t y ∑i =1n t 2i-n t 2,a ^=y -b ^t 解 (1)由题意可知,n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2.又∑i =1nt 2i =55,∑i =1nt i y i =120,计算得,b ^=1.2,a ^=y -b ^t =7.2-1.2×3=3.6. 故所求经验回归方程为y ^=1.2t +3.6.(2)将t =7代入y ^=1.2t +3.6,可得y ^=1.2×7+3.6=12(千亿元), 所以预测该地区2021年的人民币储蓄存款为12千亿元. 二、线性回归分析例2 已知某种商品的价格x (单位:元)与需求量y (单位:件)之间的关系有如下一组数据:求y 关于x 的经验回归方程,并借助残差平方和和R 2说明回归模型拟合效果的好坏. 解 x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660,∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=620-5×18×7.41 660-5×182=-1.15,a ^=7.4+1.15×18=28.1,所以所求经验回归方程是y ^=-1.15x +28.1. 列出残差表:所以∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R 2=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2≈0.994,所以回归模型的拟合效果很好. 反思感悟 刻画回归效果的三种方法(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适. (2)残差平方和法:残差平方和∑i =1n(y i -y ^i )2越小,模型的拟合效果越好.(3)R 2法:R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2越接近1,表明模型的拟合效果越好.跟踪训练2 为研究重量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x 5 10 15 20 25 30 y7.258.128.959.9010.911.8(1)作出散点图并求经验回归方程; (2)求出R 2; (3)进行残差分析. 解 (1)散点图如图 .x =16×(5+10+15+20+25+30)=17.5,y =16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i =16x 2i =2 275,∑i =16y 2i =554.659 4,∑i =16x i y i =1 076.2,计算得,b ^≈0.183,a ^≈6.285, 所求经验回归方程为y ^=0.183x +6.285. (2)残差表如下:y i -y ^i 0.05 0.005 -0.08 -0.045 0.04 0.025 y i -y-2.237-1.367-0.5370.4131.4132.313所以∑i =16(y i -y ^i )2≈0.013 18,∑i =16(y i -y )2≈14.678 3.所以R 2≈1-0.013 1814.678 3≈0.999 1,所以回归模型的拟合效果很好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有,则需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系. 三、非线性回归例3 下表为收集到的一组数据:x 21 23 25 27 29 32 35 y711212466115325(1)作出x 与y 的散点图,并猜测x 与y 之间的关系; (2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预测x =40时y 的值.解 (1)作出散点图如图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数型曲线y =c 12e c x 的周围,其中c 1,c 2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a (a =ln c 1,b =c 2)的周围,这样就可以利用经验回归模型来建立y 与x 之间的非线性经验回归方程了,数据可以转化为x 21 23 25 27 29 32 35 z1.9462.3983.0453.1784.1904.7455.784求得经验回归方程为z ^=0.272x -3.849, ∴y ^=e 0.272x -3.849. 残差表如下:y i 7 11 21 24 66 115 325 y ^i 6.443 11.101 19.125 32.950 56.770 128.381 290.325 e ^i 0.557-0.1011.875-8.9509.23-13.38134.675(3)当x =40时,y ^=e 0.272×40-3.849≈1 131.反思感悟 非线性回归问题的处理方法 (1)指数函数型y =e bx +a①函数y =e bx +a 的图象,如图所示;②处理方法:两边取对数得ln y =ln e bx +a ,即ln y =bx +a .令z =ln y ,把原始数据(x ,y )转化为(x ,z ),再根据线性回归模型的方法求出a ,b . (2)对数函数型y =b ln x +a①函数y =b ln x +a 的图象,如图所示;②处理方法:设x ′=ln x ,原方程可化为y =bx ′+a , 再根据线性回归模型的方法求出a ,b . (3)y =bx 2+a 型处理方法:设x ′=x 2,原方程可化为y =bx ′+a ,再根据线性回归模型的方法求出a ,b .跟踪训练3为了研究甲型H1N1中的某种细菌随时间x变化的繁殖个数y,收集数据如下:天数x 12345 6繁殖个数y 612254995190求y关于x的非线性经验回归方程.解作出散点图如图(1)所示.由散点图看出样本点分布在一条指数型曲线y=c e bx的周围,则ln y=bx+ln c.令z=ln y,a=ln c,则z=bx+a.x 12345 6z 1.79 2.48 3.22 3.89 4.55 5.25相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.由表中数据得到经验回归方程为z^=0.69x+1.115.因此细菌的繁殖个数y关于天数x的非线性经验回归方程为y^=e0.69x+1.115.1.(多选)以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是()答案AC解析AC中的点分布在一条直线附近,适合线性回归模型.2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表:甲 乙 丙 丁 R 20.980.780.500.85哪位同学建立的回归模型拟合效果最好( ) A .甲 B .乙 C .丙 D .丁 答案 A解析 决定系数R 2越大,表示回归模型的拟合效果越好.3.已知人的年龄x 与人体脂肪含量的百分数y 的经验回归方程为y =0.577x -0.448,如果某人36岁,那么这个人的脂肪含量( ) A .一定是20.3%B .在20.3%附近的可能性比较大C .无任何参考数据D .以上解释都无道理 答案 B解析 将x =36代入经验回归方程得y =0.577×36-0.448≈20.3,故这个人的脂肪含量在20.3%附近的可能性较大,故选B.4.由变量x 与y 相对应的一组成对样本数据(1,y 1),(5,y 2),(7,y 3),(13,y 4),(19,y 5)得到的经验回归方程为y ^=2x +45,则y =________. 答案 63解析 ∵x =15(1+5+7+13+19)=9,y =2x +45,∴y =2×9+45=63.5.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =e bx+a的周围.令z ^=ln y ,求得经验回归方程为z ^=0.25x -2.58,则该模型的非线性经验回归方程为________. 答案 y ^=e 0.25x-2.58解析 因为z ^=0.25x -2.58,z ^=ln y , 所以y ^=e 0.25x -2.58.1.知识清单: (1)一元线性回归模型.(2)最小二乘法、经验回归方程的求法.(3)对模型刻画数据效果的分析:残差图法、残差平方和法和R 2法. 2.方法归纳:数形结合、转化化归.3.常见误区:不判断变量间是否具有线性相关关系,盲目求解经验回归方程致误.1.如果两个变量之间的线性相关程度很高,则其R 2的值应接近于( ) A .0.5 B .2 C .0 D .1 答案 D解析 R 2越接近于1,相关程度越高,故选D.2.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )答案 A解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.3.工人工资y (元)与劳动生产率x (千元)的相关关系的经验回归方程为y ^=50+80x ,下列判断正确的是( )A .劳动生产率为1 000元时,工人工资为130元B .劳动生产率提高1 000元时,工人工资平均提高80元C .劳动生产率提高1 000元时,工人工资平均提高130元D .当月工资为250元时,劳动生产率为2 000元 答案 B解析 因为经验回归方程的斜率为80,所以x 每增加1,y 平均增加80,即劳动生产率提高1 000元时,工人工资平均提高80元.4.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是()A .y =a ·x bB .y =a +b ln xC .y =a ·e bxD .y =a ·e bx答案 B解析 由散点图可知,此曲线类似对数函数型曲线,因此可用函数y =a +b ln x 模型进行拟合. 5.(多选)对于经验回归方程y ^=b ^x +a ^(b ^>0),下列说法正确的是( ) A .当x 增加一个单位时,y ^的值平均增加b ^个单位 B .点(x ,y )一定在y ^=b ^x +a ^所表示的直线上 C .当x =t 时,一定有y =b ^t +a ^D .当x =t 时,y 的值近似为b ^t +a ^答案 ABD解析 经验回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在经验回归直线上.6.某地区近10年居民的年收入x 与年支出y 之间的关系大致符合y ^=0.8x +0.1(单位:亿元),预计今年该地区居民收入为15亿元,则今年支出估计是________亿元. 答案 12.1解析 将x =15代入y ^=0.8x +0.1,得y ^=12.1.7.若经验回归直线方程中的回归系数b ^=0,则样本相关系数r =________. 答案 0解析 样本相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x)2∑i =1n(y i -y )2与b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2的分子相同,故r =0.8.某品牌服装专卖店为了解保暖衬衣的销售量y (件)与平均气温x (℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:时间 二月上旬 二月 中旬 二月 下旬 三月 上旬 旬平均气温x (℃) 3 8 12 17 旬销售量y (件)55m3324由表中数据算出经验回归方程y ^=b ^x +a ^中的b ^=-2,样本点的中心为(10,38). (1)表中数据m =________;(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为________件. 答案 (1)40 (2)14解析 (1)由y =38,得m =40.(2)由a ^=y -b ^x 得a ^=58,故y ^=-2x +58, 当x =22时,y ^=14,故三月中旬的销售量约为14件. 9.已知变量x ,y 有如下对应数据:x 1 2 3 4 y1345(1)作出散点图;(2)用最小二乘法求关于x ,y 的经验回归方程. 解 (1)散点图如图所示.(2)x =1+2+3+44=52,y =1+3+4+54=134,∑i =14x i y i =1+6+12+20=39,∑i =14x 2i =1+4+9+16=30,b ^=39-4×52×13430-4×⎝⎛⎭⎫522=1310,a ^=134-1310×52=0,所以y ^=1310x 即为所求的经验回归方程.10.由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.(1)求所支出的维修费y 关于使用年限x 的经验回归方程y ^=b ^x +a ^; (2)①判断变量x 与y 之间是正相关还是负相关; ②当使用年限为8年时,试估计支出的维修费是多少? 解 (1)∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=112-5×4×590-5×42=1.2,a ^=y -b ^x =5-1.2×4=0.2. ∴所求经验回归方程为y ^=1.2x +0.2.(2)①由(1)知b ^=1.2>0,∴变量x 与y 之间是正相关. ②由(1)知,当x =8时,y ^=1.2×8+0.2=9.8, 即使用年限为8年时,支出的维修费约是9.8万元.11.设两个变量x 和Y 之间具有线性相关关系,它们的样本相关系数是r ,Y 关于x 的经验回归方程的回归系数为b ^,回归截距是a ^,那么必有( ) A.b ^与r 的符号相同 B.a ^与r 的符号相同 C.b ^与r 的符号相反 D.a ^与r 的符号相反答案 A解析 b ^与r 的符号相同.12.恩格尔系数是食品支出总额占个人消费支出总额的比重.据某机构预测,n (n ≥10)个城市职工购买食品的人均支出y (千元)与人均月消费支出x (千元)具有线性相关关系,且经验回归方程为y ^=0.4x +1.2,若其中某城市职工的人均月消费支出为5千元,则该城市职工的月恩格尔系数约为( )A .60%B .64%C .58%D .55% 答案 B解析 把x =5代入经验回归方程y ^=0.4x +1.2中,得y ^=0.4×5+1.2=3.2,则该城市职工的月恩格尔系数约为3.25=0.64=64%,故选B.13.(多选)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的经验回归方程为y ^=0.85x -85.71,则下列结论中正确的是( ) A .y 与x 具有正的线性相关关系B .经验回归方程过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可判定其体重必为58.79 kg 答案 ABC解析 A ,B ,C 均正确,是经验回归方程的性质,D 项是错误的,经验回归方程只能预测学生的体重,应为大约58.79 kg.14.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm,170 cm,182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm. 答案 185解析 因为儿子的身高与父亲的身高有关,所以设儿子的身高为Y (单位:cm),父亲身高为X (单位:cm),根据数据列表:X 173 170 176 Y170176182由表中数据,求得回归系数b ^=1,a ^=3. 于是儿子身高与父亲身高的关系式为Y =X +3, 当X =182时,Y =185.故预测该老师的孙子的身高为185 cm.15.已知变量y 关于x 的非线性经验回归方程为y ^=eb ^x -0.5,其一组数据如下表所示: x 1 2 3 4yee 3e 4e 6若x =5,则预测y 的值可能为( ) A .e 5 B .112e C .e 7 D .152e 答案 D解析 将式子两边取对数,得到ln y ^=b ^x -0.5, 令z =ln y ^,得到z =b ^x -0.5, 列出x ,z 的取值对应的表格如下:x 1 2 3 4 z1346则x =1+2+3+44=2.5,z =1+3+4+64=3.5,∵(x ,z )满足z =b ^x -0.5, ∴3.5=b ^×2.5-0.5,解得b ^=1.6, ∴z =1.6x -0.5,∴y ^=e 1.6x -0.5,当x =5时,y ^=e1.6×5-0.5=152e .16.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求经验回归方程y ^=b ^x +a ^,其中b ^=-20;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 解 (1)由于x =16×(8+8.2+8.4+8.6+8.8+9)=8.5,y =16×(90+84+83+80+75+68)=80.所以a ^=y -b ^x =80+20×8.5=250, 从而经验回归方程为y ^=-20x +250.(2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20(x -8.25)2+361.25.故当单价定为8.25元时,工厂可获得最大利润.。
一元线性回归分析PPT课件
自由度 1 n-2 n-1
均方差 SSR/1 SSE/n-2
F
SSR / 1 SSE / n 2
可 以 证 明 : S S 2 R ~2 ( 1 ) ,S S 2 E ~2 ( n 2 )
所 以 F S S R /1~F (1 ,n 2 ) S S E /n 2
第22页/共40页
H 0 : 回 归 方 程 不 显 著 , H 1 : 回 归 方 程 显 著 如 果 回 归 方 程 显 著 , 意 味 着 S S E 应 该 比 较 小 ,所 以 F 值 应 该 比 较 大 , 所 以 当 FF (1,n2)时 , 拒 绝 原 假
n
(Xt X)2
t1
Var(ˆ1)2ˆ1
2
n
(Xt X)2
t1
第12页/共40页
参数0和1的区间估计
根据误差项的基本标准假 定
(1)ut ~N(0,2), (t1,2,3, n) E(ut)0,Var(ut)2.
(2)Cov(utus)0, (t,s1,2,3, ,n;ts)
可以证明
ˆ 0 ~ N (0 , 2 ˆ 0 ) ,ˆ 1 ~ N (1 , 2 ˆ 1 )
Yt
。 ut
。
。
。。
X
第5页/共40页
参数0和1的点估计
X 1 X 2 …… X t …… X n
Y1
Y 2 …… Y t …… Y n
最小二乘法: 通过使得残差平方和 (各样本点与拟合直 线的纵向距离的平方 和)为最小来估计回 归系数的一种方法。
Y ˆt ˆ0ˆ1Xt
第6页/共40页
残 差 平 方 和 :
n
n
n
Q et2 (YtY ˆt)2 (Ytˆ0ˆ1Xt)2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§3一元线性回归分析客观事物总是普遍联系和相互依存的,它们之间的数量联系一般分为两种类型:一类是确定性关系,即函数关系;另一类是不确定的关系,称之为相关关系.前一类关系我们在数学分析中已进行了大量研究.第二类关系在我们的生活实践中也大量存在,如身高与体重、播种面积与总产量、劳动生产率与工资水平等关系.这些变量之间有一些联系,但没有确切到可以严格确定的程度,即前一个量不能惟一确定后一个量的值.又如,城市生活用电量y 与气温X 有很大的关系,在夏天气温很高或冬天气温很低时,由于空调、冰箱等家用电器的使用,用电量就高.相反,在春秋季节气温不高也不低,用电量就相对少.但我们不能由气温X 这一个量准确地决定用电量Y .回归分析就是研究相关关系的一种数学工具,它着重于寻找变量之间近似的函数关系.8.3.1.回归分析的基本概念回归分析作为一种统计方法,是利用两个或两个以上变量之间的关系,由一个或几个变量来表示另一个变量.被表示的这个变量往往是我们研究的一个指标变量,常称为因变量或响应变量,记之为Y .与之有关的另一些变量可记为1X ,2X , ,p X ,称为自变量或预报变量.由1X ,2X , ,p X 可以部分地决定Y 的值,但这种决定不很确切,这种关系就是所谓的“相关关系”.我们可以设想Y 的值由两部分组成:一部分是由1X ,2X , ,p X 能够决定的部分,它是12p ( X ,X ,,X )f 的函数,记为12p ( X ,X ,,X )f .而另一部分则是由包括随机因素在内的其他众多未加考虑的因素所产生的影响,这一部分的诸多因素不再区别,所造成的对Y 的影响一起被称为随机误差,记之为ε.于是得到如下模型: Y =12p ( X ,X ,,X )f +ε这里ε是随机变量,一般要求满足某些假定,如()E ε=0,函数12p ( X ,X ,,X )f 称为理论回归函数,它描述了Y 随自变量12p X ,X ,,X 变化的平均擘况. Y =12p ( X ,X ,,X )f称为回归方程.这种确定的函数关系可用来近似代替复杂的相关关系.回归分析的任务就在于根据12p X ,X ,,X 和Y 的观察值去估计理论回归函数,并讨论与之有关的种种统计推断问题,如假设检验问题和估计问题.回归分析所用方法在相当大的程度上取决于模型的假定.(1)若回归函数12p ( X ,X ,,X )f 的数学形式并无特殊假定,称为非参数回归. (2)假定12p ( X ,X ,,X )f 的数学形式已知,只是其中若干个参数未知,需要通过观测值去估计,称为参数回归.应用上最重要、理论上发展得最完善的是 12p ( X ,X ,,X )f 为线性函数的情形,即12p ( X ,X ,,X )f =0β+1β1X +…+P p X β, (8.3.1)称为“线性回归”.若1p =,则称为一元线性回归.若根据观测值已估计了0β,1β, ,P β,设为0ˆβ,1ˆβ, ,ˆp β,称 Y =0ˆβ+1ˆβ1X + +ˆp βp X 为经验回归方程.这里“经验”两字表示这个回归方程是由特定的观测值而得到的.回归分析的应用,简单地可归纳为以下几个方面:(1)估计回归函数f .如考虑亩产量Y 与播种量1X 和施肥量2X 的相关关系,需求出Y 对1X , 2X 的回归函数12(,)f X X ,当给定播种量1X =1x ,施肥量2X =2x ,则12(,)f x x 就是平均亩产量的值.(2)预测.当自变量X =(1X ,2X , ,pX)T在取定的情况下,比如0X =(10x ,20x ,…,0p x )T,去预测因变量Y 将取的值0y . Y 的预测值往往就取回归函数在(10x ,20x , ,0p x )T处的估计ˆf (10x ,20x ,, 0p x ).(3)控制.在这类应用中,不妨把自变量解释为输入值,因变量解释为输出值,通过估计出的经验回归方程Y =ˆf (1X ,2X , ,p X )以调节1X ,2X ,…,p X 的值达到把输出值Y 控制在给定的水平0y 的目的.最后简单介绍一下“回归”这一名称的由来.这个术语是英国生物学家兼统计学家高尔顿(F .Galton)在1886年左右提出来的.他在研究子代的身高与父母的身高的关系时,收集了1078对父母及其成年儿子的身高数据.高尔顿以父母之平均身高X 作为自变量,以成年儿子的身高Y 作为因变量,将(,)X Y 值标在直角坐标系内,发现二者有近乎直线的关系,总的趋势是X 增加时Y 倾向于增加,这与人们的常识是一致的.用他的数据可以计算出儿子身高Y 与父母平均身高X 的经验关系350.5Y X=+. (8.3.2) 高尔顿算出1078个X 值的算术平均值为X =68英寸(1英寸=2.54厘米),1078个Y 值的算术平均值为69英寸,子代身高平均增加了1英寸.按常理推想,当父母的平均身高为x 英寸,子代的平均身高也要增加1英寸,即变为1x +英寸,但事实上不然.按(8.3.2)计算,父母身高平均72英寸(注意比平均身高68英寸要高),子代平均身高为71英寸,而并非73英寸,与父母相比有变矮的倾向.父母身高平均为64英寸(注意比平均身高68英寸要矮),子代平均身高为67英寸,比预计的64+1=65(英寸)要多,与父母相比有增高的趋势.这种现象不是个别的,它反映了一般规律.高尔顿对这个结论的解释是:大自然有一种约束力,使人类身高的分布在一定时期内相对稳定而不产生两极分化,这就是所谓的回归效应,人的身高因约束力而“回归于中心”.正是通过这个例子,高尔顿引入了“回归”一词.人们把(8.3.2)所表示的直线称为回归直线.其实两变量间有回归效应的现象并非普遍现象,更多的相关关系不具有这一特征,特别是涉及多个自变量的情况时,回归效应不复存在.因此称谓“线性回归模型”、“经验回归方程”等概念中的“回归”一词并非总有特定意义,只是一种习惯说法而已.8.3.2.一元线性回归模型考虑因变量y 和一个自变量x 的一元线性回归,假设回归模型为 y =0β+1i x βε+, ()0E ε=, 20()Var εσ<=<∞ (8.3.3)其中ε为随机误差,其均值为0,方差为2σ,y 是随机变量,x 是非随机变量(除非特别声明,我们考虑的回归分析中一律把自变量视为非随机的),0β,1β和2σ都是未知参数.0β称为常数项或截距,1β称为回归系数.(8.3.3)式称为理论模型.现设对模型(8.3.3)中的变量x ,y 进行了n 次独立观察,得到样本值(1x ,1y ), (2x ,2y ),…,(n x ,n y ),从而i y =0β十1β1x +i ε (i =1,2,…,n ), (8.3.4)其中i ε是第i 次观察随机误差ε所取之值,它是不能观察到的.对i ε (i =1,2,…,n)最常用的假定是:(1)误差项的均值为零,即()i E ε= 0 (i =1,2,…n );(2)误差项具有等方差,即2()i Var εσ= (1,2,)i n = (8.3.5)(3)误差项彼此不相关,即(,)i j C ov εε=0 (;,1,2,,)i j i j n ≠=通常称假定(8.3.5)为Gauss-Markov 假定.在这三条假定中,(1)表明误差项不包含任何系统的影响因素,视测值i y 在均值()i E y 的上下波动完全是随机的.(2)要求i ε等方差,也即要求在不同次的观测中i y 在其均值附近波动程度的大小是一样的.(3)则等价于要求不同次的观测是不相关的.统计学中把(8.3.4)式及假设(8.3.5)合一起称为一元线性回归模型,它给出了样本观测值(i x ,i y )(i =1,2,…n)的概率性质,并可以对理论模型(8.3.3)进行统计推断.可见,理论模型(8.3.3) 只起了一个背景的作用.对i ε的进一步假定是2(0,)(1,2,,)i N i n εσ= (8.3.6) 这是一个比Gauss —Markov 假设更强的假设,指明了误差项所服从的分布.由(8.3.4)式有20101(,)i i i i y x N x ββεββσ=+++ (1,2,,)i n = , 且12,,,n y y y 相互独立.本章只讨论如下的一元线性回归模型201,(0,)1,2,,)i i i i i y x N i n ββεεσε=++⎧⎪⎨=⎪⎩ 且相互独立( (9.3.7)在多数应用问题中,我们选择x 与y 之间的线性回归形式很难有充分根据,在很大的程度上要依靠数据本身.将独立试验的几个观测值(,)(1,2,,)i i x y i n = 在直角坐标系中描出相应的一点,所得图形称为散点图,如图9—1所示.散点图中的点虽杂乱无章,但当它们大体呈现出一种直线走向的趋势时,选取线性回归函数是比较合理的.否则的话,我们应选取适当形式的曲线来拟合这些点,用曲线方程反映x ,y 之间的相关关系才更精确些.图9—1 观测数据的散点图考虑模型(8.3.7),如果由样本(,)(1,2,,)i i x y i n = 得到参数夕01,ββ的估计01ˆˆ,ββ,则称方程01y x ββ=+ 为y 关于x 的线性回归方程或回归方程,其图形称为回归直线.对于模型(8.3.7)将从下列各方面逐一研究.1)未知参数01,,ββσ2及的估计(1) 01,ββ的估计——最小二乘法.回归分析的主要任务就是要建立能够近似反映,x y 的相关关系的经验回归函数.这里“经验”是指回归函数是由当前的样本观测值得出的,也就是根据数据(,)(1,2,,)i i x y i n = 由模型(8.3.7)去估计0β,1β.怎样给出的估计才是合理的呢?我们要定出一个准则,以衡量由此所导致的偏差,希望偏差越小越好.假若以10,ββ作为01,ββ的估计时,偏差 10()(1,2,,)i i y x i n ββ-+= 的绝对值越小,说明用 10i x ββ+代替iy 时误差越小.考虑到数学处理上的方便,衡量这些偏差大小的一个合理的指标为它们的平方和(通过平方去掉差值正负符号的影响).记201011(,)(),nii i Q yx ββββ==--∑ (8.3.8)则01(,)Q ββ反映了n 次观察中总的偏差程度,称为残差平方和.若 0β, 1β使Q( 0β, 1β)越小,则模型拟合数据越好,因此只需极小化Q(01,ββ),以所得的01ˆˆ,ββ作为01,ββ的相应估计.所谓最小二乘法就是按照这一思路,通过使残差平方和达到最小来估计回归系数的一种方法.这一重要方法一般归功于德国大数学家高斯在1799年~1809年间的工作.用最小二乘法导出的估计有一些良好性质,因而该法在数理统计中有广泛的应用.对于模型(8.3.7),最小二乘法与我们常用的最大似然估计法所得到的结果是一致的.因为12,,,n y y y 的联合概率密度为201211()2ni i i L y x ββσ=⎡⎤=∏---⎢⎥⎣⎦201211exp ()2nni i i y x ββσ=⎡⎤⎛=--⎢⎥⎝⎣⎦∑求使L 达到极大值的01,ββ,只需极小化2011()ni i i y x ββ=--∑,这个和不是别的,正是我们上述的残差平方和01(,)Q ββ.利用多元函数求极值的方法,分别求01(,)Q ββ关于01,ββ的偏导数,并令它们分别等于零:011001112()0,2()0.ni i i ni i i i Qy x Q y x x ββββββ==∂⎧=---=⎪∂⎪⎨∂⎪=---=⎪∂⎩∑∑ 整理得0120111,(),n ni i ii i n nx ny nx X X Y ββββ==+=⎧⎪⎨+=⎪⎩∑∑ (8.3.9)其中x =1111,nnii i i X y y nn===∑∑.方程组(8.3.9)称为正规方程组。