一元线性回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由图10 - 1(a)可看出散点大致地围绕一条直线散布,而图10 1(b)中的散点大致围绕一条抛物线散布,这就是变量间统计规律性 的一种表现.
如果图中的点像图10 - 1(a)中那样呈直线状,则表明y 与x 之间有 线性相关关系,我们可建立数学模型
y a bx
(10.1)
因为x 不能严格地确定y ,故带有一随机误差项ε ,一般假设 ε~N(0 , σ2),因而y也是随机变量,对于x的每一个值有y ~N(a+bx , σ 2),其中未知数a , b , σ2 不依赖于x ,(10.1) 式称为一元线性 回归模型(Univariable linear regreesion model). 特别地,由于y 是随 机变量,a , b 为未知数,x 一般是非随机变量,对(10.1)两边求 数学期望,则有
对回归方程进行假设 检验.
利用回归方程进行预 测和控制.
先考虑两个变量的情形. 设随机变量y 与x 之间存在着某种相 关关系. 这里x 一般是可以控制或可精确观察的变量,看作是非随 机变量,如在产量与施肥量的关系中,施肥量是能控制的,可以随 意指定几个值x1 , x2 ,… , xn ,故可将它看成普通变量,称为自 变量,而产量y 是随机变量,无法预先作出产量是多少的准确判 断,称为因变量. 本章只讨论这种情况
y b0 b1x1 bp xp , N (0 , 2 ) (10.3)
其中b0,b1,…,bp,σ2 都是与x1,x2,…,xp 无关的未知参数. (10.3)式称为多元线性回归模型,和前面一个自变量的情形类似, 进行n次独立观测,得样本
(x11 ,x12 , ,x1p ,y1) , ,(xn1 ,xn2 , ,xnp ,yn )
有了这些数据之后,我们可用最小二乘法获得未知参数的最小二
乘估计,记为bˆ0 ,bˆ1 , ,bˆp ,得到多元线性回归方程
yˆ bˆ0 bˆ1x1 bˆp xp
(10.4)
同理,(10.4)式是否真正描述了变量y与x1,x2 , … , xp 客学与数理统计
一元线性回归
回归分析研究的是变量与变量之间的关系.变量之间的关系 可分为两类,一类是确定性关系,这类关系可以用函数y=f(x) 来表示,x 给定后,y 的值就唯一确定了. 例如正方体的体积V 与边长a 之间的关系:V =a3,边长a确定了,体积V 唯一确定. 电 路中的欧姆定律:U =IR,如果已知这三个变量中的任意两个, 则另一个就可精确地求出. 另一类是非确定性关系即所谓相关关 系 . 例如,人的身高与体重的关系,一般说人长得越高体重也 相对重一些,但是身高与体重之间的关系不能用一个确定的函 数关系表达出来,相同身高的两个人体重不一定相等. 又如树的 高度与胸径之间的关系,农作物产量与施肥量之间的关系等也 是这样. 另一方面,即便是具有确定关系的变量,由于试验误差 的影响,其表现形式也具有某种程度的不确定性.
具有相关关系的变量之间虽然具有某种不确定性,不能用完 全确定的函数形式表示,但通过对它们之间关系的大量观察,可 以探索出它们之间的统计规律,如在平均意义下往往有一定的定 量关系,研究这种定量关系表达式就是回归分析的主要任务,它 主要解决以下几方面问题:
从一组观察数据出发, 确定这些变量之间的 回归方程(有时称为经 验公式).
yˆ aˆ bˆx
(10.2)
称为y 关于x 的线性回归方程或回归方程,其图形称为回归直 线. 从这里可以看出,回归方程的因变量其实是y的数学期望(均 值). (10.2)式是否真正描述了变量y与x 客观存在的关系,还需进 一步检验.
实际问题中,随机变量y 有时与多个普通变量x1 , x2 , … , xp (p >1) 有关,可类似地建立数学模型
由x 可以在一定程度上决定y,但由x 的值不能准确地确定y 的 值. 为了研究它们的这种关系,我们对(x,y) 进行一系列观测,得 到一个容量为n 的样本(x 取一组不完全相同的值):(x1 ,y1) , (x2 , y2) , … , (xn , yn),其中yi 是x =xi 处对随机变量y 观察的 结果. 每对(xi , yi) 在直角坐标系中对应一个点,把它们都标在平 面直角坐标系中,称所得到的图为散点图. 如图10 - 1.
E( y) E(a bx ε) a bx E(ε) a bx
即
E( y) a bx
这就是我们要说的回归方程(已经是确定性关系).
在实际问题中,a , b是待估计参数. 估计它们的最基本方法是
最小二乘法,这将在下节讨论. 设 aˆ 和bˆ 是用最小二乘法(下节讲) 获
得的估计,则在实际问题中,对于给定的x, 方程