一元线性回归模型.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
差所取的值,它是不能观察的.
yi a bxi i , i=1,2, …,n (4)
由于各次观察独立,有
E
D( i
(i ) 0 )2
0
i=1,2, …,n
(5)
(4) 式 和 (5) 式 结 合 , 给 出 了 样 本 (x1,y1),…,(xn,yn) 的概率性质. 它是对理论 模型进行统计分析推断的依据. 也常称 (4)+(5)为一元线性回归模型.
第8章 回归分析与方差分析
从浩瀚无垠的宇宙到微小的分 子、原子,从无机界到有机界,从 自然到社会,无一事物不处在与其 他事物的联系之中.事物之间不仅存 在着相互联系,而且还具有一定的 内部规律.
让我们来看一下有联系的变量之间的关系:
例如, 矩形的面积S和矩形的两条边长a和 b有关系:
bS
S=a.
a
例如,人的身高与体重之间有一定的关系, 知道一个人的身高可以大致估计出他的体重, 但并不能算出体重的精确值.
其原因在于人有较大的个体差异, 因而身高 和体重的关系, 是既密切但又不能完全确定 的函数关系.
类似的变量间的关系在大自然和社会中 屡见不鲜.
例如,小麦的穗长与穗重的关系;某班学生最 后一次考试分数与第一次考试分数的关系;温 度、降雨量与农作物产量间的关系;人的年龄 与血压的关系;最大积雪深度与灌溉面积间的 关系;家庭收入与支出的关系等等.
b
又如著名的欧姆定律指出, 电压V、电阻R 与电流I之间有关系:
V=I. R
以上两例的共同点在于,三个量中任意 两个已知,其余一个就可以完全确定. 也就 是说,变量之间存在着确定性的关系,并且 可以用数学表达式来表示这种关系.
然而,在大量的实际问题中,变量之 间虽有某种关系,但这种关系很难找到一 种精确的表示方法来描述.
回归这一术语是1886年英国生 物学家高尔顿在研究遗传现象 时引进的.
他发现: 虽然高个子的先代会有高个子的后 代, 但后代的增高并不与先代的增高等量. 他称这一现象为“向平常高度的回归”.
尔后,他的朋友麦尔逊等人搜集了上千个家 庭成员的身高数据:
分析出儿子的身高y和父亲的身高x大致为 如下关系:
yˆ aˆ bˆx
(2)
称此方程为y关于x的回归方程 .
y=a+bx+ε, ε ~N(0, )2 (1)
现对模型(1)中的变量x , y进行了n次独 立观察, 得样本
(x1,y1),…,(xn,yn) (3) 据(1)式, 此样本的构造可由方程
yi a bxi i , i=1,2, …,n (4) 来描述. 这里 i 是第i次观察时随机误
据(x1,y1),…,(xn,yn)来估计a和b, 以估计值 aˆ 和
bˆ分别代替(2)式中的a和b, 得回归方程
yˆ aˆ bˆx
(6)
事实上, 还有许多其它因素对y产生影 响,如当年的平均气温、当年的降雨量等等, 都是影响y取什么值的随机因素.
如果我们只研究x和y的关系, 可以假定有 如下结构式:
y =a+bx+ε
其中a和b是未知常数, 称回归系数, ε表示 其它随机因素对灌溉面积的影响.
实际中常假定ε服从正态分布N(0,σ2), 即
年序
1 2 3 4 5 6 7 8 9 10
最大积雪深度x(米) 5.1 3.5 7.1 6.2 8.8 7.8 4.5 5.6 8.0 6.4
灌溉面积y(公顷) 1907 1287 2693 2373 3260 3000 1947 2273 3113 2493
为了研究这些数据中所蕴含的规律性,
y=0.516x+33.73 (英寸)
6英寸
3英寸
这意味着, 若父亲身高超过父亲平均身高6英 寸, 那么其儿子的身高大约只超过儿子平均 身高3英寸, 可见有向平均值返回的趋势.
诚然, 如今对回归这一概念的理解并不是高 尔顿的原意, 但这一名词却一直沿用下来, 成为统计学中最常用的概念之一.
在回归分析中, 当变量只有两个时, 称为 一元回归分析; 当变量在两个以上时, 称为多 元回归分析. 变量间成线性关系, 称线性回归, 变量间不具有线性关系, 称非线性回归.
E( ) 0 D( ) 2
, 0
2未
知
通常称
y=a+bx+ε, ε ~N(0, )2 (1)
为一元线性回归来自百度文库型.
由(1)式, 我们不难算得y的数学期望:
E(y)=a+bx
该式表示当x已知时,可以精确地算出E(y).
由于ε是不可控制的随机因素,通常就用E(y) 作为y的估计, 记作 . 这yˆ 样我们得到
我们由10对数据作出散点图.
y
4000 3000 2000
1000
···········
o 2 4 6 8 10
x
从图看到, 数据点大致落在一条直线附
近, 这告诉我们变量x和y之间大致可看作线
性关系. 从图中还看到, 这些点又不完全在
一条直线上, 这表明x和y的关系并没有确切
到给定x就可以唯一确定y的程度.
这种大量存在的变量间既互相联系但又不 是完全确定的关系,称为相关关系.
从数量的角度去研究这种关系,是数 理统计的一个任务. 这包括通过观察和试 验数据去判断变量之间有无关系,对其关 系大小作出数量上的估计,对互有关系的 变量通过其一去推断和预测其它,等等.
回归分析就是研究相关关系的一种重 要的数理统计方法.
一元回归
线性
多元回归
非线性
在这一讲里, 我们主要讨论的是一元线 性回归. 它是处理两个变量之间关系的最简 单的模型. 它虽然比较简单, 但我们从中可以 了解到回归分析的基本思想、方法和应用.
8.1 一元线性回归模型
8.1.1 一元回归模型的建立
让我们用一个例子来说明如何建立 一元线性回归方程.
为了估计山上积雪融化后对下游灌 溉的影响, 在山上建立了一个观测站, 测量了最大积雪深度x与当年灌溉面积 y, 得到连续10年的数据如下表:
一般地,把a bx改为函数( x),得到一般性的
一元回归模型
Y ( x)
E
(
)
0,
D(
)
2
若( x)为一次函数,则称为一元线性回归模型;
若( x)不是一次函数,则称为一元非线性回归模型;
若( x)是多元函数,则成为多元回归模型。
8.1.2 一元线性回归模型的参数估计
回归分析的任务是利用n组独立观察数
yi a bxi i , i=1,2, …,n (4)
由于各次观察独立,有
E
D( i
(i ) 0 )2
0
i=1,2, …,n
(5)
(4) 式 和 (5) 式 结 合 , 给 出 了 样 本 (x1,y1),…,(xn,yn) 的概率性质. 它是对理论 模型进行统计分析推断的依据. 也常称 (4)+(5)为一元线性回归模型.
第8章 回归分析与方差分析
从浩瀚无垠的宇宙到微小的分 子、原子,从无机界到有机界,从 自然到社会,无一事物不处在与其 他事物的联系之中.事物之间不仅存 在着相互联系,而且还具有一定的 内部规律.
让我们来看一下有联系的变量之间的关系:
例如, 矩形的面积S和矩形的两条边长a和 b有关系:
bS
S=a.
a
例如,人的身高与体重之间有一定的关系, 知道一个人的身高可以大致估计出他的体重, 但并不能算出体重的精确值.
其原因在于人有较大的个体差异, 因而身高 和体重的关系, 是既密切但又不能完全确定 的函数关系.
类似的变量间的关系在大自然和社会中 屡见不鲜.
例如,小麦的穗长与穗重的关系;某班学生最 后一次考试分数与第一次考试分数的关系;温 度、降雨量与农作物产量间的关系;人的年龄 与血压的关系;最大积雪深度与灌溉面积间的 关系;家庭收入与支出的关系等等.
b
又如著名的欧姆定律指出, 电压V、电阻R 与电流I之间有关系:
V=I. R
以上两例的共同点在于,三个量中任意 两个已知,其余一个就可以完全确定. 也就 是说,变量之间存在着确定性的关系,并且 可以用数学表达式来表示这种关系.
然而,在大量的实际问题中,变量之 间虽有某种关系,但这种关系很难找到一 种精确的表示方法来描述.
回归这一术语是1886年英国生 物学家高尔顿在研究遗传现象 时引进的.
他发现: 虽然高个子的先代会有高个子的后 代, 但后代的增高并不与先代的增高等量. 他称这一现象为“向平常高度的回归”.
尔后,他的朋友麦尔逊等人搜集了上千个家 庭成员的身高数据:
分析出儿子的身高y和父亲的身高x大致为 如下关系:
yˆ aˆ bˆx
(2)
称此方程为y关于x的回归方程 .
y=a+bx+ε, ε ~N(0, )2 (1)
现对模型(1)中的变量x , y进行了n次独 立观察, 得样本
(x1,y1),…,(xn,yn) (3) 据(1)式, 此样本的构造可由方程
yi a bxi i , i=1,2, …,n (4) 来描述. 这里 i 是第i次观察时随机误
据(x1,y1),…,(xn,yn)来估计a和b, 以估计值 aˆ 和
bˆ分别代替(2)式中的a和b, 得回归方程
yˆ aˆ bˆx
(6)
事实上, 还有许多其它因素对y产生影 响,如当年的平均气温、当年的降雨量等等, 都是影响y取什么值的随机因素.
如果我们只研究x和y的关系, 可以假定有 如下结构式:
y =a+bx+ε
其中a和b是未知常数, 称回归系数, ε表示 其它随机因素对灌溉面积的影响.
实际中常假定ε服从正态分布N(0,σ2), 即
年序
1 2 3 4 5 6 7 8 9 10
最大积雪深度x(米) 5.1 3.5 7.1 6.2 8.8 7.8 4.5 5.6 8.0 6.4
灌溉面积y(公顷) 1907 1287 2693 2373 3260 3000 1947 2273 3113 2493
为了研究这些数据中所蕴含的规律性,
y=0.516x+33.73 (英寸)
6英寸
3英寸
这意味着, 若父亲身高超过父亲平均身高6英 寸, 那么其儿子的身高大约只超过儿子平均 身高3英寸, 可见有向平均值返回的趋势.
诚然, 如今对回归这一概念的理解并不是高 尔顿的原意, 但这一名词却一直沿用下来, 成为统计学中最常用的概念之一.
在回归分析中, 当变量只有两个时, 称为 一元回归分析; 当变量在两个以上时, 称为多 元回归分析. 变量间成线性关系, 称线性回归, 变量间不具有线性关系, 称非线性回归.
E( ) 0 D( ) 2
, 0
2未
知
通常称
y=a+bx+ε, ε ~N(0, )2 (1)
为一元线性回归来自百度文库型.
由(1)式, 我们不难算得y的数学期望:
E(y)=a+bx
该式表示当x已知时,可以精确地算出E(y).
由于ε是不可控制的随机因素,通常就用E(y) 作为y的估计, 记作 . 这yˆ 样我们得到
我们由10对数据作出散点图.
y
4000 3000 2000
1000
···········
o 2 4 6 8 10
x
从图看到, 数据点大致落在一条直线附
近, 这告诉我们变量x和y之间大致可看作线
性关系. 从图中还看到, 这些点又不完全在
一条直线上, 这表明x和y的关系并没有确切
到给定x就可以唯一确定y的程度.
这种大量存在的变量间既互相联系但又不 是完全确定的关系,称为相关关系.
从数量的角度去研究这种关系,是数 理统计的一个任务. 这包括通过观察和试 验数据去判断变量之间有无关系,对其关 系大小作出数量上的估计,对互有关系的 变量通过其一去推断和预测其它,等等.
回归分析就是研究相关关系的一种重 要的数理统计方法.
一元回归
线性
多元回归
非线性
在这一讲里, 我们主要讨论的是一元线 性回归. 它是处理两个变量之间关系的最简 单的模型. 它虽然比较简单, 但我们从中可以 了解到回归分析的基本思想、方法和应用.
8.1 一元线性回归模型
8.1.1 一元回归模型的建立
让我们用一个例子来说明如何建立 一元线性回归方程.
为了估计山上积雪融化后对下游灌 溉的影响, 在山上建立了一个观测站, 测量了最大积雪深度x与当年灌溉面积 y, 得到连续10年的数据如下表:
一般地,把a bx改为函数( x),得到一般性的
一元回归模型
Y ( x)
E
(
)
0,
D(
)
2
若( x)为一次函数,则称为一元线性回归模型;
若( x)不是一次函数,则称为一元非线性回归模型;
若( x)是多元函数,则成为多元回归模型。
8.1.2 一元线性回归模型的参数估计
回归分析的任务是利用n组独立观察数