《数理统计》教案——回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如:身高与体重,不存在这样的函数可以由身高计算 出体重,但从统计意义上来说,身高者,体也重。
再如:父亲的身高与儿子的身高之间也有一定联系, 通常父亲高,儿子也高。
回归分析——研究相关性关系的最基本,应用最广泛的方法。
自变量: 定量、非随机 回归分析的变量类型 因变量: 定量、随机变量
第二节 一元线性回归
i
∑ ∑ lxy = ( xi − x ) ( yi − y ) = xi yi − n ⋅ x ⋅ y
i
i
将 正 规 方 程 整 理 得 : aˆ + xbˆ = y , lxxbˆ = lxy .
a,
b的最小二乘估计:
bˆ
=
lxy
lxx
aˆ = y − xbˆ
在误差为正态分布假定下,最小二乘估计等价于极大似 然估计。
对于x取定一组不完全相同的值x1, x2 ,..., xn ,设分别 在xi处对Y作独立观察得到样本(xi ,Yi ),i = 1, 2,..., n, 对应的样本观察值(x1, y1), (x2 , y2 ),..., (xn , yn ).
将每对观察值(xi , yi )在直角坐标系中描出它相应的点
确定性关系 变量与变量之间的关系 相关性关系
一、确定性关系: 当自变量给定一个值时,就确定应变量的值
与之对应。 如:在自由落体中,物体下落的高度h与下
落时间t之间有函数关系:
h = 1 gt2 2
《数理统计》授课教案——李正耀
二、相关性关系:
变量之间的关系并不确定,而是表现为具有随机性的一 种“趋势”。即对自变量x的同一值,在不同的观测中,因变 量Y可以取不同的值,而且取值是随机的,但对应x在一定 范围的不同值,对Y进行观测时,可以观察到Y随x的变化 而呈现有一定趋势的变化。
正态假设:ε ~ N(0,σ2).
对x的一组不全相同的值, 得到样本(x1,Y1), (x2 ,Y2 ),..., (xn ,Yn )
一元线性回归模型:Yi
= a + bxi + εi , i = 1, 2,..., n,
ε
相互独立,
i
E(εi ) = 0, D(εi ) = σ 2 ,
(1)回归系数a,b的最小二乘估计(LSE)
Q (a, b ) = ∑n ( yi − a − bxi )2
i =1
求 估 计 aˆ, bˆ,
y = aˆ + bˆx
( ) 使Q aˆ, bˆ = min Q (a, b )。
a ,b
∑ ∂Q
∂a
=
n
−2
i =1
( yi
−a
− bxi )
=
0,
x1 x2 x3
n
∑n xi
i =1
n
∑ xi
i =1
∑ ∑ ∑ n ∑ xi2
n
n 2
n
= n i=1 xi2 − i=1 xi
= n (xi − x )2 ≠ 0
i =1
i =1
记号:
∑ ∑ ∑ lxx =
( xi − x )2 =
x
2 i
−
nx 2 , lyy
=
( yi − y )2 .
i
i
a, b(回归系数),σ 2未知.
( ) 正态假设:εi ~ N 0,σ2 ,相互独立,i =1,2,...,n.
《数理统计》授课教案——李正耀
一元线性回归要解决的问题:
(1) a, b的估计; (2) σ 2的估计;
(3) 线性假设的显著性检验; (4) 回归系数b的置信区间;
(5) 回归函数µ(x) = a + bx 的点估计和置信区间; (6) Y的观察值的点预测和区间预测。
设随机变量Y与x之间存在某种相关关系。 这里,x是可以控制或精确观测的变量(不是随机变量), 如年龄、试验时的温度、施加的压力、电压与时间等。
由于Y 是随机变量,对于x的每个确定值,Y 有相应的分布, 记其分布函数为F ( y x)。因此如果掌握了F ( y x)随着x的取值 而变化的规律,也就完全掌握了Y 与x之间的关系了。
然而这样做,实际中往往很难实现。作为一种近似,考察Y的 数学期望E(Y() 假设存在),其值随x的取值而定,它是x的函数,
将其记为µ ( x),称为Y 关于x的回归函数。于是将讨论Y 与x相关 关系问题转换为讨论E(Y ) = µ(x)与x的关系问题了。
《数理统计》授课教案——李正耀
在实际问题中,回归函数μ(x)一般是未知 的,需要根据试验数据去估计。
µˆ (x) = aˆ + bˆx——经验回归函数。
方程:yˆ = aˆ + bˆx ——Y关于x的(经验)回归方程, 其图形称为回归直线。 当 X = x时,Y的预测值为:
yˆ = aˆ + bˆx
称
yˆ i
= aˆ + bˆxi
为 yi 的拟合值;
称
ei
= yi
−
yˆ 为残差; i
∑n
性质1:残差和为0,即 ei = 0.
(称为散点图),可以粗略看出µ ( x)的形式。
假设µ(x)为线性函数:µ(x) = a + bx,此时估计µ(x)的
问题称为求一元线性回归问题。
Y = a + bx + ε
基本假设:ε
是随机误差,不可控制,
E(ε ) = 0, D(ε ) = σ 2 ,
a, b(回归系数),σ 2未知.
xi
xn
∑ ∂Q
∂b
=
−2
n i =1
( yi
−
a
− bxi )xi
=
0.
整理得
∑ ∑ n
n
na + ( xi )b = yi
i =1
i =1
——正规方程组
∑ ∑ ∑ (
n i =1
n
xi )a + (
i =1
xi2 )b =
n i =1
xi yi
正规方程系数行列式
《数理统计》授课教案——李正耀
事实上,似然函数
( ) ∑ L(a,b) =
1
2πσ 2
n 2
exp −
1
σ2
n
( yi
i=1
−a−Fra bibliotekbxi)2
对L (a,b)最大化,等价于对
∑n
( yi − a − bxi )2
i =1
最小化,即最小二乘估计。
《数理统计》授课教案——李正耀
给定x,µ(x) = a + bx的估计为:
第 5 章 回归分析
《数理统计》授课教案——李正耀
第一节 回归分析的基本概念
数据按其取值分为两种类型:
1、定性数据:取值表示事物的属性、性质和类 别,没有数量上的大小关系。如性别、文化程度、 服务的满意程度.
2、定量数据:取值有数量上的大小关系。
类似地,有定性变量和定量变量.
研究变量间的相互关系是数学的一个永恒话题.
再如:父亲的身高与儿子的身高之间也有一定联系, 通常父亲高,儿子也高。
回归分析——研究相关性关系的最基本,应用最广泛的方法。
自变量: 定量、非随机 回归分析的变量类型 因变量: 定量、随机变量
第二节 一元线性回归
i
∑ ∑ lxy = ( xi − x ) ( yi − y ) = xi yi − n ⋅ x ⋅ y
i
i
将 正 规 方 程 整 理 得 : aˆ + xbˆ = y , lxxbˆ = lxy .
a,
b的最小二乘估计:
bˆ
=
lxy
lxx
aˆ = y − xbˆ
在误差为正态分布假定下,最小二乘估计等价于极大似 然估计。
对于x取定一组不完全相同的值x1, x2 ,..., xn ,设分别 在xi处对Y作独立观察得到样本(xi ,Yi ),i = 1, 2,..., n, 对应的样本观察值(x1, y1), (x2 , y2 ),..., (xn , yn ).
将每对观察值(xi , yi )在直角坐标系中描出它相应的点
确定性关系 变量与变量之间的关系 相关性关系
一、确定性关系: 当自变量给定一个值时,就确定应变量的值
与之对应。 如:在自由落体中,物体下落的高度h与下
落时间t之间有函数关系:
h = 1 gt2 2
《数理统计》授课教案——李正耀
二、相关性关系:
变量之间的关系并不确定,而是表现为具有随机性的一 种“趋势”。即对自变量x的同一值,在不同的观测中,因变 量Y可以取不同的值,而且取值是随机的,但对应x在一定 范围的不同值,对Y进行观测时,可以观察到Y随x的变化 而呈现有一定趋势的变化。
正态假设:ε ~ N(0,σ2).
对x的一组不全相同的值, 得到样本(x1,Y1), (x2 ,Y2 ),..., (xn ,Yn )
一元线性回归模型:Yi
= a + bxi + εi , i = 1, 2,..., n,
ε
相互独立,
i
E(εi ) = 0, D(εi ) = σ 2 ,
(1)回归系数a,b的最小二乘估计(LSE)
Q (a, b ) = ∑n ( yi − a − bxi )2
i =1
求 估 计 aˆ, bˆ,
y = aˆ + bˆx
( ) 使Q aˆ, bˆ = min Q (a, b )。
a ,b
∑ ∂Q
∂a
=
n
−2
i =1
( yi
−a
− bxi )
=
0,
x1 x2 x3
n
∑n xi
i =1
n
∑ xi
i =1
∑ ∑ ∑ n ∑ xi2
n
n 2
n
= n i=1 xi2 − i=1 xi
= n (xi − x )2 ≠ 0
i =1
i =1
记号:
∑ ∑ ∑ lxx =
( xi − x )2 =
x
2 i
−
nx 2 , lyy
=
( yi − y )2 .
i
i
a, b(回归系数),σ 2未知.
( ) 正态假设:εi ~ N 0,σ2 ,相互独立,i =1,2,...,n.
《数理统计》授课教案——李正耀
一元线性回归要解决的问题:
(1) a, b的估计; (2) σ 2的估计;
(3) 线性假设的显著性检验; (4) 回归系数b的置信区间;
(5) 回归函数µ(x) = a + bx 的点估计和置信区间; (6) Y的观察值的点预测和区间预测。
设随机变量Y与x之间存在某种相关关系。 这里,x是可以控制或精确观测的变量(不是随机变量), 如年龄、试验时的温度、施加的压力、电压与时间等。
由于Y 是随机变量,对于x的每个确定值,Y 有相应的分布, 记其分布函数为F ( y x)。因此如果掌握了F ( y x)随着x的取值 而变化的规律,也就完全掌握了Y 与x之间的关系了。
然而这样做,实际中往往很难实现。作为一种近似,考察Y的 数学期望E(Y() 假设存在),其值随x的取值而定,它是x的函数,
将其记为µ ( x),称为Y 关于x的回归函数。于是将讨论Y 与x相关 关系问题转换为讨论E(Y ) = µ(x)与x的关系问题了。
《数理统计》授课教案——李正耀
在实际问题中,回归函数μ(x)一般是未知 的,需要根据试验数据去估计。
µˆ (x) = aˆ + bˆx——经验回归函数。
方程:yˆ = aˆ + bˆx ——Y关于x的(经验)回归方程, 其图形称为回归直线。 当 X = x时,Y的预测值为:
yˆ = aˆ + bˆx
称
yˆ i
= aˆ + bˆxi
为 yi 的拟合值;
称
ei
= yi
−
yˆ 为残差; i
∑n
性质1:残差和为0,即 ei = 0.
(称为散点图),可以粗略看出µ ( x)的形式。
假设µ(x)为线性函数:µ(x) = a + bx,此时估计µ(x)的
问题称为求一元线性回归问题。
Y = a + bx + ε
基本假设:ε
是随机误差,不可控制,
E(ε ) = 0, D(ε ) = σ 2 ,
a, b(回归系数),σ 2未知.
xi
xn
∑ ∂Q
∂b
=
−2
n i =1
( yi
−
a
− bxi )xi
=
0.
整理得
∑ ∑ n
n
na + ( xi )b = yi
i =1
i =1
——正规方程组
∑ ∑ ∑ (
n i =1
n
xi )a + (
i =1
xi2 )b =
n i =1
xi yi
正规方程系数行列式
《数理统计》授课教案——李正耀
事实上,似然函数
( ) ∑ L(a,b) =
1
2πσ 2
n 2
exp −
1
σ2
n
( yi
i=1
−a−Fra bibliotekbxi)2
对L (a,b)最大化,等价于对
∑n
( yi − a − bxi )2
i =1
最小化,即最小二乘估计。
《数理统计》授课教案——李正耀
给定x,µ(x) = a + bx的估计为:
第 5 章 回归分析
《数理统计》授课教案——李正耀
第一节 回归分析的基本概念
数据按其取值分为两种类型:
1、定性数据:取值表示事物的属性、性质和类 别,没有数量上的大小关系。如性别、文化程度、 服务的满意程度.
2、定量数据:取值有数量上的大小关系。
类似地,有定性变量和定量变量.
研究变量间的相互关系是数学的一个永恒话题.