自考-概率论与数理统计 第九章 回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
编号 x 1 15.4 2 17.5 3 18.9 4 20.0 5 21.0 6 22.8 7 15.8 8 17.8 9 19.1 168.3
x为线性相关关系:y a bx
y
44.0
39.2
41.8
38.9
37.4
38.1
44.6
40.7
39.8
364.5 3192.7 5
x2
237.16
b
Lxy Lxx
0.9032
a y bx 57.3891
所以,所求的回归方程为
y 0.9032x 57.3891
利用回归方程进行预测
1、点预测
2、区间预测 统计量
x x0 时,y ˆ a bx0 即为 y 的点预测值。
T y0 y0 SS E 1 x0 x 1 (n 2) n Lxx
第七章 参数估计(重点)
第八章 假设检验(重点) 第九章 回归分析
第九章 回归分析
§ 9.1 回归直线方程的建立
相关关系问题
在现实问题中,处于同一个过程中的一些变量, 往往是相互依赖和相互制约的,它们之间的相互关系 大致可分为两种:
(1)确定性关系——函数关系;
(2)非确定性关系——相关关系;
ˆ 5 1
【练习184】
• 设由一组观测数据 ( xi , yi )(i 1,2,……, n) 计算得
x 150, y 200, lxx 25, lxy 75,
ˆ 250 3x y • 则y对x的线性回归方程为________
【解】代入得
75 3 150 250 200 57.3891 3 a y bx b 0.9032 25 Lxx
编号 脂肪 含量 % 1 15.4 2 17.5 3 18.9 4 20.0 5 21.0 6 22.8 7 15.8 8 17.8 9 19.1
蛋白 质含 量%
44.0
39.2
41.8
38.9
37.4
38.1
44.6
40.7
39.8
试求出
y 与 x 的关系。
(1)描散点图 【解】
(2)建立模型 由散点图,设变量 y 与 确定回归系数 a和 b :
一元线性回归模型
设随机变量Y依赖于自变量x,作n次独立试验,
得n对观测值: ( x , y
1
1
) ( x2 , y2 ) ( xn , yn )
称这n对观测值为容量为n的一个子样,若把这n对观
测值在平面直角坐标系中描点,得到试验的散点图.
如果试验的散点图中各点呈直线状,则假设这批数 据的数学模型为 y x , i 1, 2, , n
Q( 0 , 1 ) yi 0 1 xi
i 1
n
2
问题:确定 0 , 1,使得 Q(0 , 1 ) 取得极小值。 这是一个二元函数的无条件极值问题。
回归方程的建立 n
n
i 1
min Q( 0 , 1 ) yi 0 1 xi
xy
677.6
168.3 364.5 x 18.7; y 40.5 9 9
Lxy 6775.02 9 18.7 40.5 41.13 Lxx 3192.75 9 18.7 45.54
2
Lyy 14813.2 9 40.5 50.95
2
致是75分和25分.
序 言
概率论是研究什么的?
概率论——从数量上研究随机现象的统计规律性的
科学。
数理统计——从应用角度研究处理随机性数据,建 立有效的统计方法,进行统计推理。
目
录
第一章 随机事件与概率(重点)
第二章 随机变量及其概率分布(重点)
第三章 多维随机变量及其概率分布(重点) 第四章 随机变量的数字特征(重点) 第五章 大数定律及中心极限定理 第六章 统计量及其抽样分布
x的变化而变化
只有一个自变量的回归分析称为一元回归分析;多 于一个自变量的回归分析称为多元回归分析。
回归分析的内容
回归分析主要包括三方面的内容
(1)提供建立有相关关系的变量之间的数学关系 式(称为经验公式)的一般方法; (2)判别所建立的经验公式是否有效,并从影响 随机变量的诸变量中判别哪些变量的影响是显著的,哪 些是不显著的; (3)利用所得到的经验公式进行预测和控制。
相关关系表现为这些变量之间有一定的依赖关系, 但这种关系并不完全确定,它们之间的关系不能精确 地用函数表示出来,这些变量其实是随机变量,或至 少有一个是随机变量。
相关关系举例
例如:在气候、土壤、水利、种子和耕作技术等条件基本 相同时,某农作物的亩产量 Y 与施肥量 X 之间有一定的关系, 但施肥量相同,亩产量却不一定相同。亩产量是一个随机变量。
i 0 1 i i
其中 则
yi ~ N 0 1xi ,
i ~ N (0, ) ,且相互独立,
2
2
i 1, 2, , n
yi 0 1 xi i
y
i 1, 2, , n
( xi , yi )
其中
i
相互独立,
i
x1, x2 使得
(b 0)
【练习181】
• 已知一元线性回归方程为
且 x 2, y 3 ,则 A.-1 B.0 C.1
ˆx ˆ 5 y 1
ˆ (A) 1
D.2
【解】代入得
ˆ 3 5 2 1
ˆ 1 1
【练习182】
ˆ 5x • 已知一元线性回归方程为 y ˆ 0
2 N ( 0 , ) 同服从于正态分布
因此
O
x
yi ~ N (0 1xi , )
2
i 1, 2, , n
一元线性回归模型
一般地,称如下数学模型为一元线性模型
Y 0 1 x , 2 ~ N (0, )
其中 0、1、 2 是与
2
令
Q 2 yi 0 1 xi (1) 0 0 i 1 n Q 2 yi 0 1 xi ( xi ) 0 1 n n i 1 1 1 x xi , y yi n i 1 n i 1 n 0 y 1x Lxy ( xi x )( yi y ) Lxy i 1 1 n Lxx 2 Lxx ( xi x )
P y1 y y2 1 一般地,要解出 x1和 x2很复杂,可作简化求解: SS E 当样本容量很大时, ( x) u 2 ,则 n2
1 SSE x1 y1 u 2 a b n2 1 SSE x2 y2 u 2 a b n2
( 1 0)
(9.1)
x无关的未知常数。
而
Y 0 1x 称为回归函数或回归方程。
称为回归系数。
0、1
回归函数(方程)的建立
由观测值 ( x1, y1 ) ( x2 , y2 ) ( xn , yn ) 确定的回归
函数 Y x,应使得 i yi 0 1 xi 较小。 0 1 考虑函数
所以,所求的回归方程为
Lxy
ˆ 250 3x y
农作物的亩产量与施肥量之间的这种关系称为相 关关系,在这些变量中,施肥量是可控变量,亩产量 是不可控变量。一般在讨论相关关系问题中,可控变 量称为自变量,不可控变量称为因变量。
函数关系与相关关系的区别
函数关系——
相关关系——
x x
决定
影响
Y
Y
的值,
的值,不能确定。
因此,统计学上讨论两变量的相关关系时,是设法
概率论与数理统计
教材:百度文库概率论与数理统计》
(经管类)
课程代码:4183
柳金甫 王义东 主编 武汉大学出版社
本课程的重点章是第1、2、3、4、7、8章. (1)试题的难度可分为:易,中等偏易,中等偏难,难。 它们所占分数依次大致为:20分,40分,30分,10分。 (2)试题的题型有:选择题(10*2=20分)、填空题 (15*2=30分)、 计算题 (2*8=16分)、综合题(2*12=24分)、应用题(1*10=10分)。 (3)在试题中,概率论和数理统计内容试题分数的分布大
SS E 1 x0 x 1 (n 2) n Lxx
2
~ t (n 2)
对给定的置信水平 1 ,y0 的预测区间为
2
y0 t 2 (n 2)
x0
利用回归方程进行预测
续例1 求大豆脂肪含量为18.6%的条件下蛋白质 95%的预测区间。 解 由已求得的回归方程
,且 x 2 , y 8 ,则
-2 ˆ _______. 0
ˆ 5 2 【解】代入得 8 1
ˆ 2 1
【练习183】
• 已知一元线性回归方程为
ˆ x, 且x 1, y 8, 则 ˆ ___. 5 ˆ 3 • y 1 1
【解】代入得
ˆ 8 3 1
y 0.9032x 57.3891 得蛋白质的点预测值为 40.5896
(18.6) 3.50061
所以脂肪含量为18.6%时,蛋白质的95%的预测区间为
37.0890,44.0902
利用回归方程进行控制
控制则为预测的反问题:已知因变量的取值区间为
y1, y2
,确定自变量的取值区间
i 1
回归方程的建立
记
y x 0 1
Lxy 1 Lxx
表示对
的估计值 , 0 1
则变量
Y
对
x
的回归方程为
x y 0 1
简写为
y 0 1x
y 0 1x
【例1】为了研究大豆脂肪含量 x 和蛋白质含量 的 y 关系,测定了九种大豆品种籽粒内的脂肪含量和蛋 白质含量,得到如下数据
确定:在给定自变量 X x 的条件下,因变量
Y的
条件数学期望 E(Y
| x)
回归分析的概念
研究一个随机变量与一个(或几个)可控变量之间 的相关关系的统计方法称为回归分析。 引进回归函数 ( x) E (Y | x)
y ( x) E(Y | x)
的平均变化情况.
称为回归方程
回归方程反映了因变量 Y 随自变量
306.25 1536.6 4 686
357.21 1747.2 4 790.02
400 1513.2 1 778
441 1398.7 6 785.4
519.84 1451.6 1 868.68
249.64 1989.1 6 704.68
316.84 364.81
y2
1936
1656.4 1584.0 14813. 9 4 2 724.46 760.18 6775.0 2
x为线性相关关系:y a bx
y
44.0
39.2
41.8
38.9
37.4
38.1
44.6
40.7
39.8
364.5 3192.7 5
x2
237.16
b
Lxy Lxx
0.9032
a y bx 57.3891
所以,所求的回归方程为
y 0.9032x 57.3891
利用回归方程进行预测
1、点预测
2、区间预测 统计量
x x0 时,y ˆ a bx0 即为 y 的点预测值。
T y0 y0 SS E 1 x0 x 1 (n 2) n Lxx
第七章 参数估计(重点)
第八章 假设检验(重点) 第九章 回归分析
第九章 回归分析
§ 9.1 回归直线方程的建立
相关关系问题
在现实问题中,处于同一个过程中的一些变量, 往往是相互依赖和相互制约的,它们之间的相互关系 大致可分为两种:
(1)确定性关系——函数关系;
(2)非确定性关系——相关关系;
ˆ 5 1
【练习184】
• 设由一组观测数据 ( xi , yi )(i 1,2,……, n) 计算得
x 150, y 200, lxx 25, lxy 75,
ˆ 250 3x y • 则y对x的线性回归方程为________
【解】代入得
75 3 150 250 200 57.3891 3 a y bx b 0.9032 25 Lxx
编号 脂肪 含量 % 1 15.4 2 17.5 3 18.9 4 20.0 5 21.0 6 22.8 7 15.8 8 17.8 9 19.1
蛋白 质含 量%
44.0
39.2
41.8
38.9
37.4
38.1
44.6
40.7
39.8
试求出
y 与 x 的关系。
(1)描散点图 【解】
(2)建立模型 由散点图,设变量 y 与 确定回归系数 a和 b :
一元线性回归模型
设随机变量Y依赖于自变量x,作n次独立试验,
得n对观测值: ( x , y
1
1
) ( x2 , y2 ) ( xn , yn )
称这n对观测值为容量为n的一个子样,若把这n对观
测值在平面直角坐标系中描点,得到试验的散点图.
如果试验的散点图中各点呈直线状,则假设这批数 据的数学模型为 y x , i 1, 2, , n
Q( 0 , 1 ) yi 0 1 xi
i 1
n
2
问题:确定 0 , 1,使得 Q(0 , 1 ) 取得极小值。 这是一个二元函数的无条件极值问题。
回归方程的建立 n
n
i 1
min Q( 0 , 1 ) yi 0 1 xi
xy
677.6
168.3 364.5 x 18.7; y 40.5 9 9
Lxy 6775.02 9 18.7 40.5 41.13 Lxx 3192.75 9 18.7 45.54
2
Lyy 14813.2 9 40.5 50.95
2
致是75分和25分.
序 言
概率论是研究什么的?
概率论——从数量上研究随机现象的统计规律性的
科学。
数理统计——从应用角度研究处理随机性数据,建 立有效的统计方法,进行统计推理。
目
录
第一章 随机事件与概率(重点)
第二章 随机变量及其概率分布(重点)
第三章 多维随机变量及其概率分布(重点) 第四章 随机变量的数字特征(重点) 第五章 大数定律及中心极限定理 第六章 统计量及其抽样分布
x的变化而变化
只有一个自变量的回归分析称为一元回归分析;多 于一个自变量的回归分析称为多元回归分析。
回归分析的内容
回归分析主要包括三方面的内容
(1)提供建立有相关关系的变量之间的数学关系 式(称为经验公式)的一般方法; (2)判别所建立的经验公式是否有效,并从影响 随机变量的诸变量中判别哪些变量的影响是显著的,哪 些是不显著的; (3)利用所得到的经验公式进行预测和控制。
相关关系表现为这些变量之间有一定的依赖关系, 但这种关系并不完全确定,它们之间的关系不能精确 地用函数表示出来,这些变量其实是随机变量,或至 少有一个是随机变量。
相关关系举例
例如:在气候、土壤、水利、种子和耕作技术等条件基本 相同时,某农作物的亩产量 Y 与施肥量 X 之间有一定的关系, 但施肥量相同,亩产量却不一定相同。亩产量是一个随机变量。
i 0 1 i i
其中 则
yi ~ N 0 1xi ,
i ~ N (0, ) ,且相互独立,
2
2
i 1, 2, , n
yi 0 1 xi i
y
i 1, 2, , n
( xi , yi )
其中
i
相互独立,
i
x1, x2 使得
(b 0)
【练习181】
• 已知一元线性回归方程为
且 x 2, y 3 ,则 A.-1 B.0 C.1
ˆx ˆ 5 y 1
ˆ (A) 1
D.2
【解】代入得
ˆ 3 5 2 1
ˆ 1 1
【练习182】
ˆ 5x • 已知一元线性回归方程为 y ˆ 0
2 N ( 0 , ) 同服从于正态分布
因此
O
x
yi ~ N (0 1xi , )
2
i 1, 2, , n
一元线性回归模型
一般地,称如下数学模型为一元线性模型
Y 0 1 x , 2 ~ N (0, )
其中 0、1、 2 是与
2
令
Q 2 yi 0 1 xi (1) 0 0 i 1 n Q 2 yi 0 1 xi ( xi ) 0 1 n n i 1 1 1 x xi , y yi n i 1 n i 1 n 0 y 1x Lxy ( xi x )( yi y ) Lxy i 1 1 n Lxx 2 Lxx ( xi x )
P y1 y y2 1 一般地,要解出 x1和 x2很复杂,可作简化求解: SS E 当样本容量很大时, ( x) u 2 ,则 n2
1 SSE x1 y1 u 2 a b n2 1 SSE x2 y2 u 2 a b n2
( 1 0)
(9.1)
x无关的未知常数。
而
Y 0 1x 称为回归函数或回归方程。
称为回归系数。
0、1
回归函数(方程)的建立
由观测值 ( x1, y1 ) ( x2 , y2 ) ( xn , yn ) 确定的回归
函数 Y x,应使得 i yi 0 1 xi 较小。 0 1 考虑函数
所以,所求的回归方程为
Lxy
ˆ 250 3x y
农作物的亩产量与施肥量之间的这种关系称为相 关关系,在这些变量中,施肥量是可控变量,亩产量 是不可控变量。一般在讨论相关关系问题中,可控变 量称为自变量,不可控变量称为因变量。
函数关系与相关关系的区别
函数关系——
相关关系——
x x
决定
影响
Y
Y
的值,
的值,不能确定。
因此,统计学上讨论两变量的相关关系时,是设法
概率论与数理统计
教材:百度文库概率论与数理统计》
(经管类)
课程代码:4183
柳金甫 王义东 主编 武汉大学出版社
本课程的重点章是第1、2、3、4、7、8章. (1)试题的难度可分为:易,中等偏易,中等偏难,难。 它们所占分数依次大致为:20分,40分,30分,10分。 (2)试题的题型有:选择题(10*2=20分)、填空题 (15*2=30分)、 计算题 (2*8=16分)、综合题(2*12=24分)、应用题(1*10=10分)。 (3)在试题中,概率论和数理统计内容试题分数的分布大
SS E 1 x0 x 1 (n 2) n Lxx
2
~ t (n 2)
对给定的置信水平 1 ,y0 的预测区间为
2
y0 t 2 (n 2)
x0
利用回归方程进行预测
续例1 求大豆脂肪含量为18.6%的条件下蛋白质 95%的预测区间。 解 由已求得的回归方程
,且 x 2 , y 8 ,则
-2 ˆ _______. 0
ˆ 5 2 【解】代入得 8 1
ˆ 2 1
【练习183】
• 已知一元线性回归方程为
ˆ x, 且x 1, y 8, 则 ˆ ___. 5 ˆ 3 • y 1 1
【解】代入得
ˆ 8 3 1
y 0.9032x 57.3891 得蛋白质的点预测值为 40.5896
(18.6) 3.50061
所以脂肪含量为18.6%时,蛋白质的95%的预测区间为
37.0890,44.0902
利用回归方程进行控制
控制则为预测的反问题:已知因变量的取值区间为
y1, y2
,确定自变量的取值区间
i 1
回归方程的建立
记
y x 0 1
Lxy 1 Lxx
表示对
的估计值 , 0 1
则变量
Y
对
x
的回归方程为
x y 0 1
简写为
y 0 1x
y 0 1x
【例1】为了研究大豆脂肪含量 x 和蛋白质含量 的 y 关系,测定了九种大豆品种籽粒内的脂肪含量和蛋 白质含量,得到如下数据
确定:在给定自变量 X x 的条件下,因变量
Y的
条件数学期望 E(Y
| x)
回归分析的概念
研究一个随机变量与一个(或几个)可控变量之间 的相关关系的统计方法称为回归分析。 引进回归函数 ( x) E (Y | x)
y ( x) E(Y | x)
的平均变化情况.
称为回归方程
回归方程反映了因变量 Y 随自变量
306.25 1536.6 4 686
357.21 1747.2 4 790.02
400 1513.2 1 778
441 1398.7 6 785.4
519.84 1451.6 1 868.68
249.64 1989.1 6 704.68
316.84 364.81
y2
1936
1656.4 1584.0 14813. 9 4 2 724.46 760.18 6775.0 2