第九章 直线回归和相关
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Y on X )。
相关分析:计算相关系数为基础的统计分析方法。
计算表示Y 和X 相关密切程度的统计数,并测验其
显著性。
这个统计数在两个变数为直线相关时称为相关系数
(correlation coefficient),记为r;在多元相关时称
为复相关系数(multiple correlation),记作
只是
中N的(一个X随,机 2样) 本。
(4)随机误差 相互独立,并作正态分布,具有
。
N(0,
2
)
二、直线回归的假设测验和区间估计 (一)直线回归的假设测验
1.回归关系的假设测验 (1)t 测验
H0:=0 对 HA : 0
sb
s
2 y
/
x
(x x)2
sy/x SS x
(9·10)
b
t sb
第九章 直线回归和相关
第一节 回归和相关的概念 第二节 直线回归 第三节 直线相关 第四节 直线回归与相关的内在关系
和应用要点 第五节 协方差分析
引言
这一章研究的对象:
由一个变数
两个或多个变数,因为在实际生
产实践和科学实验中所要研究的变数往往不止一
个,例如:
研究温度高低和作物发育进度快慢的关系,就有 温度和发育进度两个变数;
x,生物产量(g)
水稻单株生物产量与稻谷产量的散点图
x,每m2颖花数(万)
水稻每m2颖花数和结实率的散点图
x,最高叶面积指数
水稻最高叶面积指数和亩产量的散点图
第二节 直线回归
一、直线回归方程 二、直线回归的假设测验和区间估计 三、直线回归的矩阵求解
一、直线回归方程
Baidu Nhomakorabea
(一)直线回归方程式
因果关系 (回归分析)
多元回归分析
曲线回归分析
多元线性回归分析 多元非线性回归分析
相关关系 (相关分析)
简单相关分析—— 直线相关分析 复相关分析
多元相关分析 偏相关分析
函数关系是一种确定性的关系,例如圆面积
与半径的关系为 S 。R其2 不包含误差的干
扰。 统计关系是一种非确定性的关系。例如,作
x x n 333.7/9=37.0778 y y n 70/9=7.7778
因而有: b= SP / SSx -159.0444/144.6356= - 1.0996[天/(旬·度)]
a= y bx =7.7778-(-1.0996×37.0778)=48.5485(天)
故得表9.1资料的回归方程为:
然后,由一级数据算得5个二级数据:
SSx = x 2 ( x)2 n =12517.49-(333.7)2/9 =144.6356 *SSy = y 2 ( y)2 n =794-(70)2/9 =249.5556
SP= xy x y n 2436.4-(333.7×70)/9= -159.0444
的F分布
F
(SP) 2 Q /(n
/ SS x 2)
2.两个回归系数比较时的假设测验
H0:1 2 0 对 HA:1 2 0
sb1 b2
s2 b1
s2 b2
s
2 y
/
x
s
2 y
/
x
SS x1 SS x2
(9·14)
s
2 y
研究每亩穗数、每穗粒数和每亩产量的关系,就 有穗数、粒数和产量三个变数。
第一节 回归和相关的概念
1. 函数关系与统计关系 2. 自变数与依变数 3. 回归分析和相关分析 4. 两个变数资料的散点图
变量间的关系
函数关系
有精确的数学表达式
(确定性的关系)
一元回归分析
直线回归分析
统计关系 (非确定性的关系)
( y
a
bx)2 为最小
1
1
时,分别对a和b 求偏导数并令其为0,可得
正规方程组(normal equations):
an b x y a x b x2 xy 得
a y bx
(9·2)
1
b
xy x n
x2 1(
y x)2
(x x)(y (x x)2
y)
SP SS x
(y yˆ)2 (yˆ y)2 2(y yˆ)(yˆ y)
因为 ( y yˆ)(yˆ y) 0
得 (y y)2 (y yˆ)2 (yˆ y)2
将 ( yˆ 记y)2作U
U
( yˆ
y)2
SS y
Q
(SP)2 SS x
回归和离回归的方差比遵循 1 1 2 n 2
相反;前者Y 随X 的增大而增大,表示两个变数的关 系是正的,后者Y 随X 的增大而减小,表示关系是负
的。② 图9.1A的各个点几乎都落在一直线上,图
9.1B则较为分散;因此,图9.1A中X 和Y 相关的密 切程度必高于图9.1B。③ 图9.1C中X 和Y 的关系是 非直线型的;大约在x≤(6—7)时,Y 随X 的增大而 增大,而当x>(6—7)时,Y 随X 的增大而减小。
物的产量与施肥量的关系,两类变数受误差 的干扰表现为统计关系。
因果关系:两个变数间的关系若具有原因 和反应(结果)的性质。
相关关系:呈现一种共同变化的特点,则 称这两个变数间存在。
回归分析:计算回归方程为基础的统计分 析方法。
yˆ 为f(Yx依) X 的回归方程(regression equation of
为纵坐标构建直角坐标系(纵、横坐标皆需标明名称
和单位);然后取x坐标上的一个小值x1代入回归方程
得 yˆ,1 取一个大值x2代入回归方程得 ,yˆ 2连接坐标点
(x1, )和yˆ1(x2, )即yˆ成2 一条回归直线。如例9.1资料, 以x1=31.7代入回归方程得 =13.6yˆ91;
以x2=44.2代入回归方程得 yˆ 2=-0.05。在图9.3上确
yˆ a bx
(9·1)
回归截距(regression intercept):a是x=0时的
值,即回归直线在y 轴上的截距。
回归系数(regression coefficient):b是x 每增 加一个单位数时,平均地将要增加(b>0时)或减 少(b<0时)的单位数。
Q
n
( y
yˆ )2
n
n= 9
x =35.5+34.1+…+44.2=333.7
x 2=35.52+34.12+…+44.22=12517.49
y =12+16+…+(-1)=70
y
2
=122+162+…+(-1)2=794
xy =(35.5×12)+(34.1×16)+…+[44.2×(-1)]=2436.4
略。
(2) 在任一X 上都存在着一个Y 总体(可称为条件总
体),它是作正态分布的,其平均数
Y
是X
/X
的线性
函数:
Y / X X
(9·9)
Y的/ X样本估计值,与X 的关系就是线性回归方程
(9·1)。
(3) 所有的Y 总体都具有共同的方差 ,2而直线回归
总体具有 N( 。X试,验2 )所得的一组观察值(xi,yi )
观察数据中未曾得到任何信息。
所以,在应用=48.5-1.1x于预测时,需限定x的区间 为[31.7,44.2];如要在x<31.7或>44.2的区间外
延,则必须有新的依据。
(三)直线回归方程的图示
直线回归图包括回归直线的图象和散点图,它可以
醒目地表示x 和y 的数量关系。
方法:制作直线回归图时,首先以x为横坐标,以y
(9·11)
遵循 n的 2t分布,故由t 值即可知道样本回归系数
b来自 =0总体的概率大小
(2)F 测验当仅以表示y资料时(不考虑x 的影响),
y变数具有平方和SSy 和自(由y 度y)2 当以表示yn资1 料时(考虑x的影响),则SSy将分解成两个部分,即:
(y y)2 (y yˆ yˆ y)2
yˆ =48.5485-1.0996x
上述方程中回归系数和回归截距的意义为:当3月下
旬至4月中旬的积温(x)每提高1旬·度时,一代三化螟
的盛发期平均将提早1.1天;若积温为0,则一代三
化螟的盛发期将在6月27—28日(x=0时,=48.5;因 y是以5月10日为0,故48.5为6月27—28日)。 由于x变数的实测区间为[31.7,44.2],当x<31.7或 >44.2时,y的变化是否还符合=48.5-1.1x的规律,
图9.3的回归直线是9个观察坐标点的代表,它不仅 表示了例9.1资料的基本趋势,也便于预测。如某年 3月下旬至4月中旬的积温为40旬·度,则在图9.3上 可查到一代三化螟盛发期的点估计值在5月14—15
日,这和将x=40代入原方程得到
=yˆ48.5485-(1.0996×40)=4.6是一致的。因为回归
Ry·12…m ;在两个变数曲线相关时称为相关指数 (correlation index),记作R。
一般规则:
当两个变数中Y 含有试验误差而X 不含试验误差时 着重进行回归分析;而当Y 和X 均含有试验误差时
则着重去进行相关分析。
4. 两个变数资料的散点图
对具有统计关系的两个变数的资料进行初步考察
直线回归模型中,Y 总体的每一个值由以下三部分
组成:①回归截距 ,②回归系数 , ③Y变数的随
机误差 。
总体直线回归的数学模型:
Y j X j j
(9·7)
~j N (0, )。2 相应的样本线性组成为:
y j a bx j e j
(9·8)
回归分析时的假定:
(1) Y 变数是随机变数,而X 变数则是没有误差的固 定变数,至少和Y 变数比较起来X 的误差小到可以忽
(9·3)
n
将(9·2)代入(9·1)可得:
yˆ (y bx) bx y b(x x)
(9·4)
y
①
②
③
x 直线回归方程的图象
①a>0,b<0 ②a>0,b>0 ③a<0,b>0
由(9·4)可看到:①当x以离均差(x - x )为单位时,回
归直线的位置仅决定于 y 和b ;②当将坐标轴平移
③是否有一些特殊的点表示着其他因素的干扰等。 例如图9.1是水稻方面的3幅散点图,图9.1A是单株
的生物产量(X )和稻谷产量(Y ),图9.1B是每平方米 土地上的总颖花数(X )和结实率(Y ),图9.1C是最高 叶面积指数(X )和每亩稻谷产量(Y )。从中可以看出:
① 图9.1A和9.1B都是直线型的,但方向
定(31.7,13.69)和(44.2,-0.05)这两个点,再连接
之,即为 yˆ=48.5485-1.0996x的直线图象。注意:
此直线必通过点( x, )y,它可作为制图是否正确的
核对。最后,将实测的各对(xi,yi)数值也用坐标点
标于图9.3上。
x,3月下旬至4月中旬旬平均温度累积值图
旬平均温度累积值和一代三化螟盛发期的关系
以5月10日为0)的关系,得结果于表9.1。试计算其 直线回归方程。 首先由表9.1算得回归分析所必须的6个一级数据(即 由观察值直接算得的数据):
表9.1 累积温和一代三化螟盛发期的关系
x累积温
35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
y盛发期
12 16 9 2 7 3 13 9 -1
的简便而有效的方法,是将这两个变数的n对观察 值(x1,y1)、(x2,y2)、…、(xn,yn)分别以坐标点
的形式标记于同一直角坐标平面上,获得散点图 (scatter diagram)。
根据散点图可初步判定双变数X 和Y 间的关系,包 括:①X 和Y 相关的性质(正或负)和密切程度; ②X 和Y 的关系是直线型的还是非直线型的;
直线是综合9年结果而得出的一般趋势,所以其代表 性比任何一个实际的坐标点都好。当然,这种估计 仍然有随机误差,下文再作讨论。
(四)直线回归的估计标准误
Q 就是误差的一种度量,称为离回归平方和(sum
of squares due to deviation from regression)或 剩余平方和。
建立回归方程时用了a 和b 两个统计数,故Q 的自
由度 n 2
得
Q y yˆ2
sy x n 2 n 2
Q
( y
yˆ )2
SS y
(SP)2 SSx
=SSy-b(SP)
=SSy-b2(SSx)
=∑y2-a∑y-b∑xy
(9·5)
(9·6A) (9·6B) (9·6C) (9·6D)
(五)直线回归的数学模型和基本假定
到以( x ,y )为原点时,回归直线的走向仅决定于b,
所以一般又称b为回归斜率(regression slope)。
(二)直线回归方程的计算 [例9.1] 一些夏季害虫盛发期的早迟和春季温度高低
有关。江苏武进连续9年测定3月下旬至4月中旬旬平
均温度累积值(x,旬·度)和水稻一代三化螟盛发期(y,
相关分析:计算相关系数为基础的统计分析方法。
计算表示Y 和X 相关密切程度的统计数,并测验其
显著性。
这个统计数在两个变数为直线相关时称为相关系数
(correlation coefficient),记为r;在多元相关时称
为复相关系数(multiple correlation),记作
只是
中N的(一个X随,机 2样) 本。
(4)随机误差 相互独立,并作正态分布,具有
。
N(0,
2
)
二、直线回归的假设测验和区间估计 (一)直线回归的假设测验
1.回归关系的假设测验 (1)t 测验
H0:=0 对 HA : 0
sb
s
2 y
/
x
(x x)2
sy/x SS x
(9·10)
b
t sb
第九章 直线回归和相关
第一节 回归和相关的概念 第二节 直线回归 第三节 直线相关 第四节 直线回归与相关的内在关系
和应用要点 第五节 协方差分析
引言
这一章研究的对象:
由一个变数
两个或多个变数,因为在实际生
产实践和科学实验中所要研究的变数往往不止一
个,例如:
研究温度高低和作物发育进度快慢的关系,就有 温度和发育进度两个变数;
x,生物产量(g)
水稻单株生物产量与稻谷产量的散点图
x,每m2颖花数(万)
水稻每m2颖花数和结实率的散点图
x,最高叶面积指数
水稻最高叶面积指数和亩产量的散点图
第二节 直线回归
一、直线回归方程 二、直线回归的假设测验和区间估计 三、直线回归的矩阵求解
一、直线回归方程
Baidu Nhomakorabea
(一)直线回归方程式
因果关系 (回归分析)
多元回归分析
曲线回归分析
多元线性回归分析 多元非线性回归分析
相关关系 (相关分析)
简单相关分析—— 直线相关分析 复相关分析
多元相关分析 偏相关分析
函数关系是一种确定性的关系,例如圆面积
与半径的关系为 S 。R其2 不包含误差的干
扰。 统计关系是一种非确定性的关系。例如,作
x x n 333.7/9=37.0778 y y n 70/9=7.7778
因而有: b= SP / SSx -159.0444/144.6356= - 1.0996[天/(旬·度)]
a= y bx =7.7778-(-1.0996×37.0778)=48.5485(天)
故得表9.1资料的回归方程为:
然后,由一级数据算得5个二级数据:
SSx = x 2 ( x)2 n =12517.49-(333.7)2/9 =144.6356 *SSy = y 2 ( y)2 n =794-(70)2/9 =249.5556
SP= xy x y n 2436.4-(333.7×70)/9= -159.0444
的F分布
F
(SP) 2 Q /(n
/ SS x 2)
2.两个回归系数比较时的假设测验
H0:1 2 0 对 HA:1 2 0
sb1 b2
s2 b1
s2 b2
s
2 y
/
x
s
2 y
/
x
SS x1 SS x2
(9·14)
s
2 y
研究每亩穗数、每穗粒数和每亩产量的关系,就 有穗数、粒数和产量三个变数。
第一节 回归和相关的概念
1. 函数关系与统计关系 2. 自变数与依变数 3. 回归分析和相关分析 4. 两个变数资料的散点图
变量间的关系
函数关系
有精确的数学表达式
(确定性的关系)
一元回归分析
直线回归分析
统计关系 (非确定性的关系)
( y
a
bx)2 为最小
1
1
时,分别对a和b 求偏导数并令其为0,可得
正规方程组(normal equations):
an b x y a x b x2 xy 得
a y bx
(9·2)
1
b
xy x n
x2 1(
y x)2
(x x)(y (x x)2
y)
SP SS x
(y yˆ)2 (yˆ y)2 2(y yˆ)(yˆ y)
因为 ( y yˆ)(yˆ y) 0
得 (y y)2 (y yˆ)2 (yˆ y)2
将 ( yˆ 记y)2作U
U
( yˆ
y)2
SS y
Q
(SP)2 SS x
回归和离回归的方差比遵循 1 1 2 n 2
相反;前者Y 随X 的增大而增大,表示两个变数的关 系是正的,后者Y 随X 的增大而减小,表示关系是负
的。② 图9.1A的各个点几乎都落在一直线上,图
9.1B则较为分散;因此,图9.1A中X 和Y 相关的密 切程度必高于图9.1B。③ 图9.1C中X 和Y 的关系是 非直线型的;大约在x≤(6—7)时,Y 随X 的增大而 增大,而当x>(6—7)时,Y 随X 的增大而减小。
物的产量与施肥量的关系,两类变数受误差 的干扰表现为统计关系。
因果关系:两个变数间的关系若具有原因 和反应(结果)的性质。
相关关系:呈现一种共同变化的特点,则 称这两个变数间存在。
回归分析:计算回归方程为基础的统计分 析方法。
yˆ 为f(Yx依) X 的回归方程(regression equation of
为纵坐标构建直角坐标系(纵、横坐标皆需标明名称
和单位);然后取x坐标上的一个小值x1代入回归方程
得 yˆ,1 取一个大值x2代入回归方程得 ,yˆ 2连接坐标点
(x1, )和yˆ1(x2, )即yˆ成2 一条回归直线。如例9.1资料, 以x1=31.7代入回归方程得 =13.6yˆ91;
以x2=44.2代入回归方程得 yˆ 2=-0.05。在图9.3上确
yˆ a bx
(9·1)
回归截距(regression intercept):a是x=0时的
值,即回归直线在y 轴上的截距。
回归系数(regression coefficient):b是x 每增 加一个单位数时,平均地将要增加(b>0时)或减 少(b<0时)的单位数。
Q
n
( y
yˆ )2
n
n= 9
x =35.5+34.1+…+44.2=333.7
x 2=35.52+34.12+…+44.22=12517.49
y =12+16+…+(-1)=70
y
2
=122+162+…+(-1)2=794
xy =(35.5×12)+(34.1×16)+…+[44.2×(-1)]=2436.4
略。
(2) 在任一X 上都存在着一个Y 总体(可称为条件总
体),它是作正态分布的,其平均数
Y
是X
/X
的线性
函数:
Y / X X
(9·9)
Y的/ X样本估计值,与X 的关系就是线性回归方程
(9·1)。
(3) 所有的Y 总体都具有共同的方差 ,2而直线回归
总体具有 N( 。X试,验2 )所得的一组观察值(xi,yi )
观察数据中未曾得到任何信息。
所以,在应用=48.5-1.1x于预测时,需限定x的区间 为[31.7,44.2];如要在x<31.7或>44.2的区间外
延,则必须有新的依据。
(三)直线回归方程的图示
直线回归图包括回归直线的图象和散点图,它可以
醒目地表示x 和y 的数量关系。
方法:制作直线回归图时,首先以x为横坐标,以y
(9·11)
遵循 n的 2t分布,故由t 值即可知道样本回归系数
b来自 =0总体的概率大小
(2)F 测验当仅以表示y资料时(不考虑x 的影响),
y变数具有平方和SSy 和自(由y 度y)2 当以表示yn资1 料时(考虑x的影响),则SSy将分解成两个部分,即:
(y y)2 (y yˆ yˆ y)2
yˆ =48.5485-1.0996x
上述方程中回归系数和回归截距的意义为:当3月下
旬至4月中旬的积温(x)每提高1旬·度时,一代三化螟
的盛发期平均将提早1.1天;若积温为0,则一代三
化螟的盛发期将在6月27—28日(x=0时,=48.5;因 y是以5月10日为0,故48.5为6月27—28日)。 由于x变数的实测区间为[31.7,44.2],当x<31.7或 >44.2时,y的变化是否还符合=48.5-1.1x的规律,
图9.3的回归直线是9个观察坐标点的代表,它不仅 表示了例9.1资料的基本趋势,也便于预测。如某年 3月下旬至4月中旬的积温为40旬·度,则在图9.3上 可查到一代三化螟盛发期的点估计值在5月14—15
日,这和将x=40代入原方程得到
=yˆ48.5485-(1.0996×40)=4.6是一致的。因为回归
Ry·12…m ;在两个变数曲线相关时称为相关指数 (correlation index),记作R。
一般规则:
当两个变数中Y 含有试验误差而X 不含试验误差时 着重进行回归分析;而当Y 和X 均含有试验误差时
则着重去进行相关分析。
4. 两个变数资料的散点图
对具有统计关系的两个变数的资料进行初步考察
直线回归模型中,Y 总体的每一个值由以下三部分
组成:①回归截距 ,②回归系数 , ③Y变数的随
机误差 。
总体直线回归的数学模型:
Y j X j j
(9·7)
~j N (0, )。2 相应的样本线性组成为:
y j a bx j e j
(9·8)
回归分析时的假定:
(1) Y 变数是随机变数,而X 变数则是没有误差的固 定变数,至少和Y 变数比较起来X 的误差小到可以忽
(9·3)
n
将(9·2)代入(9·1)可得:
yˆ (y bx) bx y b(x x)
(9·4)
y
①
②
③
x 直线回归方程的图象
①a>0,b<0 ②a>0,b>0 ③a<0,b>0
由(9·4)可看到:①当x以离均差(x - x )为单位时,回
归直线的位置仅决定于 y 和b ;②当将坐标轴平移
③是否有一些特殊的点表示着其他因素的干扰等。 例如图9.1是水稻方面的3幅散点图,图9.1A是单株
的生物产量(X )和稻谷产量(Y ),图9.1B是每平方米 土地上的总颖花数(X )和结实率(Y ),图9.1C是最高 叶面积指数(X )和每亩稻谷产量(Y )。从中可以看出:
① 图9.1A和9.1B都是直线型的,但方向
定(31.7,13.69)和(44.2,-0.05)这两个点,再连接
之,即为 yˆ=48.5485-1.0996x的直线图象。注意:
此直线必通过点( x, )y,它可作为制图是否正确的
核对。最后,将实测的各对(xi,yi)数值也用坐标点
标于图9.3上。
x,3月下旬至4月中旬旬平均温度累积值图
旬平均温度累积值和一代三化螟盛发期的关系
以5月10日为0)的关系,得结果于表9.1。试计算其 直线回归方程。 首先由表9.1算得回归分析所必须的6个一级数据(即 由观察值直接算得的数据):
表9.1 累积温和一代三化螟盛发期的关系
x累积温
35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
y盛发期
12 16 9 2 7 3 13 9 -1
的简便而有效的方法,是将这两个变数的n对观察 值(x1,y1)、(x2,y2)、…、(xn,yn)分别以坐标点
的形式标记于同一直角坐标平面上,获得散点图 (scatter diagram)。
根据散点图可初步判定双变数X 和Y 间的关系,包 括:①X 和Y 相关的性质(正或负)和密切程度; ②X 和Y 的关系是直线型的还是非直线型的;
直线是综合9年结果而得出的一般趋势,所以其代表 性比任何一个实际的坐标点都好。当然,这种估计 仍然有随机误差,下文再作讨论。
(四)直线回归的估计标准误
Q 就是误差的一种度量,称为离回归平方和(sum
of squares due to deviation from regression)或 剩余平方和。
建立回归方程时用了a 和b 两个统计数,故Q 的自
由度 n 2
得
Q y yˆ2
sy x n 2 n 2
Q
( y
yˆ )2
SS y
(SP)2 SSx
=SSy-b(SP)
=SSy-b2(SSx)
=∑y2-a∑y-b∑xy
(9·5)
(9·6A) (9·6B) (9·6C) (9·6D)
(五)直线回归的数学模型和基本假定
到以( x ,y )为原点时,回归直线的走向仅决定于b,
所以一般又称b为回归斜率(regression slope)。
(二)直线回归方程的计算 [例9.1] 一些夏季害虫盛发期的早迟和春季温度高低
有关。江苏武进连续9年测定3月下旬至4月中旬旬平
均温度累积值(x,旬·度)和水稻一代三化螟盛发期(y,