第六章 相关分析与回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
b<0,y 有随 x 的增加而减少的趋势
●●●回归直线一定通过由观测值的平均值(x,y )所组成的点:
∵ yˆ a bx
a y bx
∴ yˆ y bx bx y b(x x)
当 xx 时, yˆ y,即回归直线通过点(x,y )
●直线回归方程配置的实例
实例:对表 6-1 的北碚大红番茄果实横径与果重进行回归分析
| r |愈接近于 1,相关愈密切 | r |愈接近于 0,相关愈不密切 0<r<1 时,为正相关 -1<r<0 时,为负相关 ●相关系数计算的实例: 实例:表 6-1 为番茄果实横径与果实重的观测值,求其相关性。
表 6-1 北碚大红番茄果实横径与果实重
果实横径(cm)
果重(g)
x
y
10.0
140
其中: r
n
[ x2 ( x)2 ][ y 2 ( y)2 ]
n
n
x、y——为两个变数的成对观测值 n——为观测值的对数(样本容量)
●●相关系数的性质:
●●●r 的符号取决于 x、y 离均差的乘积和(lxy 或 SP);符号的
性质表示两个变数之间的相关性质,即
r>0,表示正相关
r<0,表示负相关
∑y2=133071.0
n=10
a=-23.834
b=16.425
r=0.9931
结论:北碚大红番茄果实横径与果实重量的回归方程为:
yˆ 23.834 16.425 x
●回归关系的显著性测定——有 3 种方法。 ●●直线回归方程的方差分析
●●●y 的总变异的分解
SS y lyy ( y y)2 [( y yˆ) ( yˆ y)]2 ( y yˆ)2 ( yˆ y)2 2 ( y yˆ)(yˆ y) ( y yˆ)2 ( yˆ y)2 其中: 2 ( y yˆ )( yˆ y) =0
●●曲线相关与曲线回归——当一个变数的值增大时,另一个变数的值也增大, 但增大到一定大小时,增加幅度逐渐缓慢或者反而减少。其相互关系可用曲线来表 示。
二、直线相关与直线回归
1.直线相关(linear correlation) ●相关系数(correlation coefficient)
衡量变数之间相关关系密切程度的数量化指标,叫相关系数。 用 r 表示。 ●●相关系数的定义公式
●●●将 t 值与 tα进行比较:
t≥tα,否定 H0,接受 HA:ρ≠0 t<tα,肯定 H0,即两变数之间相关关系不密切。
表 6-1 资料中, df=10-2=8 时,t0.01=3.354。 t=24.0077>t0.01=3.354。
故:北碚大红番茄果实横径与果实重量之间的正相关关系极显著。
●回归分析与相关分析的应用 由于数理统计学的发展,回归分析与相关关系的应用范围已被突破,无论自变数与因 变数能否被明确区分,均可进行回归分析和相关关系。
3.相关与回归的类别 ●按照所研究性状的数量分为 3 类
●●简单相关与简单回归——研究 2 个变数之间的相互关系而没有涉及到其它变 数。称为简单相关与简单回归。
●●直线回归方程的建立(即如何根据 x 和 y 的实测值确定 直线方程 y=a+bx 中的 a 和 b)
要使 yˆ =a+bx 能够最好地代表 y 与 x 在数量上的互变关系, 根据最小平方法,必须使:
Q
n
( y
yˆ ) 2
n
( y
a
bx)2
最小
1
1
根据微分学上求极小值原理,分别对 a 和 b 求一阶偏导,则有:
9.6
132
9.2
130
8.9
121
8.5
116
8.0
108
7.8
105
7.7
106
7.4
95
7.0
x =8.41
90 y
=114.30
∑x=84.1
∑y=1143.0
∑x2=716.15
∑y2=133071.0
∑xy=9578.3
n=10 r=0.9931
●相关系数的检验 相关系数的数值总是在-1 到 1 范围内,那么,相关系数的数值应为多大,才能表示两个变数之间
第六章 相关分析与回归分析
一、相关与回归的概念
1.变数之间关系的分类:可分为 2 类 ●函数关系——处于同一个统一体中的两个变数,它们互相联系着同时在
变化,其中一个变数变化了,另一个变数按照一定的规律 也相应地变化,而且一个变数取定某个数值,另一个变数 也按照一定的规律有一个完全确定的对应值。这种关系也 称为确定性关系。 例如:在化学分析中比色测定时所用的比耳定律,就是函数关系,用 E 表示消光,C 表示溶液浓度,对于同一性质的溶液,当溶液的厚度和光 源一定时,消光 E 与溶液的浓度 C 成正比,即 E=RC。也就是说如果溶液 浓度 C 为已知,则消光 E 是可以准确地计算出来的。 函数关系常见于物质、化学学科中,而在生物现象中极为少见。
●●净相关与净回归——只研究 2 个变数之间的相互关系而把其它变数加以固定, 从而求出两个变数之间的单纯关系。
●●复相关与复回归——研究多个变数与一个变数之间的相互关系。 ●按照所研究性状之间相互关系表现的图形分为 2 类
●●直线相关与直线回归——当增加一个变数的值时,另一个变数的值也增加;或 增大一个变数的值,另一个变数的值反而减小。前者 称为正相关或正回归,后者称为负相关或负回归,其 相互关系可用直线来表示。
r (x x)( y y) (x x)2 (y y)2
或r
lxy
lxxlyy 或 r
SP
SSxSSy 其中:
lxy 或 SP:为 x 和 y 离均差的乘积和
lxx 或 SSx:为 x 的离均差的平方和 lyy 或 SSy:为 y 的离均差的平方和
●●相关系数的计算公式:
xy ( x)( y)
在生物学和农业科学中很多变数之间的关系都是相关关系。 ●函数关系与相关关系之间是可以互相转化的。
●●由于测量误差及实验条件的变化等原因,函数关系在实际工作中往往 通过相关关系表现出来。例如,在比色分析中,当计算未知溶液的浓度时, 不是按比耳定律的公式计算的,而是用一系列实测数据制定的标准曲线来估 测的。这就是函数关系转化成了相关关系。
Q a
0
Q
b
0
anbx y
ax
bx2
xy
称为正规方程组
a y bx
解之:
b
xy ( x)( y) n
x2 ( x)2 n
(x x)( y (x x)2
y)
SP SS x
●●直线回归方程的特点
●●●回归系数 b 的符号:
b>0,y 有随 x 的增加而增加的趋势
取决于 SP,且
●●直接查表法:
t r
根据
1 r 2 ≥ta 时,可否定 H0 这一情况,数理统计工作者根据不同显著水平及自由
n2
度下的 t 临界值即 tα计算出了不同自由度下达到不同显著水平时的相关系数 r 的临界值,列
成 r 表。利用此表,就可对 r 直接进行判定,不必再计算 t 值了。表 6-1 资料中,r=0.9931,
相关关系——在研究相关关系时,变数之间不能明确区分为自变数与因变数 的,数理统计学上称为相关关系。如大豆种子中蛋白质含量与 脂肪含量之间的关系。
●回归分析与相关分析 ●●回归分析——数理统计学上处理回归关系的方法叫回归分析。回归分析的内容 有 4 个方面。 ●●●对可以区分为自变数与因变数的两个(或多个)特定变数的实测数据进行 计算研究,配置一个合适的数学方程以表达变数之间的关系。这种方程, 数理统计学上称为回归方程。 ●●●对回归方程进行检验 ●●●分析多个自变数对因变数影响作用的大小 ●●●利用回归方程进行预测预报 ●●相关分析——数理统计学上处理相关关系的方法叫相关分析。相关分析的内容 有: ●●●对两个(或多个)特定变数的实测数据进行计算研究,求出一个数量性指 标,称为相关系数。用它来表示变数之间相关关系密切的程度。 ●●●对相关系数进行检验
SS y
SS x
r 2 (SP) 2 / SS x SS y
:表示由 x 不同而引起的 y 的平方和U ( yˆ y)2
占y的
总平方和 SSy=( y y)2 的比率
r 2 (SP) 2 / SS y SS x
:表示由 y 不同而引起的 x 的平方和 (xˆ x)2 占 x 的总
平方和 SSx= (x x)2 的比率
亦即:r2 就是 y 的变异中可由 x 与 y 的协变来解释的比重,1-r2 即为相疏系 数或非决定性系数,说明不能由协变来解释的比重。
●●决定系数与相关关系的区别:
●●●除|r|=1 和 0 的情况外,r2 总是小于 r。这就可以防止对相关系数所表示的相
关程度作夸张的解释。如,r=0.5,只是说明由 x 的不同引起的 y 变异的平
t r
Sr
其中:Sr 为相关系数标准差 S r
1 r 2 n2
n-2:为双变数的自由度
1-r2:为非决定性系数,它代表 y 的变异中不能由 x 与 y 的协变关系来解释的百分比。
代入 Sr 则有:
t r 1 r 2
n2
表 6-1 资料中,
t 0.9931 24.0077 1 0.99312
10 2
即:SSy=Q+U
( yˆ y)2 ——它是 y 的理论值(回归值或估计值)与其平均数之间的误差,因为
●●当对事物的关系了解得更加深刻时,相关关系又可转化为函数关 系。在科学史上很多反映自然规律的公式就是这样逐步形成的。
E
Y
0
C
a 函数关系
X b 相关关系
2.回归与相关的概念 ●回归关系与相关关系
回归关系——在研究相关关系时,当变数之间可以明确区分为自变数与因 变数的,数理统计学上称为回归关系。如作物的产量与施肥 量之间的关系。
表 6-2 北碚大红番茄果实横径与果实
果实横径(cm)x
果重(g)y
10.0
140
9.6
132
9.2
130
8.9
121
8.5
Байду номын сангаас
116
8.0
108
7.8
105
7.7
106
7.4
7.0 x =8.41 ∑x=84.1
∑x2=716.15
∑xy=9578.3
95
90 y =114.30 ∑y=1143.0
n=10,df=n-2=8,r0.01=0.765 r=0.9931**>t0.01,所以 r 达到极显著水准。
●决定系数(determination coefficient)
●●决定系数——相关系数 r 的平方,即 r2
r 2 (SP)2 (SP)2 / SSx (SP)2 / SS y
SSx • SS y
回归方程来描述。即:
yˆ = a+bx
读作:y 依 x 的直线回归
其中 yˆ 是和 x 的量相对应的依变数 y 的点估计值
x 是自变数
a 是 x=0 时的yˆ 值,即回归直线在 y 轴上的截距,叫回归截距
b 是 x 每增加一个单位数时,yˆ 平均地将要增加(b>0)或减少
(b<0)的单位数,叫回归系数。
●●●|r|愈大,两变数的相关程度越高。 ●●●r 的取值范围为:0≤|r|≤1
r 取值范围的物理意义: | r |=1 时,所有点都在一条直线上,此时 x 与 y 为完全相关(确定性关系)。
r=1 时,完全正相关 r= -1 时,完全负相关 r=0 时,一是散点很分散,x 与 y 没有任何关系
二是 x 与 y 呈曲线关系 0<| r |<1,两变数呈相关关系
●相关关系——处于同一个统一体中的两个变数,它们也相互联系着同时在 变化,其中一个变数变化了,另一个变数也按一定的规律相 应地变化,但是当一个变数取定某个数值时,另一个变数出 现的对应值不是完全确定的,而是在一定范围内波动的。
例如:作物产量与土壤肥力的关系,就是相关关系。我们知道在一定限 度内肥力高的土壤其生产力也相应地较高,但不能根据土壤肥力指标来计算 出一个完全确定的作物产量,只能估计出一个作物产量的数值范围。
方和仅占 y 总变异平方和的 r2=0.25,而不 0.5。
●●●r 值可正可负,而 r2 则一律为正值,其取值区间为[0,1]。所以,r2 只表示
相关程度,不表示相关性质。
2.直线回归(linear regression)
●直线回归方程式(linear regression equation)
●●对于在散点图上呈直线趋势的两个变数,它们在数量上的互变规律,可用直线
的相关关系密切(显著)呢?因此,需要对相关系数进行检验。方法有 2 种。 ●●t 检验法 用 t 检验法对 r 的显著性进行检验,其步骤和检验方法与两个样本平均数差异显著性 t 检验法相似。
●●●H0:ρ=0 即假定在一个双变数正态总体中,x 与 y 变数间的相关系数ρ=0
●●●在ρ=0 的假设下,从这个双变数总体中抽取一个样本,并求 t 值: