用Excel计算相关系数和进行回归分析

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一节回归和相关的概念

前几章的方法都只涉及一种变量,主要是比较它的各组值之间的差异。但生物学所涉及的问题是多种多样的,对许多问题的研究需要考虑不只一个变量,例如生物的生长发育速度就与温度,营养,湿度…… 等许多因素有关,我们常常需要研究类似的多个变量之间的关系。这种关系可分为两大类,即相关关系与回归关系。

相关关系:两变量 X , Y 均为随机变量,任一变量的每一可能值都有另一变量的一个确定分布与之对应。

回归关系: X 是非随机变量或随机变量, Y 是随机变量,对 X 的每一确定值 x i 都有 Y 的一个确定分布与之对应。

从上述定义可看出相关关系中的两个变量地位是对称的,可以认为它们互为因果;而回归关系中则不是这样,我们常称回归关系中的 X 是自变量,而 Y 是因变量。即把 X 视为原因,而把 Y 视为结果。

这两种关系尽管有意义上的不同,分析所用的数学概念与推导过程也有所不同,但如果我们使用共同的标准即使 y 的残差平方和最小(最小二乘法,详见下述),则不管是回归关系还是相关关系都可以得到相同的参数估计式。因此本章将集中讨论数学处理较简单的回归关系,且X 限定为非随机变量。从这些讨论中所得到的参数估计式也可用于 X 为随机变量的情况,但我们不再讨论 X 为随机变量时的证明与推导。

另外,回归分析和相关分析的目的也有所不同。回归分析研究的重点是建立 X 与 Y 之间的数学关系式,这种关系式常常用于预测,即知道一个新的 X 取值,然后预测在此情况下的 Y 的取值;而相关分析的重点则放在研究 X 与 Y 两个随机变量之间的共同变化规律,例如当 X 增大时 Y 如何变化,以及这种共变关系的强弱。由于这种研究目的的不同,有时也会引起标准和方法上的不同,我们将在相关分析一节中作进一步介绍。

从两个变量间相关(或回归)的程度来看,可分为以下三种情况:

( 1 )完全相关。此时一个变量的值确定后,另一个变量的值就可通过某种公式求出来;即一个变量的值可由另一个变量所完全决定。这种情况在生物学研究中是不太多见的。

( 2 )不相关。变量之间完全没有任何关系。此时知道一个变量的值不能提供有关另一个变量的任何信息。

( 3 )统计相关(不完全相关)。介于上述两种情况之间。也就是说,知道一个变量的值通过某种公式就可以提供关于另一个变量一些信息,通常情况下是提供有关另一个变量的均值的信息。此时知道一

第二节 直线回归

前边已经说过,回归关系就是对每一个 X 的取值x i ,都有Y 的一个分布与之对应。在这种情况下,怎么建立X 与Y 的关系呢?一个比较直观的想法就是建立X 与Y 的分布的参数间的关系,首先是与Y 的均值的关系。这就是条件均值的概念,记为: 。它的意思是在X=x 1 的条件下,求Y 的均值。更一般地,我们用

代表X 取一切值时,Y 的均值所构成的集合。所谓一元线性回归,就是假定X 与

之间的关系是线性关系,而且满足: ( 9.1 )

此时进行回归分析的目标就是给出参数 α和β的估计值。

[例 9.1] 对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表5.1。试计算日龄X 与体重Y 之间的回归方程。

表 9.1 大白鼠6-18日龄的体重

序号

1 2 3 4 5 日龄 x i

6 9 12 15 18 体重 y i

11 16.5 22 26 29

首先,我们可以把数对( x i , y i )标在 X-Y 坐标系中,这种图称为散点图。它的优点是可以使我们对 X 、 Y 之间的关系有一个直观的、整体上的印象,如它们是否有某种规律性,是接近一条直线还是一条曲线,等等。我们还可以画很多条接近这些点的直线或曲线,但这些线中的哪一条可以最好地代表 X, Y 之间的关系,就不是凭直观印象可以做出判断的了。例如对例 9.1 ,我们可画出如下的散点图:

图 9.1 大白鼠日龄—体重关系图

图中的点看来是呈直线关系,但那条直线是否最好地反映了这种关系呢?或者换一种说法:该如何找到最好地反映这种关系的直线呢?这就是我们以下要讨论的问题。

9.2.1一元正态线性回归统计模型

线性回归意味着条件平均数与 X 之间的关系是线性函数:

( 9.1 )

对于每个 Y 的观察值 y i 来说,由于条件均值由 (9.1) 式决定,观察值就应该是在条件均值的基础上再加上一个随机误差,即:

( 9.2 )

其中。正态线性回归中“ 正态” 的意思是随机误差服从正态分

布。 (9.2) 式就是一元正态线性回归的统计模型。

9.2.2 参数α和β的估计

统计模型中的α和β是总体参数,一般是不知道的。由于只能得到有限的观察数据,我们无法算出准确的α与β的值,只能求出它们的估计值 a和b,并得到y i 的估计值为:

(9.3)

那么,什么样的 a和b是α和β最好的估计呢?换句话说,选取什么样的a和b

可以最好地反映X和Y之间的关系呢?一个合理的想法是使残差最小。为了避免使正负e i 互相抵消,同时又便于数学处理,我们定义使残差平方和

达到最小的直线为回归线,即令:

,且

得:

整理后,得

(9.4)

上式称为正规方程。解此方程,得:

这种方法称为最小二乘法,它也适用于曲线回归,只要将线性模型( 9.3)式换为非线性模型即可。但要注意非线性模型的正规方程一般比较复杂,有些情况下甚至没有解析解。另一方面,不管X与Y间的真实关系是什么样的,使用线性模型的最小二乘法的解总是存在的。因此正确选择模型很重要,而且用最小二乘法得出的结果一般应经过检验。

记,称为X的校正平方和;

,称为Y的总校正平方和;

,称为校正交叉乘积和,

则:(9.5)

在实际计算时,可采用以下公式:

现在回到例 9.1 。

例 9.1 对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表9.1。试计算日龄X与体重Y之间的回归方程。

表 9.1 大白鼠6-18日龄的体重

相关文档
最新文档