相关与回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第九章相关与回归分析
通过本章的学习,我们应该知道:
1.如何判别相关关系
2.回归分析的基本假定
3.一元线性回归分析的内容
4.如何做多元线性回归分析
5.如何将非线性回归模型转换成线性模型
相关与回归分析是现代统计学中非常重要的内容,它在自然科学、管理科学和社会经济领域有着十分广泛的应用。本章从介绍相关分析与回归分析的基本概念与分类入手,以一元线性回归模型为基础,引出包括多元线性回归分析及非线性回归分析中模型识别、参数估计、模型检验与预测等内容。
在分析变量之间关系的时,常用的基本模型有两个,一是相关模型(correlation model),一是回归模型(regression model)。实践中到底使用哪种模型取决于研究者的研究目的和数据的收集方式和条件。在相关分析中,变量X 和Y 都被视为随机变量,),(Y X 服从二元分布;而回归分析中,变量x 不是随机变量,它被假定为一般变量,在事先选好的已知值中取值,变量Y 是随机变量,在变量x 的给定取值处有相应的观测值。例如,考虑太阳镜的日销售数量Y 与日最高气温X 之间的关系问题。如果我们随机地选择36天,记录下这36天的太阳镜销售量和日最高气温),(i i Y X ,36,1 =i ,
它们是来自二维总体(随机变量)),(Y X 的独立同分布样本;在这种情况下,应用相关模型进行分析。另一情况是,假如研究者决定只在日最高气温=x 25、30、33、35、36、37、38、39、40℃的那些天收集数据,在日最高气温为上述事先设定的温度的那些天中随机地抽取36天,然后测量记录下相应的太阳镜日销售量,如在每一个日最高气温取值处,随机抽取4天进行测量记录;此时变量x 就不再是随机变量,变量Y 是随机变量,往往应用回归模型进行分析。有时这种区别并不是这么明显。
第一节 相关分析
一、相关关系的概念及分类
(一)相关关系的概念
无论是在自然界还是社会经济领域,一种现象与另一种现象之间往往存在着依存关系,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系。如某种商品的销售额(y )与销售量(x )之间的关系、商品销售额(y )与广告费支出(x )之间的关系以及粮食亩产量(y )与施肥量(1x )、降雨量(2x ) 、温度(3x )之间的关系等。统计学的主要研究对象是随机变量,在多个变量的时候,至少有一个变量是随机变量,因此我们对变量之间关系的分析是随机变量之间的关系或随机变量与确定变量之间的关系。
变量之间的依存关系可以分为两种:一是函数关系,指变量之间保持的严格的、确定的关系。如圆的面积(S)与半径之间的关系可表示为S = π2
R ,当圆的半径R 的值取定后,其圆的面积也随之确定。二是相关关系,指变量之间保持着不确定的依存关系。即变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量x 取某个值时,变量y 的取值可能有几个或无穷多个。例如人的身高与体重这两个变量,一般而言是相互依存的,但它们并不表现为确定的函数的关系。因为制约这两个变量的还有其他因素,如遗传因素、营养状况和运动水平等,以至于同一身高的人可以有不同的体重,同一体重的人又表现出不同身高。变量间的这种不严格的依存关系就构成了相关与回归分析的对象。
(二)相关关系的分类
1. 按相关的程度可分为完全相关、不完全相关和不相关
当一个变量的变化完全由另一个变量所决定时,称变量间的这种关系为为完全相关关系,这种严格的
依存关系实际上就是函数关系。当两个变量的变化相互独立、互不影响时,称这两个变量不相关(与下面的不线性相关或线性无关不同),实际上,这里的不相关就是(概率中的)独立,即变量间没有任何关系。当变量之间存在不严格的依存关系时,称为不完全相关。不完全相关关系是现实当中相关关系的主要表现形式,也是相关分析的主要研究对象。
2. 按相关的方向可分为正相关和负相关
当一个变量随着另一个变量的增加(减少)而增加(减少),即两者同向变化时,称为正相关,例如家庭收入与家庭支出之间的关系,一般随着家庭收入的增加,家庭支出也会随之增加。当一个变量随着另一个变量的增加(减少)而减少(增加),即两者反向变化时,称为负相关,如产品产量与单位成本之间的关系,单位成本会随着产量的增加而减少。
3. 按相关的形式可分为线性相关和非线性相关
当变量之间的依存关系大致呈现为线性形式,即当一个变量变动一个单位时,另一个变量也按一个大致固定的增(减)量变动,就称为线性相关。当变量间的关系不按固定比例变化时,就称之为非线性相关。
上述的这些相关关系我们可以用图9.1来示意。
图9.1 相关关系分类示意图
4. 按研究变量的多少可分为单相关、偏相关和复相关
两个变量之间的相关,称为单相关。一个变量与两个或两个以上其他变量之间的相关,称为复相关。在复相关的研究中,假定其他变量不变,专门研究其中两个变量之间的相关关系时称其为偏相关。
变量之间的相关关系需要用相关分析方法来识别和判断。相关分析,就是借助于图形和若干分析指标(如相关系数)对变量之间的依存关系的密切程度进行测定的过程。
二、相关关系的识别
(一)散点图
识别变量间相关关系最简单的方法是图形法。所谓图形法,就是将所研究变量的观察值以散点的形式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。
【例9.1】在研究我国人均消费水平的问题时,把全国人均消费记为y,把人均国内生产总值(人均
GDP )记为x 。根据数据集01摘录样本数据(i i y x ,),i =1,2,……,9,如表9.1所示,问两者之间存在什么样的相关关系。
表9.1 我国人均国内生产总值与人均消费金额数据 单位:元
年份
人均国内生产总值 人均消费金额 1995
1996
1997
1998
1999
2000
2001
2002
2003 4854 5576 6054 6308 6551 7086 7651 8214 9101 2236 2641 2834 2972 3138 3397 3609 3818 4089
【解】根据表9.1,画出(i i y x ,),i=1,2,...,n 的散点图,见图9.2。
图9.2 反映相关关系的散点图
从上图中我们看到本例的样本数据(i i y x ,)大致分别落在一条直线附近,这说明变量x 与y 之间具有明显的线性相关关系。另外,所绘制的散点图呈现出从左至右的上升趋势,它表明x 与y 之间存在着一定的正相关关系,即随着人均GDP 的上升,人均消费金额也会增加。
图形法虽然有助于识别变量间的相关关系,但它无法对这种关系进行精确的计量。因此在初步判定变量间存在相关关系的基础上,通常还要计算相关关系的度量指标。下面我们缩小研究的范围,仅仅研究两个变量间的线性相关关系。两个变量间线性相关关系的度量指标有很多,应用最广泛的是相关系数。
(二)相关系数
相关系数是度量两个变量(现象)间线性关系强度的数量指标。我们先从直观上了解两个变量之间的相关系数ρ的基本思想,然后给出相关系数的一般的、正式的定义,再考虑在不知道总体精确分布的情况下,如何由样本估计相关系数ρ,最后给出相关系数是否等于0的检验方法。