第十一章线性回归分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章 线性相关与回归分析
第一节 线性相关与偏相关分析 第二节 简单线性回归分析 第三节 二项logistic回归分析
第一节 线性相关分析与偏相关分析
线性相关分析通过图形和数值两种方式,能 够有效揭示事物之间的统计关系的强弱程度 。
一、散点图
绘制散点图是相关分析中极为直观的分析方 式。它将数据以点的形式画在直角平面上。 通过观察散点图能够直观地发现变量间的统 计关系以及它们的强弱程度和数据的可能走 向。
现实社会经济现象中,某一事物(被解释变 量)总会受到多方面因素(多个解释变量) 的影响。一元线性回归分析是在不考虑其他 影响因素或在认为其他影响因素确定的条件 下,分析一个解释变量是如何线性影响被解 释变量的,因而是比较理想化的分析。
(一)回归参数的普通最小二乘估计
一元线性回归方程的数学模型:Y=A+BX+ε Y :因变量(dependent variable)
作进一步分析。
由上表可知,立项课题总数与投入高级职称 的人年数间的简单相关系数为0.994,与论文 间的相关系数为0.887,它们的相关系数检验 的概率P值都近似为0.因此,当显著性水平为 0.05或0.01时,都应拒绝相关系数检验的零 假设,认为两总体存在线性关系。表中相关 系数旁边的两个星号(﹡﹡)即表示显著性水 平为0.01时可拒绝零假设。一个星号(﹡)表 示显著性水平为0.05时可拒绝零假设。因此 ,两个星号比一个星号拒绝零假设犯错误的 可能性更小。总之,立项课题总数将受投入 高级职称的人年数和论文数的正向影响。
Graphs---Legacy Dialogs---Scatter/Dot
例题
根据31个省市自治区部分高校有关社科研究 方面的数据,研究立项课题数(当年)与投 入的具有高级职称的人年数(上年),发表 的论文数(上年)之间是否具有较强的线性 关系。
(一)简单散点图simple scatterplot
的相关系数的符号(相关的方向),但不会改变 相关系数的值。 (4)不适用度量非线性关系变量间的相关系数
计算Pearson相关系数的操作
Analyze---Correlate---Bivariate
把参加计算相关系数的变量选到Variables框。
在Correlation Coefficients 框中选择计算哪种相关 系数,
其次,利用样本数据在一定的统计拟合准则下,估计出 回归模型中的各个参数,得到一个确定的回归方程。
最后,对回归方程的参数进行各种检验,判断该方程是 否真实反映事物总体间的统计关系,能否用于预测,并 最终得到回归线的近似线。
函数拟合方法应用广泛。
回归分析的一般步骤
(一)确定回归方程中的解释变量和被解释变量。 (二)确定回归模型:根据散点图确定应通过哪种数
学模型来描述回归线(线性回归模型还是非线性回 归模型)。 (三)建立回归方程。根据收集到的样本数据以及前 步所确定的回归模型,在一定的统计拟合准则下估 计出模型的各个参数,得到一个回归方程。 (四)对回归方程进行各种检验。 (五)利用回归方程进行预测。 利用SPSS进行回归分析时,应重点关注上述过程中第 一步和最后一步,至于中间各个步骤,SPSS会自动 完成,并给出最合理的模型。
(三)矩阵散点图(matrix)
以方形矩阵的形式在多个坐标轴上分别显示多对 变量间的统计关系。矩阵散点图的关键是弄清各 矩阵单元中的横纵变量。
把参与绘图的若干个变量指定到Matrix Variables 框中。选择变量的先后顺序决定了矩阵对角线上 变量的排列顺序。
可把分组变量指定到Set Markers by框中,同简 单散点图;
利用相关系数进行变量间线性关系的分析通 常需要完成以下两大步骤:
第一,计算样本相关系数r 第二,对样本来自的两总体是否存在显著的
线性关系进行推断。
Pearson相关系数r度量两个定距变量间的线 性相关关系; SPSS提供的Pearson相关系数r 的检验统计量为t统计量,其数学定义为:
t r n2 1 r2
(二)重叠散点图overlay scatterplot
表示多对变量间统计关系的散点图。 两个变量为一对,指定绘制哪些变量间的散
点图。其中前一个作为图的纵轴变量,后一 个变量作为图的横轴变量,并可单击
按钮进行横纵轴的调换。 把标记变量指定到Label Cases by框中。涵义
同简单散点图。
在上表中,在把投入高级职称的人年数作为控 制变量的条件下,课题总数与论文数间的偏 相关系数为-0.140,呈极弱的负相关关系, 说明上年发表的论文数对当年立项课题数的 线性影响非常弱。该结论与相关分析的结论 (简单相关系数为0.887)差距甚远。分析原 因发现,上年投入高级职称人年数对立项课 题数有很大的影响,该因素也充分地作用在 发表论文数上,并对发表论文数起了决定性 作用。因此,当控制投入高级职称的人年数 后,发表论文数就不再对立项课题数有显著 的线性作用了。可见,偏相关分析对辨别变 量间的虚假相关有极为重要的影响。
三、偏相关分析
在多数情况下,单纯利用相关系数来评价变 量之间的相关性显然是不准确的,需要剔除 其他因素的影响,再计算变量之间的相关系 数。这个过程就是偏相关分析,又叫净相关 分析。控制变量个数为一个时称为一阶偏相 关。两个时为二阶偏相关;控制变量个数为 零个时称为零阶偏相关,也就是相关系数。
研究商品需求量和价格、消费者收入之间的 线性关系。
选择一个或多个控制变量到Controlling for 框中;
在Test of Significance框中选择输出偏相关 检验的双尾(Two Tailed)或单尾(One Tailed)概率P值。
在Option按钮中的 Statistics选项中,选中 Zero-order Correlations表示输出零阶偏相关 系数。
表示一对变量间统计关系的散点图。
指定某个变量为散点图的纵轴变量,选入Y Axis 框中; 指定某个变量为散点图的横轴变量,选入X Axis 框中; 可把分组变量指定到Set Markers by框中,样本数据被分
成若干组,并在一张图上分别以不同颜色绘制散点图。 该项可省略; 把标记变量指定到Label Cases by框中,表示将标记变量 的各变量值标记在散点图相应点的旁边。该项可省略。
Pearson相关系数r
-1≤r≤+1 R=1 R=-1 R=0 |r|>0.8表示两变量之间具有较强线性相关。 |r|<0.3表示两变量之间线性相关关系较弱。
Pearson 简单相关系数特点:
(1)对称性【x与y的相关系数等同于y与x的相 关系数】
(2)是标准化处理后的值,所以无量纲。 (3)对x与y作线性变换后可能会改变它们之间
在Test of Significance框中选择输出相关系数检验的 双尾(Two Tailed)或单尾(One Tailed)概率P值。
选中Flag significance correlations表示在输出统计 检验的概率P值外,还输出星号,表明变量间相关性是 否显著。不选中则不输出星号。
单散点图。
80
50 男性平均60预期寿命 70
40
2
2.5
3
3.5
4
4.5
log(人均gdp)
Lowess smoother
80
wenku.baidu.com
50 男性平均60预期寿命 70
40
2
2.5
3
3.5
4
4.5
二、相关系数
虽然散点图能够直观地展现变量之间的统计 关系,但并不精确。相关系数以数值的方式 精确地反映了两个变量之间的线性相关的强 弱程度。
首先根据散点图,观察被解释变量与解释变 量之间是否呈现显著的直线关系,若是,则 用采用线性回归分析的方法,建立线性回归 模型。根据模型中解释变量的个数,可将线 性回归模型分为一元线性回归模型和多元线 性回归模型,相应的分析称为一元线性回归 分析和多元线性回归分析。
二、一元线性回归分析 Simple linear regression
要找出一个错误最小的方法来预测依变量的 数值.
一、获得回归线有两种办法:
局部平均法和函数拟合法
(一)局部平均法
收集到n对父亲和儿子的身高数据(xi,yi)(i=1,2,……n),
可以对它们进行散点图绘制、计算基本描述统计 量等基本分析。现在得到一个父亲身高数据X0 , 其儿子身高预测值可以是:第一,子辈身高的平 均值。显然这个预测是不准确的,因为没有考虑 父亲身高X0的作用;第二,父亲身高为X0的所有儿 子身高的平均值。该预测较第一种方法显然要准 确的多。第三,如果在所得数据中没有父亲身高 为X0的样本数据,可考虑计算父亲身高X0左右的一 个较小区间内的儿子的平均值。按照这种思路在 散点图上不难得到一系列对应的数据点,如果这 些点足够多,则可以光滑出一条曲线,即回归线 的近似线。可见回归线是局部平均的结果。
偏相关分析的基本操作
Analyze---correlate---partial 根据31个省市自治区部分高校有关社科研究
方面的数据,控制投入的具有高级职称的人 年数(上年),分析研究立项课题数(当年) 与发表的论文数(上年)之间是否具有较强 的线性关系。
把参与分析的变量选到Variables框。
根据31个省市自治区部分高校有关社科研究 方面的数据,研究立项课题数(当年)与投 入的具有高级职称的人年数(上年),发表 的论文数(上年)之间是否具有较强的线性 关系。
该课题数、投入高级 职称的人年数以及论 文之间图表明,立项 都有较强的线性关系 ,且投入高级职称的 人年数以及论文数之 间的线性关系最强。 因此粗略地看,立项 课题数将会受到这些 因素的影响。下面利 用计算相关系数的方 法对它们之间的关系
把标记变量指定到Label Cases by框中,同简单 散点图。
(四)三维散点图(3-D)
以立体图的形式展现三对变量间的统计关系。 指定三个变量为散点图各轴的变量,分别选入
X Axis、Y Axis、C Axis框中。 可把分组变量指定到Set Markers by框中,同
简单散点图; 把标记变量指定到Label Cases by框中,同简
(二)函数拟合
利用局部平均得到的回归线应在样本量足够大时才可实 现。通常样本量可能无法达到预期的数量,此时多采用 函数拟合的方法得到回归线。函数拟合的基本思路:
首先,通过散点图观察变量之间的统计关系,得到回归 线形状的感性认识(线性或非线性),并确定一个能够 反映和拟合这种认知的最简捷的数学函数,即回归模型。
在Option按钮中的 Statistics选项中,选中 Crossproduct deviations and covariances表示输出各变量 的离差平方和、样本方差、协方差等。
“申请课题数”与“投入科研事业费”的相 关性及推断也可以在我们以前介绍的交互分 类表中进行。
相关分析应用举例
第二节 简单线性回归分析
回归分析是一种极为广泛的数量分析方法。 它用于分析事物之间的统计关系,侧重考察 变量之间的数量变化规律,并通过回归方程 的形式描述和反映这种关系,帮助人们准确 把握变量受其他一个或多个变量影响的程度, 进而为控制和预测提供科学依据。
回归分析的核心目的是找到回归线,涉及如 何找到回归线?如何描述回归线?回归线是 否可用于预测?等问题。
利用偏相关系数进行变量之间的净相关关系分 析通常需要完成以下两大步骤。
第一,计算样本的偏相关系数,
第二,对样本来自的两总体是否存在显著的净 相关进行推断。
偏相关分析的检验统计量为t统计量,它的数学
定义为:
t
nq2 1 r2
r为偏相关系数,n为样本数,q为阶数,t统计
量服从n-q-2个自由度的t分布。
X:自变量(independent variable) B :斜率(slope)(回归系数) A:截距intercept. (回归常数)
ε:随机误差。应当满足两个前提条件: E(ε)=0 var(ε)=σ2
残差的图示
Case 7: x=3, y=5
yi = a + bxi + ei 4
相关文档
最新文档