第6章回归分析

第6章回归分析
第6章回归分析

第6章回归分析

变量之间的联系可以分为两类,一类是确定性的,另一类是非确定性的。确定型的关系是指某一个或某几个现象的变动必然会引起另一个现象确定的变动,他们之间的关系可以使用数学函数式确切地表达出来,即y=f(x)。当知道x的数值时,就可以计算出确切的y值来。如圆的周长与半径的关系:周长=2πr。非确定关系则不然,例如,在发育阶段,随年龄的增长,人的身高会增加。但不能根据年龄找到确定的身高,即不能得出11岁儿童身高一定就是1米40公分。年龄与身高的关系不能用一般的函数关系来表达。研究变量之间既存在又不确定的相互关系及其密切程度的分析称为相关分析。如果把其中的一些因素作为自变量,而另一些随自变量的变化而变化的变量作为因变量,研究他们之间的非确定因果关系,这种分析就称为回归分析。

在本章,我们将讲解回归分析有关的内容,而在下一章,我们将讲解相关分析的具体操作方法。

在SppS 10.0 For windows中回归分析分为以下几种:(主要讲前三种)

●Linear:线性回归分析(data09-03)

●Curve Estimation:曲线回归分析(data13-01)

●Binary Logistic:二维 Logistic回归分析(data13-02)

●Multinomial Logistic:多维Logistic回归分析

●Ordinal:Ordinal回归分析

●Proibit:概率单位回归分析

●Nonlinear:非线性回归分析

●Weight Estimation: 加权估测分析

●2-Stage Least Squares: 两阶最小二乘分析

8.1线性回归(data09-03)

一元线性回归方程(卫生统计114~121页)

直线回归分析的任务就是根据若干个观测(Xi,yi)i=1~n找出描述两个变量X、y之间关系的直线回归方程y^=a+bx。y^是变量y的估计值。求直线回归方程y^=a+bx,实际上是用回归直线拟合散点图中的各观测点。常用的方法是最小二乘法。也就是使该直线与各点的纵向垂直距离最小。即使实测值y与回归直线y^之差的平方和Σ(y-y^)2达到最小。Σ(y-y^)2也称为剩余(残差)平方和。因此求回归方程y^=a+bx的问题,归根到底就是求Σ(y-y^)2取得最小值时a和b的问题。a称为截距,b为回归直线的斜率,也称回归系数。

一元线性回归方程的适用条件

(l)线形趋势:自变量与因变量的关系是线形的,如果不是,则不能采用线性回归来分析。

(2)独立性:可表述为因变量y的取值相互独立,它们之间没有联系。反映到模型中,实际上就是要求残差间相互独立,不存在自相关。

(3)正态性:自变量的任何一个线形组合,因变量y均服从正态分布,反映到模型中,实际上就是要求随机误差项εi服从正态分布。

(4) 方差齐性:自变量的任何一个线形组合,因变量y的方差均齐性,实质就是要求残差的方差齐。

概括起来,“独立”、“线性”、“正态”、“等方差”是线性回归的四个条件。

一元线性回归方程的检验

根据原始数据,求出回归方程后就需要对回归方程进行检验。检验的假设是总体回归系数为0。另外要检验回归方程对因变量的预测效果如何。

(1)回归系数的显著性检验

①对斜率的检验,假设是:总体回归系数为0。检验该假设的t值计算公式是;t=b/SE b,其中SE b是回归系数的标准误。

②对截距的检验,假设是:总体回归方程截距a=0。检验该假设的t值计算公式是:t=a/SE a,其中SE a是截距的标准误。

(2)R2判定系数

在判定一个线性回归直线的拟合优度的好坏时,R2系数是一个重要的判定指标。R2判定系数等于回归平方和在总平方和中所占的比率,即R2体现了回归模型所能解释的因变量变异性的百分比。如果R2=0.775,则说明变量y的变异中有77.5%是由变量X引起的。当R2=1时,表示所有的观测点全部落在回归直线上。当R2=0时,表示自变量与因变量无线性关系。

为了尽可能准确的反应模型的拟合度,SPSS输出中的Adjusted R Square是消除了自变量个数影响的R2的修正值。

(3)方差分析

体现因变量观测值与均值之间的差异的偏差平方和SS t是由两个部分组成的,即回归平方和SSr,反应了自变量X的重要程度;残差平方和SSe,它反应了实验误差以及其他意外因素对实验结果的影响。表示为SS t=SSr+SSe。这两部分除以各自的自由度,得到它们的均方。统计量F=回归均方/残差均方。当 F值很大时,拒绝接受b=0的假设。

(4)Durbin-Watson检验

在对回归模型的诊断中,有一个非常重要的回归模型假设需要诊断,那就是回归模型中的误差项的独立性。如果误差项不独立,那么对回归模型的任何估计与假设所作出的结论都是不可靠的。

其参数称为DW或D。D的取值范围是0<D<4,统计学意义如下:

①当残差与自变量互为独立时D≈2。

③当相邻两点的残差为正相关时,D<2。

③当相邻两点的残差为负相关时,D>2。

(5)残差图示法;在直角坐标系中,以预测值y^为横轴,以y与y^之间的误差e t为纵轴(或学生化残差与拟和值或一个自变量),绘制残差的散点图。如果散点呈现出明显的规律性则,认为存在自相关性或者非线性或者非常数方差的问题。

多元线性回归

1.多元线性回归的概念(卫生统计132页)

根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分析。多元回归分析的模型为:y^=b0+b1x1+b2x2+ +b n x n

其中y^为根据所有自变量X计算出的估计值, b0为常数项, b1、b2 b n称为y对应于x1、x2 x n的偏回归系数。偏回归系数表示假设在其他所有自变量不变的情况下,某一个自变量变化引起因变量变化的比率。

多元线性回归模型也必须满足一元线性回归方程中所述的假设理论。

2.多元线性回归分析中的参数

(l)复相关系数 R。复相关系数表示因变量 y与其他的自变量x i之间线性相关密切程度的指标,复相关系数使用字母R表示。

复相关系数的取值范围在0-1之间。其值越接近1表示其线性关系越强,越接近0表示线性关系越差。

(2)R2判定系数与经调整的判定系数

与一元回归方程相同,在多元回归中也使用判定系数R2来解释回归模型中自变量的变异

在因变量变异中所占比率。

但是,判定系数的值随着进入回归方程的自变量的个数(或样本容量的大小n)的增加而增大。因此,为了消除自变量的个数以及样本量的大小对判定系数的影响,引进了经调整的判定系数(Adjusted R Square)。

(3)零阶相关系数、部分相关与偏相关系数

①在这里零阶相关系数(Zero-Order)计算所有自变量与因变量之间的简单相关系数。

②部分相关(Part Correlation)表示:在排除了其他自变量对 x i的影响后,当一个自变量进入回归方程模型后,复相关系数的平均增加量。

③偏相关系数(Partial Correlation )表示:在排除了其他变量的影响后;自变量 Xi 与因变量y之间的相关程度。部分相关系数小于偏相关系数。偏相关系数也可以用来作为筛选自变量的指标,即通过比较偏相关系数的大小判别哪些变量对因变量具有较大的影响力。 3多元线性回归分析的检验

建立了多元回归方程后,需要进行显著性检验,以确认建立的数学模型是否很好的拟和了原始数据,即该回归方程是否有效。利用残差分析,确定回归方程是否违反了假设理论。对各自变量进行检验。其假设是总体的回归方程自变量系数或常数项为O。以便在回归方程中保留对因变量y值预测更有效的自变量。以便确定数学模型是否有效。

(l)方差分析

与一元回归方程的检验相同,多元回归方程也采用方差分析方法对回归方程进行检验,检验的假设是总体的回归系数均为0(无效假设)或不全为0(备选假设)(卫生统计四版135页)。它是对整个回归方程的显著性检验。使用统计量F进行检验。原理与一元回归的方程分析原理相同。

F=回归均方/残差均方

(2)偏回归系数与常数项的检验

检验的假设是:各自变量回归系数为0,常数项为零。它使用的统计量是t(卫生统计四版136页)。

t=偏回归系数/偏回归系数的标准误

(3)方差齐性检验

方差齐性是指残差的分布是常数,与预测变量或因变量无关。即残差应随机的分布在一条穿过0点的水平直线的两侧。在实际应用中,一般是绘制因变量预测值与学生残差的散点图。在线性回归Plots对话框中的源变量表中,选择SRESID(学生氏残差)做Y轴;选择ZPRED (标准化预测值)做X轴就可以在执行后的输出信息中显示检验方差齐性的散点图。

(4)回归模型残差的正态性检验(略)

检验的方法多种多样,其中最直观、最简单的方法是残差的直方图和累积概率图。需要指出的是,希望残差完全服从于正态分布也是不现实的,即使存在很理想的总体数据,其样本的残差的分布也只能是近似于正态分布。

①残差的直方图。在Plots子对话框中,选择histogram选择项就可以得到残差的直方图。

②残差的累积概率图(P-P图)。P-P图是一种概率分布图,它是用来判断一个变量的分布是否符合一个特定的“检测分布”。这个检测分布包括;Beta分布,Chi-square分布,Exponential分布,Gamma分布,Half-normal,Laplace分布,Logistic分布,Lognormal 分布,Normal分布,Pareto分布,Student't分布.Weibull分布,Uniform分布。

如果两种分布基本相同,那么在P-P图中点应该围绕在一条斜线的周围,如果两种分布完全相同,那么在P-P图中点应该只有一条斜线。通过观察比较观测数据的残差(曲线)在假设直线(正态分布)周围的分布可以对两种分布进行比较。

(5)残差图示法

利用残差图可以判断模型拟和效果。在残差图中如果各点呈随机状,并绝大部分落在±2σ范围(68%的点落在±σ之中,96%的点落在±2σ之中)内,说明模型对于数据的拟和效果较好。如果大部分点落在±2σ范围之外,说明模型对于数据的拟和效果不好。

线性回归方程的建立

l.变量间线性关系的初步探索

在获得数据后,应将所得到的数据绘图,探索因变量随自变量变化的趋势。以便确定数据是否适合线性模型。如果数据之间大致呈线性关系,可以建立线性回归方程。如果图中数据不呈线性分布,那么还可以根据其他回归方程模型的观测量分布图形特点以及建立各方程后所得的判定系数R2进行比较后确定一种最佳模型。见曲线拟合及非线性回归。

通过散点图还可以发现奇异值,如图中画圈的观测值要认真检查数据的合理性。

2.建立线性模型的操作步骤

(1)analyze--regression--linear

(2)选择一个因变量进入dependent,选择一个或多个自变量进入independent。

(3)在Method 框中选择一种回归分析方法

①Enter选项,强行进入法,即所选择的自变量全部进人回归模型,该选项是默认方式。

②Remove选项,消去法,建立的回归方程时,根据设定的条件剔除部分自变量。

③Forward选项,向前选择法,根据在option对话框中所设定的判据,从无自变量开始。在拟合过程中,对被选择的自变量进行方差分析,每次加入一个F值最大的变量,直至所有符合判据的变量都进入模型为止。第一个引入归模型的变量应该与因变量间相关系数绝对值最大。

④Backward选项,向后剔除法,根据在option对话框中所设定的判据,先建立全模型,然后根据设置的判据,每次剔除一个使方差分析中的F值最小的自变量,直到回归方程中不再含有不符合判据的自变量为止。

⑤ Stepwise选项,逐步进入法,它是向前选择变量法与向后剔除变量方法的结合。根据在 option对话框中所设定的判据,首先根据方差分析结果选择符合判据的自变量且对因变量贡献最大的进入回归方程。根据向前选择变量法则选入变量。然后根据向后剔除法,将模型中F值最小的且符合剔除判据的变量剔除出模型,重复进行直到回归方程中的自变量均符合进入模型的判据,模型外的自变量都不符合进入模型的判据为止。

(4)根据变量值选择参与回归分析的观测量,将作为参照的变量进入 Selection Variable框中,单击 Rule按钮。打开 Set Rule对话框。

共线性问题(略)

在回归方程中,虽然各自变量对因变量都是有意义的,但某些自变量彼此相关,即存在共线性的问题。给评价自变量的贡献率带来困难。因此,需要对回归方程中的变量进行共线性诊断;并且确定它们对参数估计的影响。

进行共线性论断常用的参数有:条件参数、容许度、方差膨胀因子(VIF)等。

当一组自变量精确共线性时,必须删除引起共线性的一个和多个自变量,否则不存在系数唯一的最小二乘估计。因为删除的自变量并不包含任何多余的信息,所以得出的回归方程并没有失去什么。当共线性为近似时,一般是将引起共线性的自变量删除,但需要掌握的原则是:务必使丢失的信息最少。

(l)容许度(Tolerance)

在只有两个自变量的情况下,自变量X1与X2之间共线性体现在两变量间相关系数r12上。精确共线性时对应r122=1,当它们之间不存在共线性时r122=0。r122越接近于1,共线性越强。

多于两个自变量的情况, Xi与其他自变量互之间的复相关系数的平方体现其共线性。称它为R2i。它的值越接近1,说明自变量之间的共线性程度越大。

容许度定义为Toli=l一R2i

★当容许度的值较小时,自变量Xi 与其他自变量X之间存在共线性。

使用容许度作为共线性量度指标的条件是,观测量应大致近似于正态分布,但在大多数情况下观测量的正态分布的假设是不被接受的。而且,由于容许度中相关系数对极端值极为敏感, 所以用它来作为共线性的量度指标是不适合的。

(2)方差膨胀因子(VIF)

★方差膨胀因于(VIF)定义为 VIF=1/(l一R2i ),即它是容许度的倒数。它的值越大,自变量之间存在共线性的可能性越大。

(3)条件参数(Condition Index)

★条件参数是在计算特征值时产生的一个统计量,其具体含义尚不大清楚,但己经提出一些原则:其数值越大,说明自变量之间的共线性的可能性越大;有些学者提议,条件参数≥30时认为有共线性存在的可能性,但理论上并没有得到证明。特征值(Eigenvalue)如果很小,就应该怀疑共线性的存在。

(4)共线性问题的解决方法

共线性问题是建立回归模型过程中比较常见而又较难克服的问题。由于篇幅限制,本文仅给出一些常用方法原则。

①剔除不重要的有共线性问题的自变量。注意这里强调的是去除不重要的自变量,否则有可能导致“解释错误”。

②增加样本量。增大样本量可以减少回归模型中参数估计的残差。

③重新抽取样本数据。不向样本的观测量的共线性是不一致的,所以重新抽取样本数据有可能减少共线性问题的严重程度。

变非线性关系为线性关系(略)

有时因变量与自变量的关系不是线性关系,而利用其他的方法也未能很好地拟和数据时,就需要进行数据的非线性到线性关系的转换。如果因变量或残差不符合假设条件时也需要进行转换,可以参考有关书籍。

线性回归分析实例(data09-03)

操作步骤:

(1)Graphs—Sactter—Simple

将Salbegin、salary选入Y轴、X轴

(2)analyze--regression--linear

选择一个因变量salary进入dependent,选择Salbegin、prevexp、jobtime、jobcat、educ自变量进入independent;

Statistics-Residuals-Casewise

diagnostics—3;Collinearitydiagnostics

Plots—ZPRED、ZRESID选入Y轴、X轴

结果分析:

(1)被引入与被剔除的变量,见表1。

第一列: Model为回归方程模型编号。第二列: Variables Entered为引入回归方程的自变量名称。第三列: Variables Removed为从回归方程中被剔除的自变量名称。第四列:Method为自变量进入与被剔除回归方程的判据。

从表1可以看出,5个被选择的自变量经过逐步回归过程都进入了回归方程,没有被剔除的变量。

第一步回归方程中包含常数项(Constant)和自变量 Beginning Salary(标签)。

第二步完成时,回归方程中包含常数项(Constant)和自变量Beginning Salary, Employment Category;以后各步回归方程中包含的常数项(Constant)和自变量可以依次类推。因变量(Dependent Variable)为Current Salary。

(2)回归方程常用统计量,见表2。

第一列:Modl为回归方程模型编号。

第二列:R为回归方程的复相关系数。

第三列:R Square即R2系数,随着自变量个数的增加,R2系数的值也在不断增加,这是所有线性回归方程的共同规律,但是这并不意味着变量越多,模型的拟和度越佳。

第四列:Adjusted R Square即修正R2,为了尽可能的确切的反映模型的拟和度,该参数试图修正R2系数的偏差,它未必随着变量的个数的增加而增加。

第五列:Std. Error of the Estimate为估计的标准误,增加自变量的个数将增大R2系数,但未必会减少估计的标准误。除非需要,自变量数量不应太多,因为多余的自变量会给解释回归方程造成困难。一个包含多余自变量的模型不但不会改善预测值,反而有可能增加标准误差。

由表2的R2以及修正的R2值得出建立的回归方程的线性关系比较满意。

(3)方差分析,见表3。

表3为回归拟合过程中每一步的方差分析结果。Sum of Square为回归平方和(Regrssion)、残差平方和(Residual)、总平方和(Total),df为自由度, Sig.为大于F 值的概率。方差分析结果表明,当回归方程包含不同的自变量时,其显著性概率值均为0.000。拒绝回归系数均为0的原假设。

(4)回归系数分析,见表4。

Model为回归方程模型编号, Unstandardized Coefficients为非标准化系数,Standardized Coefficients为标准化系数,t检验为偏回归系数为O(和常数项为0)的假设检验的t值,Sig.为偏回归系数为O(和常数项为0)的假设检验的显著性水平值,Collinearity Statistics为共线性统计量。

B偏回归系数:它是在控制了其他变量之后得到的。它的不足之处在于,当自变量的单位不一致时,比较它的大小变得毫无意义。也就是说只有当所有的自变量单位统一时,它们的大小才有可比性。比较偏回归系数时还应注意,在多元回归分析中,方差分析是对整个回归方程的显著性检验,它与单独的进行每一个偏回归系数的显著性检验不一定等效,就是说,由方差分析得出回归方程有统计意义,而回归方程这的每一个偏回归系数不一定都有显著性,但至少有一个是显著的。

Beta系数:它是对B偏回归系数B的改进:当所有的变量使用标准化(Z分数)形式表示时,它具有可比性。但是从绝对意义上讲。使用Beta系数也不能比较出哪一个自变量更为重要。

由表3回归方程编号得出的逐步回归过程的每一步的结果。

模型1:Current salary=1928.206十1.909*Beginning salary。

其常数项的显著水平值为O.031,自变量Beginning salary 的显著水平值为O.000。

模型 2:Current salary=1036.931十1.469*Beginning salary十5947.000Employment category。

其常数项的显著水平值0.213,自变量Beginning salary 的显著水平值为O.000,自变量Employment category的显著水平值为 O.000。

它们的共线性诊断的指标容忍度(To1erance)分别为(常数项除外)0.430、O.430,0.996,大小适中,不是很小。膨胀方差因子(VIF)分别为(常数项除外)2.323、2.323,数值不大,从而可以拒绝它们之间的共线性假设。

模型 3:Current salary=3039.205十1.467*Beginning salary十6160.294Employment category一23.749*Previous Experience。

常数项、自变量Beginning salary 、Employment category、Previous Experience 的显著水平值均为0.000。

这里要特别注意的是,在分析回归方程中的自变量时,原来工作经历(Previous Experience )时需要特别小心,因为它给出的信息是原来的工作经验越长,当前的工资水平却越少,至于产生这样原因还要从数据的来源中分析。

它们的共线性诊断的指标容忍度(To1erance)分别为(常数项除外)0.430、O.430,0.996,大小适中,不是很小。膨胀方差因子(VIF)分别为(常数项除外)2.323、2.323、1.004,数值不大,从而可以拒绝它们之间的共线性假设。

模型4和5的分析同上。

(5)共线性诊断,见表5。(略)

Model为回归方程模型编号, Dimension为维数, Eigenvalue为特征值, Condition Index为条件参数,Variance Proportions方差比例。

从表5特征值一栏看到,回归方程模型编号为4、5的模型中,其特征值很低,分别为7.385E-03、6.824E-03;其条件指标较高,分别为24.026、27.634;从方差比例一栏中观察常数项(Constant)与自变量(Months since hire)所占的比例分别为 0.98、 0.97与 0.97、0.79,方差比例都很大,因此有理由怀疑常数项与自变量Months since hire之间存在较强的共线性,还需要进一步的进行判别。

(6)奇异值(指有很大标准化残差的观测值)诊断,见表6。(略)

Case Number为奇异值观测量编号, Std. Residual为标准化残差, Current Salary 为当前值,Predicted Value为预测值,Residual残差。

由表6得到的奇异值列表,给出了被怀疑为奇异值的观测量的编号,这些观测量之所以被怀疑为奇异值是因为它们的标准化残差值都大于3(奇异值是指有很大标准化残差的观测量,系统默认标准是标准化残差的绝对值大于3),当然这个标准是可以改变的。

(7)残差统计分析,见表7。(略)

由表7着重注意观察Mahal.Distance、Cook's Distance、Centered Leverage Value 的最大值与最小值,它可以发现观测量数据中是否有影响点。Cook's Distance:一个被认为是影响点的观测量被删除后,其他所有观测量的变化;此值越大,表示这个被认为是影响点的观测量的影响力越大。Mahal.Distance:观测量与自变量平均值之间的距离(适用于回归方程中只有一个自变量的情况,本例不适合)。Centered Leverage Value:中心点杠杆值,杠杆值变动范围为0到(N-1)/N,杠杆值为0时,说明此观测量对回归方程没有影响,杠杆值为(N-1)/N,说明此观测量对回归方程的贡献较大。本例Cook's Distance与 Centered Leverage Value均较小,亦影响力较小。

(8)散点图分析,见图8。

从图8的当前工资的预测值与其标准化残差散点图中可以看到绝大部分观测量随机地落在围绕垂直的士2的范围内,预测值与标准化残差值之间没有明显的关系,所以回归方程应该满足线性与方差齐性的假设。

8.2曲线回归分析(data13-01)

曲线估计

线性回归可以满足许多数据分析,然而线性回归不会对所有的问题都适用,有时因变量与自变量是通过一个已知或未知的非线性函数关系相联系。尽管有可能通过一些函数的转换方法,在一定范围内将它们转变为线性关系,但这种转换有可能导致更为复杂的计算或数据失真。

在很多情况下有两个相关的变量,用户希望利用其中的一个变量对另一个变量进行预测,此时可采用的方法也很多;从简单的直线模型到复杂的时间序列模型。如果不能马上根据观测量数据确定一种最佳模型,可以利用曲线估计在众多的回归模型中来建立一个简单而又比较适合的模型。

举例(data13-01)

操作步骤:

(1)Graphs—Sactter—Simple将MPG、Vehicle Weight选入X轴、Y轴

(2)analyze--regression—Curve Estimation

选择一个因变量MPG进入dependent,选择Vehicle Weight自变量进入independent;(3) 选择Quadratic、Cubic与 Compound模型。

链接:线形回归方程Y=b0+b1X

二次回归方程Y=b0+b1X+b2X2

复合曲线回归方程Y=b0(b1X)

等比级数曲线回归方程

对数回归方程

三次回归方程Y=b0+b1X+b2X2+b3X3

………

(4)选择Display ANOVA table

(5) 选择Plot model

(6) 选择Save中保持变量栏。

COMPOUND分析结果:

①标示出回归方程的因变量是MPG,采用的模型是COMPOUND。

②列出了常用的统计量依次为复相关系数、判定系数R2、R2的修正值、标准误。

③给出了方差分析的结果:其F值为957.93612,F值的显著水平值为.0000,所以自变量与因变量呈现显著的相关意义。

④显示出在回归方程的各种统计量的数值,由此得出最后的回归方程。

MPG=60.15*(1.00WEIGHT)

图形比较分析

由三种模型CUBIC、QUADRATIC、COMPOUND获得的图形,可以看出由COMPOUND模型所获得的曲线对观测量的拟和程度稍好一些。在许多时候图形的判断作用往往被夸大,这会带来严重的后果,图形的判断只是对判定模型的取舍起到一定的指导作用,而最终的模型判定还是要通过对统计量的分析与研究。

最终结果分析

首先,判读三种模型的方差分析结果,如果模型没有统计意义,那么即使它有最好的R2值,与其他呈显著意义的模型进行比较是没有意义的。

由于方差分析结果表明三种模型都有统计意义,接下来对比三种模型(QUADRATIC、CUBIC、COMPOUND)判定系数R2的大小,从而来判定—种最佳的模型,它们分别依次为0.66020、O.68933、0.71064,这样就不难判定三种模型中拟和优度依次为COMPOUND、CUBIC、QUADRATIC。

8.3维 Logistic回归分析(一般了解)

二维Logistic回归

多元线性回归要求Y是呈正态分布的连续型随机变量。难以处理因变量为二值变量的情况。在医学中,存在很多二值化的状态,比如生存与死亡、感染与不感染、有效与无效、患病与不患病等等。这时,我们往往要分析生存与死亡或感染与不感染与哪些因素有关。而这些因素(自变量)可能是二值数据或等级分组资料或是计量资料,此时,可以使用logistic 回归来分析因变量(二值变量)与自变量的关系。

下面我们介绍logistic回归的基本概念:

设P表示某事件发生的概率,取值范围为0~1,1-P是该事件不发生的概率,将比值P/(1-P)取自然对数得ln(P/1-P),即对P作logit转换,记为logitP,则logitP的取值范围在-∝,+∝之间。以logitP为因变量,建立线形回归方程:

logitP =b0+∑b i x i

(卫生统计139页)

可见:b0表示一个不接触危险因素(自变量取值全为0时)的个体发病(死亡或感染)的比值的对数。b0是常数。

b i 表示危险因素改变一个单位时,比值的对数的改变量。在实际比较x i对比值的对数影响时,应使用标准化的系数,以克服自变量不同量纲的影响。b i称为logistic回归系数。

数据背景(data13-02)

北京医科大学附属人民医院内分泌科卢纹凯教授课题。颈总动脉中层厚度imt>0.8mm或有斑块定义为动脉硬化,因变量type值为1;非硬化imt<0.8mm且无斑块,因变量type值为0。糖尿病患者123例数据。研究哪些指标可以判断糖尿病患者是否动脉硬化。自变量AGE 年龄、ALB尿白蛋白、BMI体重指数、ISI胰岛素敏感指数、SBP收缩压、TG甘油三脂、CHO 胆固醇、DURA糖尿病程。其中尿白蛋白、甘油三脂、胆固醇三项生化指标在回归估计过程中均使用他们的对数变量:ALBLN、TGLN、CHOLN。

操作步骤:

(1)analyze--regression—Logistic

(2)选择type作为因变量进入dependent,选择AGE、ALBLN、TGLN、CHOLN、BMI、SBP、ISI、DURA作为协变量进入Covariates;

(3)在Method 选择Forward Wald逐步选择变量进入回归方程。

(4)在Save中,选择Probabilities和Group membership。

结果分析:

(l)表1观测量信息:选择了123个未加权的观测量进行分析,缺失值数为0。

(2)表2因变量编码:因变量是二分变量,编码与原始值一致。

(3)表3初始信息

①无参考价值,只说明原始分类的频数分布,颈总动脉中层厚度imt<O.8,且无斑块者33人,imt>0.8或有斑块者90人。

②初始回归方程中无自变量。

③定义的第一块,分析方法为 WOLD向前逐步选择。

④列出了选定的自变量中没有在模型中的变量名。初始时都没有在模型中。

(4)表4回归估计的第一步结果

①第一步进入模型的自变量是Age年龄。

②在第四步迭代时估计过程结束,因为对数似然值的变化量(减少)小于O.01%。

③第一步:将原始观测量数据代人回归方程中得到的预测分类结果与原始分类的频数分布表。总正确率为85.4%。有动脉硬化的被错判的百分比较低,正确率为93.3%。未硬化的正确率较低。只有63.6%。

④第一步迭代结束后的回归方程是:

Logit(p)=-7.5647+0.1580*age 即

P=exp(-7.5647+0.1580*age)/[1+exp(-7.5647+0.1580*age)]

⑤未选入回归方程的变量表及其有关的统计量。从显著性概率来看,下一个进入模型的应该是ALBLN。

(5)表5回归估计的第4步

①第四步,自变量DURA糖尿病程进入回归方程。估计在第六次迭代时结束。因为对数似然值在两次选代直接减少值小于0.01%。从两个R2值随着进入变量的增加而增加,说明拟合的效果是随着进入变量的增加趋势是好的。

②对Type进行分类的概率界值取0.5,回代结果总正确率达87.8%。原为颈总功脉硬化的预测正确的概率93.3%大于非硬化预测正确的概率72.7%。

③根据回归方程中的变量表及统计量得出:

最后的回归方程为判断颈总动脉是否硬化的概率值p表达为:

P=exp(-15.2490+0.1570*age+1.0703*ALBLN+0.0361*SBP-0.1305*DURA)/[1+exp (-15.2490+0.1570*age+1.0703*ALBLN+0.0361*SBP-0.1305*DURA)]

④不在回归方程中的自变量显著性概率均大于0.05,因此再没有变量进入或剔除出回归方程了。

(6)表6新变量命名表。在数据窗内生成的新变量:预测概率变量PRE-1,其值为一个供判断观测量所属类别的概率,其值大于0.5被认为有动脉硬化,否则判断为无动脉硬化。预测分组变量 PGR-1。根据PRE-1是否大于O.5判断观测量属于那一类的结果。

根据回归方程最后结果可以认为为避免糖尿病患者发生动脉硬化,可以从控制血压、降低尿白蛋白指标方面进行治疗,对年龄大的和病程长的患者尤其要注意。

注意:表中卡方检验可考虑为新增变量统计量和整个模型统计量

可在options菜单中选择95%CI

复习题:正确建立适合线性回归分析、曲线回归分析、Logistic回归分析的数据库,并进行统计分析。

一元线性回归分析的结果解释

一元线性回归分析的结果解释 1.基本描述性统计量 分析:上表是描述性统计量的结果,显示了变量y和x的均数(Mean)、标准差(Std. Deviation)和例数(N)。 2.相关系数 分析:上表是相关系数的结果。从表中可以看出,Pearson相关系数为0.749,单尾显著性检验的概率p值为0.003,小于0.05,所以体重和肺活量之间具有较强的相关性。 3.引入或剔除变量表

分析:上表显示回归分析的方法以及变量被剔除或引入的信息。表中显示回归方法是用强迫引入法引入变量x的。对于一元线性回归问题,由于只有一个自变量,所以此表意义不大。 4.模型摘要 分析:上表是模型摘要。表中显示两变量的相关系数(R)为0.749,判定系数(R Square)为0.562,调整判定系数(Adjusted R Square)为0.518,估计值的标准误差(Std. Error of the Estimate)为0.28775。 5.方差分析表 分析:上表是回归分析的方差分析表(ANOVA)。从表中可以看出,回归的均方(Regression Mean Square)为1.061,剩余的均方(Residual Mean Square)为0.083,F检验统计量的观察值为12.817,相应的概率p 值为0.005,小于0.05,可以认为变量x和y之间存在线性关系。

6.回归系数 分析:上表给出线性回归方程中的参数(Coefficients)和常数项(Constant)的估计值,其中常数项系数为0(注:若精确到小数点后6位,那么应该是0.000413),回归系数为0.059,线性回归参数的标准误差(Std. Error)为0.016,标准化回归系数(Beta)为0.749,回归系数T检验的t统计量观察值为3.580,T检验的概率p值为0.005,小于0.05,所以可以认为回归系数有显著意义。由此可得线性回归方程为: y=0.000413+0.059x 7.回归诊断 分析:上表是对全部观察单位进行回归诊断(Casewise Diagnostics-all cases)的结果显示。从表中可以看出每一例的标准

第五章 回归分析

第五章回归分析 §1.回归分析的数学模型 1.1.线性统计模型 1.线性回归方程 从一个简单的例子谈起。个人的消费水平Y与他的收入水平X间的关系,大体上可以描述:收入水平高,一般消费水平也高。但Y 和X绝不是简单的线性关系,这从常识便能判别;而且也不是一种确定的数学关系,两个收入水平完全一样的个人,他们的消费水平可能有很大的差异。比较合理的看法是:个人的消费水平Y是一个随机变量,从平均的意义上看,应与收入水平成正比。因此,我们可以给出以下模型: Y = b0 + b1X +ε (1) 其中b0,b1是待定常数,ε是随机变量,且有E(ε)=0,这样就能保证 E(Y) = b0 + b1X (2) 即从平均意义上Y和X线性相关。等式(2)称为变量Y对于变量X的线性回归方程。一般情况下,一个随机变量Y与变量X1,X2,…,X p有关系

Y = b0 + b1X1 + b2X2 + … + b p X p +ε (3) 随机变量ε的期望E(ε)=0,即有: E(Y) = b0+ b1X1 + b2X2+ … + b p X p (4) 从平均意义上,Y与X1,X2,…,X p呈线性关系。(4)式称为变量Y对于变量X1,X2,…,X p的线性回归方程,p=1时,称方程是一元的;p≥2时,称方程是多元的;b0,b1,…,b p称为回归系数。 2.统计模型的假设 设变量Y与X1,X2,…,X p之间有关系(3),对(X1,X2,…,X p,Y)做n 次观察,得到一个容量为n的样本:(x i1,x i2, …,x i p,y i)i=1,2,…,n,按(4)式给出的关系,这些样本观察值应有: y1= b0+ b1x11+ b2x12 + … + b p x1p+ε1 y2= b0+ b1x21+ b2x22 + … + b p x2p+ε2 (5) ………………………………… y n= b0+ b1x n1+ b2x n2 + … + b p x n p+εn 其中的εi, i=1,2,…,n是随机误差,出于数学上推导的需要,假设:1)E(εi)=0,i=1,2,…,n.即观察结果没有系统误差; 2)Var(εi)=σ2,i=1,2,…,n.这个性质叫做方差齐性;

第六章回归分析

第六章 回归分析 一、单项选择题 1.进行简单直线回归分析时,总是假定( )。 A 、自变量是非随机变量,因变量是随机变量 B 、自变量是随机变量,因变量是非随机变量 C 、两变量都是随机变量 D 、两变量都是非随机变量 2.在因变量的总离差平方和中,如果回归平方和所占比重达,剩余平方和所占比重小,则两者之间( )。 A 、相关程度高 B 、相关程度低 C 、完全相关 D 、完全不相关 3.当一个现象的数量由小变大,而另一个现象的数量由大变小时,这种相关关系称为( ) A 、线性相关 B 、非线性相关 C 、正相关 D 、负相关 4.直线趋势y e =a+bt 中a 和b 的意义是( )。 A 、a 是截距,b 表示x=0时的 趋势值 B 、a 是最初发展水平的趋势值,b 表示平均发展水平 C 、a 是最初发展水平的趋势值,b 表示平均发展速度 D 、a 表示直线的截距,表示最初发展水平的趋势值,b 是直线的斜率,表示按最小平方法计算的平均增长量 5.当所有观察值y 都落在回归直线bx a y +=?上,则x 与y 之间的相关系数( )。 A 、r=1 B 、-1

简单线性回归分析思考与练习参考答案

第10章 简单线性回归分析 思考与练习参考答案 一、最佳选择题 1.如果两样本的相关系数21r r =,样本量21n n =,那么( D )。 A. 回归系数21b b = B .回归系数12b b < C. 回归系数21b b > D .t 统计量11r b t t = E. 以上均错 2.如果相关系数r =1,则一定有( C )。 A .总SS =残差SS B .残差SS =回归 SS C .总SS =回归SS D .总SS >回归SS E. 回归MS =残差MS 3.记ρ为总体相关系数,r 为样本相关系数,b 为样本回归系数,下列( D )正确。 A .ρ=0时,r =0 B .|r |>0时,b >0 C .r >0时,b <0 D .r <0时,b <0 E. |r |=1时,b =1 4.如果相关系数r =0,则一定有( D )。 A .简单线性回归的截距等于0 B .简单线性回归的截距等于Y 或X C .简单线性回归的残差SS 等于0 D .简单线性回归的残差SS 等于SS 总 E .简单线性回归的总SS 等于0 5.用最小二乘法确定直线回归方程的含义是( B )。 A .各观测点距直线的纵向距离相等 B .各观测点距直线的纵向距离平方和最小 C .各观测点距直线的垂直距离相等 D .各观测点距直线的垂直距离平方和最小 E .各观测点距直线的纵向距离等于零 二、思考题 1.简述简单线性回归分析的基本步骤。 答:① 绘制散点图,考察是否有线性趋势及可疑的异常点;② 估计回归系数;③ 对总体回归系数或回归方程进行假设检验;④ 列出回归方程,绘制回归直线;⑤ 统计应用。 2.简述线性回归分析与线性相关的区别与联系。

统计学习题集第五章相关与回归分析(0)

所属章节: 第五章相关分析与回归分析 1■在线性相关中,若两个变量的变动方向相反,一个变量的数值增加,另一个变量数值随之减少,或一个变量的数值减少,另一个变量的数值随之增加,则称为()。 答案: 负相关。干扰项: 正相关。干扰项: 完全相关。干扰项: 非线性相关。 提示与解答: 本题的正确答案为: 负相关。 2■在线性相关中,若两个变量的变动方向相同,一个变量的数值增加,另一个变量数值随之增加,或一个变量的数值减少,另一个变量的数值随之减少,则称为()。 答案: 正相关。干扰项: 负相关。干扰项: 完全相关。干扰项: 非线性相关。 提示与解答:

本题的正确答案为: 正相关。 3■下面的xx中哪一个是错误的()。 答案: 相关系数不会取负值。干扰项: 相关系数是度量两个变量之间线性关系强度的统计量。干扰项: 相关系数是一个随机变量。干扰项: 相关系数的绝对值不会大于1。 提示与解答: 本题的正确答案为: 相关系数不会取负值。 4■下面的xx中哪一个是错误的()。 答案: 回归分析中回归系数的显著性检验的原假设是: 所检验的回归系数的真值不为0。 干扰项: 相关系数显著性检验的原假设是: 总体中两个变量不存在相关关系。 干扰项: 回归分析中回归系数的显著性检验的原假设是:

所检验的回归系数的真值为0。 干扰项: 回归分析中多元线性回归方程的整体显著性检验的原假设是: 自变量前的偏回归系数的真值同时为0。 提示与解答: 本题的正确答案为: 回归分析中回归系数的显著性检验的原假设是: 所检验的回归系数的真值不为0。 5■根据你的判断,下面的相关系数值哪一个是错误的()。 答案: 1.25。干扰项:-0.86。干扰项: 0.78。干扰项:0。 提示与解答: 本题的正确答案为: 1.25。 6■下面关于相关系数的陈述中哪一个是错误的()。 答案: 数值越大说明两个变量之间的关系越强,数值越小说明两个变量之间的关系越弱。 干扰项:

第六章相关与回归分析方法

第六章 相关与回归分析方法 第一部分 习题 一、单项选择题 1.单位产品成本与其产量的相关;单位产品成本与单位产品原材料消耗量的相关 ( )。 A.前者是正相关,后者是负相关 B.前者是负相关,后者是正相关 C.两者都是正相关 D.两者都是负相关 2.样本相关系数r 的取值范围( )。 A.-∞<r <+∞ B.-1≤r ≤1 C. -l <r <1 D. 0≤r ≤1 3.当所有观测值都落在回归直线 01y x ββ=+上,则x 与y 之间的相关系数( )。 A.r =0 B.r =1 C.r =-1 D.|r|=1 4.相关分析与回归分析,在是否需要确定自变量和因变量的问题上( )。 A.前者无需确定,后者需要确定 B.前者需要确定,后者无需确定 C.两者均需确定 D.两者都无需确定 5.直线相关系数的绝对值接近1时,说明两变量相关关系的密切程度是( )。 A.完全相关 B.微弱相关 C.无线性相关 D.高度相关 6.年劳动生产率x(千元)和工人工资y(元)之间的回归方程为y=10+70x ,这意味着年劳动生产率每提高1千元时,工人工资平均( )。 A.增加70元 B.减少70元 C.增加80元 D.减少80元 7.下面的几个式子中,错误的是( )。 A. y= -40-1.6x r=0.89 B. y= -5-3.8x r =-0.94 C. y=36-2.4x r =-0.96 D. y= -36+3.8x r =0.98 8.下列关系中,属于正相关关系的有( )。 A.合理限度内,施肥量和平均单产量之间的关系 B.产品产量与单位产品成本之间的关系 C.商品的流通费用与销售利润之间的关系 D.流通费用率与商品销售量之间的关系 9.直线相关分析与直线回归分析的联系表现为( )。 A.相关分析是回归分析的基础 B.回归分析是相关分析的基础 C.相关分析是回归分析的深入 D.相关分析与回归分析互为条件 10.进行相关分析,要求相关的两个变量( )。 A.都是随机的 B.都不是随机的 C.一个是随机的,一个不是随机的 D.随机或不随机都可以 11.相关关系的主要特征是( )。 A.某一现象的标志与另外的标志之间存在着确定的依存关系 B.某一现象的标志与另外的标志之间存在着一定的关系,但它们不是确定的关系 C.某一现象的标志与另外的标志之间存在着严重的依存关系 D.某一现象的标志与另外的标志之间存在着函数关系 12.相关分析是研究( )。 A.变量之间的数量关系 B.变量之间的变动关系 C.变量之间相互关系的密切程度 D.变量之间的因果关系 13.现象之间相互依存关系的程度越低,则相关系数( )。 A.越接近于0 B.越接近于-1 C.越接近于1 D.越接近于0.5 14.在回归直线01y x ββ=+中,若10 β<,则x 与y 之间的相关系数( )。 A. r=0 B. r=1 C. 0<r <1 D. —l <r <0 15.当相关系数r=0时,表明( )。 A.现象之间完全无关 B.相关程度较小 C.现象之间完全相关 D.无直线相关关系 16.已知x 与y 两变量间存在线性相关关系,且2 10,8,7,100x y xy n σσσ===-=,则x 与y 之间存在着( )。

如何用EXCEL做数据线性拟合和回归分析

如何用Excel做数据线性拟合和回归分析 我们已经知道在Excel自带的数据库中已有线性拟合工具,但是它还稍显单薄,今天我们来尝试使用较为专业的拟合工具来对此类数据进行处理。 在数据分析中,对于成对成组数据的拟合是经常遇到的,涉及到的任务有线性描述,趋势预测和残差分析等等。很多专业读者遇见此类问题时往往寻求专业软件,比如在化工中经常用到的Origin和数学中常见的MATLAB等等。它们虽很专业,但其实使用Excel 就完全够用了。我们已经知道在Excel自带的数据库中已有线性拟合工具,但是它还稍显单薄,今天我们来尝试使用较为专业的拟合工具来对此类数据进行处理。 注:本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘支持下加载“分析数据库”。加载成功后,可以在“工具”下拉菜单中看到“数据分析”选项 实例某溶液浓度正比对应于色谱仪器中的峰面积,现欲建立不同浓度下对应峰面积的标准曲线以供测试未知样品的实际浓度。已知8组对应数据,建立标准曲线,并且对此曲线进行评价,给出残差等分析数据。 这是一个很典型的线性拟合问题,手工计算就是采用最小二乘法求出拟合直线的待定参数,同时可以得出R的值,也就是相关系数的大小。在Excel中,可以采用先绘图再添加趋势线的方法完成前两步的要求。 选择成对的数据列,将它们使用“X、Y散点图”制成散点图。

在数据点上单击右键,选择“添加趋势线”-“线性”,并在选项标签中要求给出公式和相关系数等,可以得到拟合的直线。 拟合的直线是y=15620x+6606.1,R2的值为0.9994。 因为R2>0.99,所以这是一个线性特征非常明显的实验模型,即说明拟合直线能够以大于99.99%地解释、涵盖了实测数据,具有很好的一般性,可以作为标准工作曲线用于其他未知浓度溶液的测量。 为了进一步使用更多的指标来描述这一个模型,我们使用数据分析中的“回归”工具来详细分析这组数据。 在选项卡中显然详细多了,注意选择X、Y对应的数据列。“常数为零”就是指明该模型是严格的正比例模型,本例确实是这样,因为在浓度为零时相应峰面积肯定为零。先前得出的回归方程虽然拟合程度相当高,但是在x=0时,仍然有对应的数值,这显然是一个可笑的结论。所以我们选择“常数为零”。 “回归”工具为我们提供了三张图,分别是残差图、线性拟合图和正态概率图。重点来看残差图和线性拟合图。 在线性拟合图中可以看到,不但有根据要求生成的数据点,而且还有经过拟和处理的预测数据点,拟合直线的参数会在数据表格中详细显示。本实例旨在提供更多信息以起到抛砖引玉的作用,由于涉及到过多的专业术语,请各位读者根据实际,在具体使用

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

应用回归分析第6章课后习题答案

第6章 6.1 试举一个产生多重共线性的经济实例。 答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。 6.2多重共线性对回归参数的估计有何影响? 答:1、完全共线性下参数估计量不存在; 2、参数估计量经济含义不合理; 3、变量的显著性检验失去意义; 4、模型的预测功能失效。 6.3 具有严重多重共线性的回归方程能不能用来做经济预测? 答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。 6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系? 答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。 6.6对第5章习题9财政收入的数据分析多重共线性,并根据多重共线性剔除变量。将所得结果与逐步回归法所得的选元结果相比较。 5.9在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增

SPSS多元线性回归分析报告实例操作步骤

SPSS 统计分析 多元线性回归分析方法操作与分析 实验目的: 引入1998~2008年上海市城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率和房屋空置率作为变量,来研究上海房价的变动因素。 实验变量: 以年份、商品房平均售价(元/平方米)、上海市城市人口密度(人/平方公里)、城市居民人均可支配收入(元)、五年以上平均年贷款利率(%)和房屋空置率(%)作为变量。 实验方法:多元线性回归分析法 软件:spss19.0 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open;

2. Opening excel data source——OK. 第二步: 1.在最上面菜单里面选中Analyze——Regression——Linear ,Dependent (因变量)选择商品房平均售价,Independents(自变量)选择城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率、房屋空置率;Method选择Stepwise. 进入如下界面:

2.点击右侧Statistics,勾选Regression Coefficients(回归系数)选项组中的Estimates;勾选Residuals(残差)选项组中的Durbin-Watson、Casewise diagnostics默认;接着选择Model fit、Collinearity diagnotics;点击Continue. 3.点击右侧Plots,选择*ZPRED(标准化预测值)作为纵轴变量,选择DEPENDNT(因变量)作为横轴变量;勾选选项组中的Standardized Residual Plots(标准化残差图)中的Histogram、Normal probability plot;点击Continue.

第六章相关与回归分析题目

第六章相关与线性回归分析 1、 1)试利用这批数据分析课题总数与哪些因素由比较密切的关系,利用相关系数检验。 2)以课题总数作为因变量进行多元线性回归。 2、在上题数据中,计算课题总数数与投入高级职称的人年数的偏相关关系,以投入人年数、 投入科研事业费作为控制变量。 3、现有1991~2007年的人均国民生产总值增长率(G),城市居民消费价格上涨幅度(P)和企

业职工平均工资增长率(W),如下: 4、 随机抽取的10家航空公司,对其最近一年的航班正点率和顾客投诉次数进行了调查, 所得数据如下表。 (1) 绘制散点图,说明二者之间的关系形态。 (2) 用航班正点率作自变量,顾客投诉次数作因变量,求出估计的回归方程,并解 释回归系数的意义。 (3) 检验回归系数的显著性(05.0=α)。 (4) 如果航班正点率为80%,估计顾客的投诉次数。 (5) 求航班正点率为80%时,顾客投诉次数95%的置信区间和预测区间。 航空公司编号 航班正点率 投诉次数 1 81.8 21 2 76.6 58 3 76.6 85 4 75.7 68 5 73.8 74 6 72.2 93 7 71.2 72 8 70.8 122 9 91.4 18 10 68.5 125 5、 一家房地产评估公司想对某城市的房地产销售价格(y )与地产的评估价值(x1)、房产 的评估价值(x2)和使用面积(x3)建立一个模型,以便对销售价格作出合理预测。为此,收集了20栋住宅的房地产评估数据见下表。用Minitab 进行回归,回答下面的问题:

(1)写出估计的多元回归方程。 (2)在销售价格的总变差中,被估计的回归方程所解释的比例是多少? (3)检验回归方程的线性关系是否显著()。 (4)检验各回归系数是否显著() (5)计算当x1=1000,x2=2000,x3=10000时,销售价格的预测值,置信区间(C.I)以及预测区间(P.I.) 6、一家电气销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费 用对月销售额作出估计。下表是近8个月的销售额与广告费用数据。 (1)用电视广告费用作自变量,月销售额作因变量,建立估计的回归方程。 (2)用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程。 (3)上述(1)和(2)所建立的估计方程,电视广告费用的系数是否相同?对其回归系数分别进行解释。 (4)根据问题(2)所建立的估计方程,在销售收入的总变差中,被估计的回归方程所解释的比例是多少? (5)根据问题(2)所建立的估计方程,检验回归方程的线性关系是否显著α (=

一元线性回归分析报告

实验报告 金融系金融学专业级班 实验人:实验地点:实验日期: 实验题目:进行相应的分析,揭示某地区住宅建筑面积与建造单位成本间的关系 实验目的:掌握最小二乘法的基本方法,熟练运用Eviews软件的一元线性回归的操作,并能够对结果进行相应的分析。 实验内容:实验采用了建筑地编号为1号至12号的数据,通过模型设计、估计参数、检验统计量、回归预测四个步骤对数据进行相关分析。 实验步骤: 一、模型设定 1.建立工作文件。双击eviews,点击File/New/Workfile,在出现的对话框中选择数据 频率,因为该例题中为截面数据,所以选择unstructured/undated,在observations 中设定变量个数,这里输入12。 图1 2.输入数据。在eviews 命令框中输入data X Y,回车出现group窗口数据编辑框,在

对应的X,Y下输入数据,这里我们可以直接将excel中被蓝笔选中的部分用cirl+c 复制,在窗口数据编辑框中1所对应的框中用cirl+v粘贴数据。 图2 3.作X与Y的相关图形。为了初步分析建筑面积(X)与建造单位成本(Y)的关系, 可以作以X为横坐标、以Y为纵坐标的散点图。方法是同时选中工作文件中的对象X和Y,双击得X和Y的数据表,点View/Graph/scatter,在File lines中选择Regressions line/ok(其中Regressions line为趋势线)。得到如图3所示的散点图。 图3 散点图

从散点图可以看出建造单位成本随着建筑面积的增加而降低,近似于线性关系,为分析建造单位成本随建筑面积变动的数量规律性,可以考虑建立如下的简单线性回归模型: 二、估计参数 假定所建模型及其中的随机扰动项满足各项古典假定,可以用OLS法估计其 参数。Eviews软件估计参数的方法如下: 在eviews命令框中键入LS Y C X,按回车,即出现回归结果。 Eviews的回归结果如图4所示。 图4 回归结果 可用规范的形式将参数估计和检验结果写为: (19.2645)(4.8098) t=(95.7969)(-13.3443) 0.9468 F=178.0715 n=12

用Excel做线性回归分析报告

用Excel进行一元线性回归分析 Excel功能强大,利用它的分析工具和函数,可以进行各种试验数据的多元线性回归分析。本文就从最简单的一元线性回归入手. 在数据分析中,对于成对成组数据的拟合是经常遇到的,涉及到的任务有线性描述,趋势预测和残差分析等等。很多专业读者遇见此类问题时往往寻求专业软件,比如在化工中经常用到的Origin和数学中常见的MATLAB等等。它们虽很专业,但其实使用Excel就完全够用了。我们已经知道在Excel自带的数据库中已有线性拟合工具,但是它还稍显单薄,今天我们来尝试使用较为专业的拟合工具来对此类数据进行处理。 文章使用的是2000版的软件,我在其中的一些步骤也添加了2007版的注解. 1 利用Excel2000进行一元线性回归分析 首先录入数据. 以连续10年最大积雪深度和灌溉面积关系数据为例予以说明。录入结果见下图(图1)。 图1 第二步,作散点图 如图2所示,选中数据(包括自变量和因变量),点击“图表向导”图标;或者在“插入”菜单中打开“图表(H)(excel2007)”。图表向导的图标为。选中数据后,数据变为蓝色(图2)。

图2 点击“图表向导”以后,弹出如下对话框(图3): 图3 在左边一栏中选中“XY散点图”,点击“完成”按钮,立即出现散点图的原始形式(图4):

灌溉面积y(千亩) 01020304050600 10 20 30 灌溉面积y(千亩) 图4 第三步,回归 观察散点图,判断点列分布是否具有线性趋势。只有当数据具有线性分布特征时,才能采用线性回归分析方法。从图中可以看出,本例数据具有线性分布趋势,可以进行线性回归。回归的步骤如下: ⑴ 首先,打开“工具”下拉菜单,可见数据分析选项(见图5)(2007为”数据”右端的”数据分析”): 图5 用鼠标双击“数据分析”选项,弹出“数据分析”对话框(图6):

第6章 相与回归分析习题解答

第六章 相关与回归分析 思考与练习 一、判断题 1.产品的单位成本随着产量增加而下降,这种现象属于函数关系。 答:错。应是相关关系。单位成本与产量间不存在确定的数值对应关系。 2.相关系数为0表明两个变量之间不存在任何关系。 答:.错。相关系数为零,只表明两个变量之间不存在线性关系,并不意味着两者间不存在其他类型的关系。 3.单纯依靠相关与回归分析,无法判断事物之间存在的因果关系。 答:对,因果关系的判断还有赖于实质性科学的理论分析。 4.圆的直径越大,其周长也越大,两者之间的关系属于正相关关系。 答:错。两者是精确的函数关系。 5.总体回归函数中的回归系数是常数,样本回归函数中的回归系数的估计量是随机变量。 答:对。 6.当抽取的样本不同时,对同一总体回归模型估计的结果也有所不同。 答:对。因为,估计量属于随机变量,抽取的样本不同,具体的观察值也不同,尽管使用的公式相同,估计的结果仍然不一样。 二、选择题 1.变量之间的关系按相关程度分可分为:b 、c 、d a.正相关; b. 不相关; c. 完全相关; d.不完全相关; 2.复相关系数的取值区间为:a a. 10≤≤R ; b.11≤≤-R ; c.1≤≤∞-R ; d.∞≤≤-R 1 3.修正自由度的决定系数a 、b 、d a.2 2R R ≤; b.有时小于0 ; c. 102 ≤≤R ; d.比2 R 更适合作为衡量回归方程拟合程度的指标 4.回归预测误差的大小与下列因素有关:a 、b 、c 、d a 样本容量; b 自变量预测值与自变量样本平均数的离差 c 自变量预测误差; d 随机误差项的方差 三、问答题 1.请举一实例说明什么是单相关和偏相关?以及它们之间的差别。 答:例如夏季冷饮店冰激凌与汽水的消费量,简单地就两者之间的相关关系进行考察,就是一种单相关,考察的结果很可能存在正相关关系,即冰激凌消费越多,汽水消费也越多。然而,如果我们仔细观察,可以发现一般来说,消费者会在两者中选择一种消费,也就是两者之间事实上应该是负相关。两者之间的单相关关系出现正相关是因为背后还有天气等因素的影响,天气越热,两种冷饮的消费量都越多。如果设法将天气等因素固定不变,单纯考察冰激凌与汽水的消费量,则可能出现负相关关系。像这种假定其他影响因素不变专门考察其中两个因素之间的关系就成为偏相关。 2.讨论以下几种场合,回归方程t t t t u X X Y +++=33221βββ中回归系数的经济意义和应取的符号。 (1)Y t 为商业利润率;X 2t 为人均销售额;X 3t 为流通费用率。

线性回归分析实验报告

实验一:线性回归分析 实验目的:通过本次试验掌握回归分析的基本思想和基本方法,理解最小二乘法的计算步骤,理解模型的设定T检验,并能够根据检验结果对模型的合理性进行判断,进而改进模型。理解残差分析的意义和重要性,会对模型的回归残差进行正态型和独立性检验,从而能够判断模型是否符合回归分析的基本假设。 实验内容:用线性回归分析建立以高血压作为被解释变量,其他变量作为解释变量的线性回归模型。分析高血压与其他变量之间的关系。 实验步骤: 1、选择File | Open | Data 命令,打开gaoxueya.sav 图1-1 数据集gaoxueya 的部分数据 2、选择Analyze | Regression | Linear…命令,弹出Linear Regression (线性回归) 对话框,如 图1-2所示。将左侧的血压(y)选入右侧上方的Dependent(因变量) 框中,作为被解释变量。再分别把年龄(x1)、体重(x2)、吸烟指数(x3)选入Independent (自变量)框中,作为解释变量。在Method(方法)下拉菜单中,指定自变量进入分析的方法。 图1-2 线性回归分析对话框 3、单击Statistics按钮,弹出Linear Regression : Statistics(线性回归分析:统计量)对话框,如图1-3所示。

1-3线性回归分析统计量对话框 4、单击 Continue 回到线性回归分析对话框。单击Plots ,打开Linear Regression:Plots (线性回归分析:图形)对话框,如图1-4所示。完成如下操作。 图1-4 线性回归分析:图形对话框 5、单击Continue ,回到线性回归分析对话框,单击Save按钮,打开Linear Regression;Save 对话框,如图1-5所示。完成如图操作。 图1-5 线性回归分析:保存对话框

应用回归分析-第6章课后习题参考答案

第6章多重共线性的情形及其处理 思考与练习参考答案 6.1 试举一个产生多重共线性的经济实例。 答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。 6.2多重共线性对回归参数的估计有何影响? 答:1、完全共线性下参数估计量不存在; 2、近似共线性下OLS估计量非有效; 3、参数估计量经济含义不合理; 4、变量的显著性检验失去意义; 5、模型的预测功能失效。 6.3 具有严重多重共线性的回归方程能不能用来做经济预测? 答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。 6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系? 答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。 6.5 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造设计矩阵X才可能避免多重共线性的出现? 答:请参考第三次上机实验题——机场吞吐量的多元线性回归模型,注意利用二手数据很难避免多重共线性的出现,所以一般利用逐步回归和主成分回归消除多重共线性。如果进行自己进行试验设计如正交试验设计,并收集数据,选择向量

统计学原理 第六章 相关与回归分析习题

第六章相关与回归分析习题 一、填空题 1.现象之间的相关关系按相关的程度分为、和;按相关的形式分为和;按影响因素的多少分为和。 2.两个相关现象之间,当一个现象的数量由小变大,另一个现象的数量,这种相关称为正相关;当一个现象的数量由小变大,另一个现象的数量,这种相关称为负相关。 3.相关系数的取值范围是。 4.完全相关即是关系,其相关系数为。 5.相关系数,用于反映条件下,两变量相关关系的密切程度和方向的统计指标。 6.直线相关系数等于零,说明两变量之间;直线相关系数等1,说明两变量之间;直线相关系数等于—1,说明两变量之间。 7.对现象之间变量的研究,统计是从两个方面进行的,一方面是研究变量之间关系的,这种研究称为相关关系;另一方面是研究关于自变量和因变量之间的变动关系,用数学方程式表达,称为。 8.回归方程y=a+bx中的参数a是,b是。在统计中估计待定参数的常用方法是。 9. 分析要确定哪个是自变量哪个是因变量,在这点上它与不同。 10.求两个变量之间非线性关系的回归线比较复杂,在许多情况下,非线性回归问题可以通过化成来解决。 11.用来说明回归方程代表性大小的统计分析指标是。 二、单项选择题 1.下面的函数关系是( ) A销售人员测验成绩与销售额大小的关系B圆周的长度决定于它的半径 C家庭的收入和消费的关系D数学成绩与统计学成绩的关系 2.相关系数r的取值范围( ) A -∞

线性回归分析和方差分析报告

线性回归分析和方差分析报告 信计12 徐文豪 2110902039 本报告以教材第二章课后习题2.4和第三章课后习题3.6为主体,给出对应的解答、sas 代码和结果分析。 2.4 某公司管理人员为了了解某化妆品在一个城市的月销售量Y (单位:箱)与该城市中适合使用该化妆品的人数1X (单位:前人)以及他们人均月收入2X (单位:元)之间的关系,在某个月中对15个城市做了调查,得上述各量的观测值如下表所示: 162 274 2450 120 180 3254 223 375 3802 131 205 2838 67 86 2347 169 265 3782 81 98 3008 192 330 2450 116 195 2137 55 53 2560 252 430 4020 232 372 4427 144 236 2660 103 157 2088 212 370 2605 假设Y 与1X ,2X 之间满足线性回归关系 01122i i i i y x x βββε=+++,1,2,,15i = 其中(1,2,15)i i ε=独立通分布于2(0,)N σ。 (1)求回归系数012,,βββ的最小二乘估计和误差方差2σ的估计,写出回归方程并对回归系数作解释。 解:首先将数据导入sas ,sas 语句如下: data sale; input y x1 x2; cards ; 162 274 2450 120 180 3254 223 375 3802 131 205 2838 67 86 2347 169 265 3782 81 98 3008 192 330 2450 116 195 2137 55 53 2560 252 430 4020 232 372 4427 144 236 2660 103 157 2088 212 370 2605 ; run ; 然后调用reg 过程,sas 语句如下:

第五章 回归分析

第五章 回归分析 一、填空题 1、一元线性回归分析的数学模型为 。 2、多元线性回归模型=+Y βX ε中,β的最小二乘估计?β 的协方差矩阵?β Cov()=_______ . 解:1?σ-'2Cov(β)=()X X . 3、为了估计山上积雪溶化后对河流下游灌溉的影响,在山上建立观测站,测得连续10年的观测数据如下表(见表3)。 表3 最大积雪深度与灌溉面积的10年观测数据 则y 关于x 的线性回归模型为 答案: x y 813.1356.2?+= 4、多元线性回归模型=+Y βX ε中,β的最小二乘估计是?β= _______ . 解:1?-''X Y β= ()X X . 5、设由一组观测数据(i i y x ,)(i =1,2,…,n )计算得200,150==y x , 25)(1 2 =-=∑=n i i xx x x l ,∑==--=n i i i xy y y x x l 1 75))((则y 对x 的线性回归方程 为 .

二、简述题 1、回归分析是什么样的一种数学方法?它可以解决什么样的问题? 2、多元线性回归分析的数学模型是什么? 3、一元线性回归分析中检验变量之间有没有线性关系常用的方法有哪几个? 4、线性回归分析的主要内容及应用中注意的问题。 5、如何看待多元统计方法在实际数据处理中的作用与地位。 6、试简要论述线性回归分析包括哪些内容或步骤. 解:建立模型、参数估计、回归方程检验、回归系数检验、变量剔除、预测. 三、单选题 1、在一元回归分析中,判定系数定义为2T S R S = 回 ,则( ). A 2R 接近0时回归效果显著; B 2R 接近1时回归效果显著; C 2R 接近∞时回归效果显著; D 前述都不对. 2、在回归分析中,t 检验主要是用来检验( ) A.回归系数的显著性 B.线性关系的显著性 C.相关系数的显著性 D.估计标准误差的显著性 3、设有一组观测数据(x i ,y i ),i =1,2,…,n ,其散点图呈线性趋势,若要拟合一 元线性回归方程x y 1 0???ββ+=,且n i x y i i ,,2,1,???10 =+=ββ,则估计参数β0,β1时应使( ) A .∑=-n i i i y y 1)(最小 B .∑=-n i i i y y 1)(最大 C .∑=-n i i i y y 1 )?(2 最小 D .∑=-n i i i y y 1 )?(2最大 四、计算题 1、为研究家庭收入X (元)和食品支出Y (元)关系,随机抽取了12个家庭的样本,得到数据如下表

相关分析和一元线性回归分析SPSS报告

用下面的数据做相关分析和一元线性回归分析: 选用普通高等学校毕业生数和高等学校发表科技论文数量做相关分析和一元线性回归分析。 一、相关分析 1.作散点图

普通高等学校毕业生数和高等学校发表科技论文数量的相关图 从散点图可以看出:普通高等学校毕业生数和高等学校发表科技论文数量的相关性很大。 2.求普通高等学校毕业生数和高等学校发表科技论文数量的相关系 数

把要求的两个相关变量移至变量中,因为都是定距数据,选择相关系数中的Pearson,点击确定,可以得到下面的结果:

两相关变量的Pearson相关系数=0.0998,表示呈高度正相关;相关系数检验对应的概率P值=0.000,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性),即毕业生人数好发表科技论文数之间的相关性显著。 3.求两变量之间的相关性

选择相关系数中的全部,点击确定: 注解:两相关变量(毕业生数和发表论文数)的Kendall相关系数=1.000,呈正相关;无相关系数检验对应的概率P值,应接受原假设(两变量之间不具有相关性),即毕业生数与发表论文数之间相关性不显著。 两相关变量(毕业生数和发表论文数)的Spearman相关系数=1.000,呈正相关;无相关系数检验对应的概率P值,应接受原假设(两变量之间不具有相关性),即毕业生数与发表论文数之间相关性不显著。 4.普通高等学校毕业生数和高等学校发表科技论文数量的相关系数

将所求变量移至变量,将控制变量移至控制中,选中显示实际显著性水平,点击确定: Correlations 普通高等学校毕业生数(万人) 高等学校发表科技论文数量(篇)

相关文档
最新文档