回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

主要内容

•SPSS(Statistical Product and Service Solutions)软件应用•回归分析

•方差分析

•计算机模拟

SPSS简介

SPSS社会科学统计软件包是世界上流行的三大统计软件之一。有美国Stanford 大学的三位研究生于20世纪60年代研制开发的、最早的统计分析软件。

统计学是一门关于大量数据资料如何进行搜索、整理和分析的方法论科学,其目的是探索数据和数量规律性。但在进行统计分析时,涉及到的变量和样本数据常常很多,计算量也很大。

主要介绍变量定义、数据录入、统计图的绘制和简单的统计分析以及结果的保存和导出。

相关分析和回归分析、方差分析、聚类分析、判别分析、主成分分析与因子分析。

偏度系数:当偏度为正值时,分布向大于平均数方向偏斜;偏度为负值时,向小于平均数方向偏斜;当偏度的绝对值大于2时,分布的偏斜程度严重。当峰度大于3时,分布比较陡峭,峰态明显,总体变数的分布比较集中。

第6章回归分析

许多实际问题往往需要对大量数据进行分析,尤为重要的是统计分析(statistical analysis)。如统计预报中的预测、经验公式中的参数确定等等,常常用到各种统计方法。回归分析(regression analysis)是研究各变量间相互关系的一种统计方法。

引例:

在回归分析中,分析者所关心的问题有以下几个方面:

(1) 拟合:建立因变量与自变量之间有效的经验函数关系,为进一步的研究提供线索; (2) 变量选择:在一批自变量中确定哪些变量确实对因变量有影响,而哪些没有的影响; (3) 估计与检验:估计回归模型中的未知参数,并且对模型提出的各种假设进行推断; (4) 预测:根据已经观测的数据来预测因变量在未经观测的自变量上的值。 回归分析是对拟合问题做统计分析。

本章主要介绍一元或多元线性回归以及非线性回归的基本方法,介绍怎样使用MATLAB 软件进行回归分析,并且应用回归方程对因变量进行各种预测。 1 回归模型及回归分析

1.1 一元线性、非线性回归模型

一元线性回归模型:2;~(0,)

Y a bx N εεσ=++⎧⎨⎩ 或 ),(~2σbx a N Y + 称Y 与x 之间存在线性回归关系,其中的参数a 和b 称为一元线性回归的回归系数。 解决的问题归纳为以下几个方面:

1) 在回归模型中如何估计参数a 、b 和 σ2

? 2) 建模的假设是否正确?

3) 如何应用所求的回归方程对试验指标进行预测? 1. 回归系数a 、b 的最小二乘估计

已知观测值为 (,)x y i i (i =1,2,…,n)。将它代入回归模型中有如下关系: y a bx i i i =++ε 其中i = 1,2,…,n。 采用最小二乘法,求观测值与期望值的离差平方和最小。

min (,)[()]Q a b y a bx i i n

i =-+=∑1

2

求出的解记为 a b ∧∧

,,回归方程为: y a b x ∧∧∧

=+。

(可用MATLAB 软件求解) 2. 回归模型的统计检验

回归模型的假设(f(x)= a+bx )是否成立?该问题可转化为对系数b 提出假设,

0:;0:10≠=b H b H

0H 称为原假设,1H 称为备折原假设。然后判断H 0是否成立,这就是假设检验问题。有两种检验方

法:

假设检验:在总体分布函数完全未知或只知其形式,但不知其参数的情况下,为了推断总体的某些未知特征,提出某些关于总体的假设,例如,提出总体服从泊松分布的假设,又如对于正态分布,提出数学期望等于0μ的假设,我们对所提出的假设作出是接受,还是拒绝的决策。假设检验是作出这一决策的过程。

然而,由于作出决策的依据是一个样本,当实际上0H 为真时,仍有可能作出拒绝0H 的决策,这是一种错误。我们无法排除犯这类错误的可能性。因此,自然希望将犯这类错误的概率控制在一定范围限度内,即给出一个较小的数α(0<α<1),使犯错误的概率不超过α。

{}α≤00H H P 为真拒绝当

α称为显著性水平,α取值一般为0.1,0.05,0.01,1-α称为置信区间。 如果检验拒绝0H ,说明回归方程有效,可用于对因变量的值进行预测。

1) 相关系数检验法

在概率论中,相关系数(correlation coefficient)计算公式为:

DY DX Y X r ⋅=

)

,cov(,它反映了X 与Y 线性相关密切程度的数量指标。但计算它需要用X ,Y 的联合分布函数,而许多实际问题事先并不知道它的分布规律。因此,需用样本相关系数的计算公式:

yy

xx xy n

i i

n

i i

n

i i i

L L L y y

x x

y y x x

r

=

-⋅

---=∑∑∑===1

2

1

2

1

)

()()

)((ˆ, r

ˆ是r 的一个点估计值。 其中 1|ˆ|0≤≤r

,当 |ˆ|r 越接近于1时,说明X 与Y 的线性关系就越显著;当 |ˆ|r 靠近零时,表明X 与Y 的线性关系不明显。或者X 与Y 之间可能是非线性的关系,或者是两者根本不存在什么关系。

检验上述原假设 0:0=b H ,其拒绝域为: )}2(|ˆ{|0->=n r r αχ,

α为检验水平。

2) F 检验法

平方和分解公式:

∑∑∑===-+-=-n

i i n i i i n

i i

y y y

y y y

1

21

2

1

2

)ˆ()ˆ()(

简记为: U Q L yy += 其中 Q 被称为残差平方和(residual sum of squares), U 被称为回归平方和(regressive sum of squares)。

考虑检验假设 0:;0:10≠=b H b H 。在 0H 为真时,可证明:

)}2,1({)

2,1(~)

2/(10->=--=

-n F F n F n Q U

F αχ拒绝域

自由度即相互独立,且服从N (0,1)的随机变量的个数。总偏差平方和的自由度=总观测个数-1=n-1;回归平方和的自由度=回归系数个数-1 = 2-1 = 1;残差平方和的自由度 = n-1-1 = n-2;

(,)F m n α 的值 可用函数FINV(P,V1,V2)。

上述检验法只是针对一元线性回归模型。

注意:

1. 对多元线性回归模型,同样存在类似的F 检验法和相关系数检验法。

∑∑==--=

n i i

n

i i

y y y y

r 12

12

)()ˆ(为多元线性回归的复相关系数(multiple correlation coefficient)。

2. 回归分析的计算工作量大,现在已有多种用于进行回归分析的计算机软件可供使用,比如:

MATLAB 、SAS 、SPSS 、EXEL 等。本节只介绍MATLAB 的使用方法。 3. 回归模型应用

相关文档
最新文档