回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主要内容
•SPSS(Statistical Product and Service Solutions)软件应用•回归分析
•方差分析
•计算机模拟
SPSS简介
SPSS社会科学统计软件包是世界上流行的三大统计软件之一。有美国Stanford 大学的三位研究生于20世纪60年代研制开发的、最早的统计分析软件。
统计学是一门关于大量数据资料如何进行搜索、整理和分析的方法论科学,其目的是探索数据和数量规律性。但在进行统计分析时,涉及到的变量和样本数据常常很多,计算量也很大。
主要介绍变量定义、数据录入、统计图的绘制和简单的统计分析以及结果的保存和导出。
相关分析和回归分析、方差分析、聚类分析、判别分析、主成分分析与因子分析。
偏度系数:当偏度为正值时,分布向大于平均数方向偏斜;偏度为负值时,向小于平均数方向偏斜;当偏度的绝对值大于2时,分布的偏斜程度严重。当峰度大于3时,分布比较陡峭,峰态明显,总体变数的分布比较集中。
第6章回归分析
许多实际问题往往需要对大量数据进行分析,尤为重要的是统计分析(statistical analysis)。如统计预报中的预测、经验公式中的参数确定等等,常常用到各种统计方法。回归分析(regression analysis)是研究各变量间相互关系的一种统计方法。
引例:
在回归分析中,分析者所关心的问题有以下几个方面:
(1) 拟合:建立因变量与自变量之间有效的经验函数关系,为进一步的研究提供线索; (2) 变量选择:在一批自变量中确定哪些变量确实对因变量有影响,而哪些没有的影响; (3) 估计与检验:估计回归模型中的未知参数,并且对模型提出的各种假设进行推断; (4) 预测:根据已经观测的数据来预测因变量在未经观测的自变量上的值。 回归分析是对拟合问题做统计分析。
本章主要介绍一元或多元线性回归以及非线性回归的基本方法,介绍怎样使用MATLAB 软件进行回归分析,并且应用回归方程对因变量进行各种预测。 1 回归模型及回归分析
1.1 一元线性、非线性回归模型
一元线性回归模型:2;~(0,)
Y a bx N εεσ=++⎧⎨⎩ 或 ),(~2σbx a N Y + 称Y 与x 之间存在线性回归关系,其中的参数a 和b 称为一元线性回归的回归系数。 解决的问题归纳为以下几个方面:
1) 在回归模型中如何估计参数a 、b 和 σ2
? 2) 建模的假设是否正确?
3) 如何应用所求的回归方程对试验指标进行预测? 1. 回归系数a 、b 的最小二乘估计
已知观测值为 (,)x y i i (i =1,2,…,n)。将它代入回归模型中有如下关系: y a bx i i i =++ε 其中i = 1,2,…,n。 采用最小二乘法,求观测值与期望值的离差平方和最小。
min (,)[()]Q a b y a bx i i n
i =-+=∑1
2
求出的解记为 a b ∧∧
,,回归方程为: y a b x ∧∧∧
=+。
(可用MATLAB 软件求解) 2. 回归模型的统计检验
回归模型的假设(f(x)= a+bx )是否成立?该问题可转化为对系数b 提出假设,
0:;0:10≠=b H b H
0H 称为原假设,1H 称为备折原假设。然后判断H 0是否成立,这就是假设检验问题。有两种检验方
法:
假设检验:在总体分布函数完全未知或只知其形式,但不知其参数的情况下,为了推断总体的某些未知特征,提出某些关于总体的假设,例如,提出总体服从泊松分布的假设,又如对于正态分布,提出数学期望等于0μ的假设,我们对所提出的假设作出是接受,还是拒绝的决策。假设检验是作出这一决策的过程。
然而,由于作出决策的依据是一个样本,当实际上0H 为真时,仍有可能作出拒绝0H 的决策,这是一种错误。我们无法排除犯这类错误的可能性。因此,自然希望将犯这类错误的概率控制在一定范围限度内,即给出一个较小的数α(0<α<1),使犯错误的概率不超过α。
{}α≤00H H P 为真拒绝当
α称为显著性水平,α取值一般为0.1,0.05,0.01,1-α称为置信区间。 如果检验拒绝0H ,说明回归方程有效,可用于对因变量的值进行预测。
1) 相关系数检验法
在概率论中,相关系数(correlation coefficient)计算公式为:
DY DX Y X r ⋅=
)
,cov(,它反映了X 与Y 线性相关密切程度的数量指标。但计算它需要用X ,Y 的联合分布函数,而许多实际问题事先并不知道它的分布规律。因此,需用样本相关系数的计算公式:
yy
xx xy n
i i
n
i i
n
i i i
L L L y y
x x
y y x x
r
=
-⋅
---=∑∑∑===1
2
1
2
1
)
()()
)((ˆ, r
ˆ是r 的一个点估计值。 其中 1|ˆ|0≤≤r
,当 |ˆ|r 越接近于1时,说明X 与Y 的线性关系就越显著;当 |ˆ|r 靠近零时,表明X 与Y 的线性关系不明显。或者X 与Y 之间可能是非线性的关系,或者是两者根本不存在什么关系。
检验上述原假设 0:0=b H ,其拒绝域为: )}2(|ˆ{|0->=n r r αχ,
α为检验水平。
2) F 检验法
平方和分解公式:
∑∑∑===-+-=-n
i i n i i i n
i i
y y y
y y y
1
21
2
1
2
)ˆ()ˆ()(
简记为: U Q L yy += 其中 Q 被称为残差平方和(residual sum of squares), U 被称为回归平方和(regressive sum of squares)。
考虑检验假设 0:;0:10≠=b H b H 。在 0H 为真时,可证明:
)}2,1({)
2,1(~)
2/(10->=--=
-n F F n F n Q U
F αχ拒绝域
自由度即相互独立,且服从N (0,1)的随机变量的个数。总偏差平方和的自由度=总观测个数-1=n-1;回归平方和的自由度=回归系数个数-1 = 2-1 = 1;残差平方和的自由度 = n-1-1 = n-2;
(,)F m n α 的值 可用函数FINV(P,V1,V2)。
上述检验法只是针对一元线性回归模型。
注意:
1. 对多元线性回归模型,同样存在类似的F 检验法和相关系数检验法。
称
∑∑==--=
n i i
n
i i
y y y y
r 12
12
)()ˆ(为多元线性回归的复相关系数(multiple correlation coefficient)。
2. 回归分析的计算工作量大,现在已有多种用于进行回归分析的计算机软件可供使用,比如:
MATLAB 、SAS 、SPSS 、EXEL 等。本节只介绍MATLAB 的使用方法。 3. 回归模型应用