北航应用数理统计大作业多元线性回归
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元线性回归分析
摘要:本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。并对模型的回归显著性、拟合度、正态分布等分别进行检验,最终得到最优线性回归模型,寻找影响居民消费的各个因素。
关键字:回归分析;线性;相关系数;正态分布
1. 引言
变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。
回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。
回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。
本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。以探求影响居民消费水平的各个因素,得到最优线性回归模型。随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。
本文将分为5章进行论述。在第2章,我们介绍多元线性回归模型的概念。第3章,我们进行模型的建立与数据的收集和整理。我们在第4章对数据进行处理,得出多元线性回归模型,并对其进行检验。在第5章,我们进行总结。2.预备知识
2.1 回归分析
回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。
在实际问题回归分析模型的建立和分析中有几个重要的阶段:
●根据研究的目的设置指标变量
回归分析模型主要是揭示事物间相关变量的数量联系。首先要根据所研究问题的目的设置因变量Y,然后再选取与Y有统计关系的一些变量作为自变量。
●收集、整理统计数据
回归分析模型的建立是基于回归变量的样本统计数据。当确定好回归模型的变量之后,就要对这些变量收集、整理统计数据。
●确定理论回归模型的数学形式
当收集到所设置的变量的数据之后,就要确定适当的数学形式来描述这些变量之间的关系。如果因变量与自变量的散点图近似一条直线,可考虑用线性回归模型去拟合这条直线,如果二者之间无线性关系,则需要使用非线性模型构造回归模型。
●模型参数的估计
回归理论模型确定之后,便可以利用收集、整理的样本数据对模型的未知参数给出估计。位置参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。
●模型的检验
当模型的位置参数估计出来后,需要通过对模型的检验才能决定参数估计是否合适。模型的检验一般需要进行统计检验和模型经济意义的检验。统计检验是对回归方程的显著性检验、以及回归系数的显著性检验,还有拟合优度的检验,残差的独立性检验等。
●回归模型的运用
当一个问题的回归模型通过了各种统计检验,且模型具有合理的经济意义时,就可以运用这个模型来进一步研究此问题。在客观问题的研究中,我们需要参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在客观问题研究中得到正确运用。
2.2 多元回归分析
一元线性回归模型研究的是某一个因变量和一个自变量之间的关系问题,但在实际中,因变量的变化常常受到不止一个自变量的影响,可能同时有两个或两个以上的自变量对因变量的变化产生影响。这种研究某一个因变量和多个自变量之间的相互关系的理论和方法就是多元线性回归分析方法,它是一元线性模型的拓展。
设随机变量Y与P(P≥2)个一般变量X1,X2,…,X P的线性回归模型可表示为:
Y=β0+β1X1+β2X2+⋯+βP X P+ε
β0称为回归常数,β1,…,βP称为偏回归系数,他们决定了因变量Y与自变量X1,X2,…,X P的线性关系的具体形式;ε是随机误差,满足ε~N(0,σ2)。
如果获得满足条件
ε=(ε1
ε2
⋮
εn
)
n×1
{
Y=Xβ+ε
E(ε)=0,D(ε)=σ2I n
Qε
σ2
~χ2(n−p−1)
的n组观测数据(x i1,x i2,…,x ip;y i),其中i=1,2,…,n,则线性回归模型可表示为
y i=β0+β1x i1+β2x i2+⋯+βP x iP+εi
其中i=1,2,…,n。
上式写成方程组形式为
{y1=β0+β1x11+β2x12+⋯+βP x1P+ε1 y2=β0+β1x21+β2x22+⋯+βP x2P+ε2
…
y n=β0+β1x n1+β2x n2+⋯+βP x nP+εn
记Y=(y1
y2
⋮
y n
)
n×1
,X=
(
1x11x12⋯x1p
1x21x22⋯x2p
⋮
1
⋮
x n1
⋮
x n2
⋱
⋯
⋮
x np
)
,β=(
β0
β1
⋮
βp
)
(p+1)×1
,ε=(
ε1
ε2
⋮
εn
)
n×1
则回归模型成为{
Y=Xβ+ε
E(ε)=0,D(ε)=σ2I n。
3.模型建立与数据收集
本文根据不同地区居民消费的影响因素进行分析,寻找居民消费水平与各个因素间的关系。根据回归模型的具体实现步骤,进行如下模型建立与数据收集工作。
3.1 设置指标变量
现实生活中,影响一个地区居民消费的因素有很多。从人口、财政收入、财政支出、能源、产业结构,到各个项目的居民消费支出,都将会影响到此地区军民的消费。根据现实生活的经验,我们分别选择各地区人均生产总值、职工平均工资、食品花费、衣着花费、居住花费、医疗花费、教育花费、失业人员人数以及人均电力耗费量等9个解释变量研究城镇居民家庭平均每人全年的消费性支出。解释变量具体为:
X1:各地区人均生产总值(单位:元)
X2:各地区职工平均工资(单位:元)
X3:各地区食品花费(单位:元)
X4:各地区衣着花费(单位:元)
X5:各地区居住花费(单位:元)
X6:各地区医疗花费(单位:元)
X7:各地区教育花费(单位:元)
X8:各地区失业人员(单位:万人)