案例分析一元线性回归模型
第三章 一元线性回归模型
第三章 一元线性回归模型一、预备知识(一)相关概念对于一个双变量总体,若由基础理论,变量和变量之间存在因果),(i i x y x y 关系,或的变异可用来解释的变异。
为检验两变量间因果关系是否存在、x y 度量自变量对因变量影响的强弱与显著性以及利用解释变量去预测因变量x y x ,引入一元回归分析这一工具。
y 将给定条件下的均值i x i yi i i x x y E 10)|(ββ+=(3.1)定义为总体回归函数(PopulationRegressionFunction,PRF )。
定义为误差项(errorterm ),记为,即,这样)|(i i i x y E y -i μ)|(i i i i x y E y -=μ,或i i i i x y E y μ+=)|(i i i x y μββ++=10(3.2)(3.2)式称为总体回归模型或者随机总体回归函数。
其中,称为解释变量x (explanatory variable )或自变量(independent variable );称为被解释y 变量(explained variable )或因变量(dependent variable );误差项解释μ了因变量的变动中不能完全被自变量所解释的部分。
误差项的构成包括以下四个部分:(1)未纳入模型变量的影响(2)数据的测量误差(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系(4)纯随机和不可预料的事件。
在总体回归模型(3.2)中参数是未知的,是不可观察的,统计计10,ββi μ量分析的目标之一就是估计模型的未知参数。
给定一组随机样本,对(3.1)式进行估计,若的估计量分别记n i y x i i ,,2,1),,( =10,),|(ββi i x y E 为,则定义3.3式为样本回归函数^1^0^,,ββi y ()i i x y ^1^0^ββ+=n i ,,2,1 =(3.3)注意,样本回归函数随着样本的不同而不同,也就是说是随机变量,^1^0,ββ它们的随机性是由于的随机性(同一个可能对应不同的)与的变异共i y i x i y x 同引起的。
一元线性回归模型案例分析
一元线性回归模型案例分析一元线性回归是最基本的回归分析方法,它的主要目的是寻找一个函数能够描述因变量对于自变量的依赖关系。
在一元线性回归中,我们假定存在满足线性关系的自变量与因变量之间的函数关系,即因变量y与单个自变量x之间存在着线性关系,可表达为:y=β0+ β1x (1)其中,β0和β1分别为常量,也称为回归系数,它们是要由样本数据来拟合出来的。
因此,一元线性回归的主要任务就是求出最优回归系数和平方和最小平方根函数,从而评价模型的合理性。
下面我们来介绍如何使用一元线性回归模型进行案例分析。
数据收集:首先,研究者需要收集自变量和因变量之间关系的相关数据。
这些数据应该有足够多的样本观测值,以使统计分析结果具有足够的统计力量,表示研究者所研究的关系的强度。
此外,这些数据的收集方法也需要正确严格,以避免因相关数据缺乏准确性而影响到结果的准确性。
模型构建:其次,研究者需要利用所收集的数据来构建一元线性回归模型。
即建立公式(1),求出最优回归系数β0和β1,即最小二乘法拟合出模型方程式。
模型验证:接下来,研究者需要对所构建的一元线性回归模型进行验证,以确定模型精度及其包含的统计意义。
可以使用F检验和t检验,以检验回归系数β0和β1是否具有统计显著性。
另外,研究者还可以利用R2等有效的拟合检验统计指标来衡量模型精度,从而对模型的拟合水平进行评价,从而使研究者能够准确无误地判断其研究的相关系数的统计显著性及包含的统计意义。
另外,研究者还可以利用偏回归方差分析(PRF),这是一种多元线性回归分析技术,用于计算每一个自变量对相应因变量的贡献率,使研究者能够对拟合模型中每一个自变量的影响程度进行详细的分析。
模型应用:最后,研究者可以利用一元线性回归模型进行应用,以实现实际问题的求解以及数据挖掘等功能。
例如我们可以使用这一模型来预测某一物品价格及销量、研究公司收益及投资、检测影响某一地区经济发展的因素等。
综上所述,一元线性回归是一种利用单变量因变量之间存在着线性关系来拟合出回归系数的回归分析方法,它可以应用于许多不同的问题,是一种非常实用的有效的统计分析方法。
一元线性回归案例
S=963.191+18.501R
例9. CEO薪水与股本回报率
OLS回归线为 S=963.191+18.501R N=209, R^2=0.0132
企业股本回报率只能解释薪水变异中的 1.3%.
例2. 一个简单的工资方程
美国研究者以1976年的526名美国工人为样 本,OLS回归方程为:
W=-0.90 +0.54 E 这里W单位为美元/小时,E单位为年. E平均工资计算为5.90美元/小时. 根据消费者价格指数,这一数值相当于2003
年的19.06美元.
例2. 一个简单的工资方程
对同样的数据,但是把log(w)作为因变量, 得到的回归方程为:
Log(invpc)=-0.550+1.24log(price) (0.043) (0.382)
N=42 R^2=0.208 显著性检验不明显,事实上这一关系也是错误的,未
来我们将加上时间序列分析中特有的趋势分析说 名这个问题.
例8. 集装箱吞吐量与外贸额
2001-2006年中国集装箱吞吐量增长与外贸 额增长的弹性分析.以Y表示集装箱吞吐量( 百万标准箱),X表示外贸额(百亿美元).
出勤率无关,但这几乎不可能.
例5. 学校的数学成绩与学校午餐项目
以math10表示高中十年级学生在一次标准化 数学考试中通过的百分比.lnchprg表示有资 格接受午餐计划的学生的百分比.
若其他条件不变,若学生太贫穷不能保证正常 饮食,可以有资格接受学校午餐项目的资助, 他的成绩应有所提高.
例5. 学校的数学成绩与学校午餐项目
1992-1993学年美国密歇根州408所高中的 数据的OLS回归方程:
一元线性回归模型典型例题分析
第二章 一元线性回归模型典型例题分析例1、令kids 表示一名妇女生育孩子的数目,educ 表示该妇女接受过教育的年数。
生育率对教育年数的简单回归模型为μββ++=educ kids 10(1)随机扰动项μ包含什么样的因素?它们可能与教育水平相关吗?(2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。
例2.已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为所受教育水平(年)。
随机扰动项μ的分布未知,其他所有假设都满足。
如果被解释变量新员工起始薪金的计量单位由元改为100元,估计的截距项与斜率项有无变化?如果解释变量所受教育水平的度量单位由年改为月,估计的截距项与斜率项有无变化?例3.对于人均存款与人均收入之间的关系式t t t Y S μβα++=使用美国36年的年度数据得如下估计模型,括号内为标准差:)011.0()105.151(067.0105.384ˆtt Y S +==0.538 023.199ˆ=σ (1)β的经济解释是什么?(2)α和β的符号是什么?为什么?实际的符号与你的直觉一致吗?如果有冲突的话,你可以给出可能的原因吗?(3)对于拟合优度你有什么看法吗? (4)检验统计值?例4.下列方程哪些是正确的?哪些是错误的?为什么?⑴ y xt n t t=+=αβ12,,, ⑵ yx t n t tt=++=αβμ12,,, ⑶ y x t n t t t=++= ,,,αβμ12⑷ ,,,y x t n t t t =++=αβμ12 ⑸ y x t n t t =+= ,,,αβ12 ⑹ ,,,y x t n t t=+=αβ12 ⑺ y x t n t t t =++= ,,,αβμ12 ⑻ ,,,y x t n t t t=++=αβμ12 其中带“^”者表示“估计值”。
例5.对于过原点回归模型i i i u X Y +=1β ,试证明∑=∧221)(iu X Var σβ例6、对没有截距项的一元回归模型i i i X Y μβ+=1称之为过原点回归(regression through the origin )。
8.2 一元线性回归模型及其应用教案
8.2 一元线性回归模型及其应用一、教学目标知识与技能从相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤.过程与方法在发现直接求回归直线方程存在缺陷的基础上,引导学生去发现解决问题的新思路——进行回归分析,进而介绍残差分析的方法和利用R2来表示解释变量对于预报变量变化的贡献率.情感、态度与价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,掌握处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识解决实际问题的能力.教学中适当地利用学生的合作与交流,使学生在学习的同时,体会与他人合作的重要性.二、教学重难点教学重点:从残差分析、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;教学难点:了解评价回归效果的两个统计量:相关指数、残差和残差平方和.三、教学过程(一)新课导入(幻灯片)上表是上一节课我们从某大学选取8名女大学生其身高和体重数据组成的数据表,在上一节课中我们通过数据建立了回归直线方程,并根据方程预测了身高为172 cm的女大学生的体重.当时,我们提到根据回归直线方程求得的体重数据,仅是一个估计值,其与真实值之间存在着误差,为了综合分析身高和体重的关系,我们引入了线性回归模型y=bx+a+e 来表示两变量之间的关系,其中e为随机变量,又称随机误差.线性回归模型y=bx+a+e 增加了随机误差项e,因变量y的值由自变量x和随机误差e共同确定.假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上.但是,在图中,数据点并没有完全落在回归直线上.这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了,即自变量x 只能解释部分y 的变化. 同学们考虑一下,随机变量e 的均值是多少?方差又是多少? 活动设计:学生思考回答问题.设计意图:说明研究随机误差e 的必要性,通过研究随机误差e 可以分析预报值的可信度. 提出问题:既然可以用随机变量e 的方差来衡量随机误差的大小,即通过方差σ2来刻画预报变量(体重)的变化在多大程度上与随机误差有关,那么如何获得方差σ2呢? 活动结果:可以采用抽样统计的思想,通过随机变量e 的样本来估计σ2的大小. 设计目的:复习抽样统计思想,以便通过随机变量e 的样本来估计总体.探究新知提出问题:既然e 表示了除解释变量以外其他各种影响预报值的因素带来的误差,那么如何获得e 的样本来计算σ2呢? 学生活动:分组合作讨论交流.学情预测:由函数模型y ^=b ^x +a ^和回归模型y =bx +a +e 可知e =y -y ^,这样根据图表中女大学生的身高求出预报值,再与真实值作差,即可求得e 的一个估计值.教师:由于在计算回归直线方程时,利用公式求得的b ^和a ^为斜率和截距的估计值,它们与真实值a 和b 之间存在误差,因此y ^是估计值,所以e ^=y -y ^也是一个估计值. 由上可知,对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…n ,称其估计值e ^i =y i -y ^i 为相应于点(x i ,y i )的残差.将所有残差的平方加起来,这个和称作残差平方和. 类比样本方差估计总体方差的思想,可以用 作为σ2的估计量,通常,σ^2越小,预报精度越高.这样,当我们求得回归直线方程后,可以通过残差来判断模型拟合程度的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析. 设计目的:通过问题诱思,引入残差概念.(二)探索新知提出问题:对照女大学生的身高和体重的原始数据,结合求出的回归直线方程,求出相应的残差数据. 活动结果:提出问题:根据表格中的数据,以样本编号为横坐标,残差值为纵坐标,做出散点图(这样的散点图称作残差图).学生活动:分组合作,共同完成. 活动结果:残差图提出问题:观察上面的残差图,你认为哪几个样本点在采集时可能存在人为的错误?为什么?学生活动:分组讨论.活动结果:第一个和第六个样本点在采集过程中可能存在错误,因为其他的样本点基本都集中在一个区域内,只有这两个样本点的残差比较大,相对其他样本点来说,分布得较为分散. 提出问题:如何从残差图来判断模型的拟合程度? 学生活动:独立思考也可相互讨论. 活动结果:因为σ^2越小,预报精度越高,即模型的拟合程度越高,而σ^ 2越小,e ^的取值越集中,故若残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,且带状区域的宽度越窄,说明拟合精度越高,回归直线的预报精度越高.教师:在统计学上,人们经常用相关指数R 2来刻画回归的效果,其计算公式是:相关指数提出问题:分析上面计算相关指数R 2的公式,如何根据R 2来判断模型的拟合效果?22121()1()nii i n ii yy R yy ==-=--∑∑学生活动:独立思考也可相互讨论,教师加以适当的引导提示.活动结果:R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.提出问题:在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近1,表示回归的效果越好,即解释变量和预报变量的线性相关性越强,试计算关于女大学生身高与体重问题中的相关指数R2.提出问题:结合我们刚学习的概念,现在能否将建立回归模型的步骤补充完整?学生活动:讨论交流,合作完成.活动结果:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性,等等).若存在异常,则检查数据是否有误,或模型是否合适等.设计意图:设计问题,让学生讨论分析,得出使用回归方程进行预报需注意的问题,并让学生完善建立回归模型的步骤.在这个过程中,教师不宜做太多引导,要放手给学生,让学生讨论,充分参与进来.运用新知例1 一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?解:(1)根据表中数据作出散点图如下:散点图由散点图可知变量之间具有线性相关关系,可以通过求线性回归方程来拟合数据. 根据公式可求得加工时间对零件数的线性回归方程为y ^=0.668x +54.96. 残差数据如下表:(2)画出残差图残差图由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好,但需注意,由残差图也可以看出,第4个样本点和第5个样本点残差较大,需要确认在采集这两个样本点的过程中是否有人为的错误.点评:由散点图判断两个变量的线性相关关系,误差较大,利用残差图可以较好地评价模型的拟合程度,并能发现样本点中的可疑数据. 变练演编例2 在一段时间内,某种商品的价格x (元)和需求量y (件)之间的一组数据为:求出y 对x 的回归方程,并说明拟合效果的好坏. 解:作出散点图:从作出的散点图可以看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得x =18,y =45.4,由计算公式得b ^=-2.35,a ^=y -b ^x =87.7. 故y 对x 的回归方程为y ^=-2.35x +87.7,列表:y i -y ^i 1.2 -0.1 -2.4 0.3 1 y i -y10.64.6-2.4-4.4-8.4相关指数R 2≈0.946.因为0.964很接近1,所以该模型的拟合效果很好.变式1:若要分析是否在上述样本的采集过程中存在可疑数据,应如何分析? 活动设计:学生分组讨论,回顾课本解答问题. 活动成果:可以画出残差图来进行分析.变式2:既然利用残差图和相关指数都能够评价回归模型的拟合效果,能否总结一下两种方法各自的特点?活动成果:利用残差图可以直观展示拟合的效果,而且还可以发现样本数据中的可疑数据;而相关指数是把对拟合效果的评价转换为数值大小的判断,易于量化处理,并能在数量上表现解释变量对于预报变量变化的贡献率.设计意图:进一步熟悉判断拟合效果的方法以及各自的特点. 非线性回归分析2.现收集了一只红铃虫的产卵数y 和温度xoC 之间的7组观测数据列于下表:1)试建立产卵数y 与温度x 之间的回归方程;并预测温度为28oC 时产卵数目。
一元线性回归案例
例8. 集装箱吞吐量与外贸额
2001-2006年中国集装箱吞吐量增长与外贸 额增长的弹性分析.以Y表示集装箱吞吐量 (百万标准箱),X表示外贸额(百亿美元). OLS回归方程为 Y=3.7667+0.509X (2.06) (31.78) t (5)=2.776 n=6 R^2=0.996
0.1
例8. 集装箱吞吐量与外贸额
例8. 集装箱吞吐量与外贸额
2001-2007年中国集装箱吞吐量增长与外贸 额增长的弹性分析.以Y表示集装箱吞吐量 增长率(%),X表示外贸额增长率(%). OLS回归方程为 Y=18.449+0.3155X (2.3982) (1.078) t (5)=2.015 n=7 R^2=0.1887
0.1
例4. 考试分数与出勤率
假如期末考试的分数(score)取决于出勤率 (attend)和影响考试成绩的其他无法观测因素 (如学生能力等): score= β1+β2 attend+u 许多不加分析的回归发现: 这一回归中β2 〈0,即分数与出勤率负相关. 这一模型在什么情况下满足均值独立条件? 除非学生学习能力、学习攻击、年龄及其他因素与 出勤率无关,但这几乎不可能.
例3. 静态菲利普斯曲线
时间序列数据 令inf(t)表示年通货膨胀率,unem(t)表示事业率, 下 列菲利普斯曲线假定了一个不变的自然失业率和 固定的通货膨胀率预期. Inf(t)=β1+β2 unem(t)+u 依据1948-1996年美国经济数据, OLS回归方程为 Inf(t)=1.42+0.468 unem(t) (1.72) (0.289) n=49 R^2=0.053
例5. 学校的数学成绩与学校午餐项目
一元线性回归分析案例
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。
解:1、选取身高为自变量x,体重为因变量y,作散点图:
2、由散点图知道身高和体重有比较好的线性相 关关系,因此可以用线性回归方程刻画它们之间 的关系。
第17页/共39页
课题:选修2-3 8.5 回归分析案例
分析:由于问题中要求根 据身高预报体重,因此选 取身高为自变量,体重为 因变量.
再冷的石头,坐上三年也会暖 !
1. 散点图;
2.回归方程: yˆ 0.849x 85.172 身高172cm女大学生体重 yˆ = 0.849×172 - 85.712 = 60.316(kg)
本例中, r=0.798>0.75.这表明体重与身高有很强的线性相关关系,从而也表明我们 建立的回归模型是有意义的。
xi2
2
nx
,......(2)
i 1
i 1
其中x
1 n
n i 1
xi ,
y
1 n
n i 1
yi .
(x, y) 称为样本点的中心。
第8页/共39页
课题:选修2-3 8.5 回归分析案例
再冷的石头,坐上三年也会暖 !
1、回归直线方程
1、所求直线方程叫做回归直线方程;
相应的直线叫做回归直线。
2、对两个变量进行的线性分析叫做线性回归分析。
然后,我们可以通过残差 e1, e2 , , en 来判断模型拟合的效果,
判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析。
表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。
编号 1
2
3
4
5
计量经济学第二章 一元线性回归模型(1)(肖)
10
2.在经济学中,经济学家要研究个人
消费支出与个人可支配收入的依赖关系。
这种分析有助于估计边际消费倾向,就是
可支配收入每增加一元引起消费支出的平
均变化。
11
3.在企业中,我们很想知道人们对企
业产品的需求与广告费开支的关系。这种
研究有助于估计出相对于广告费支出的需
求弹性,即广告费支出每变化百分之一的
(2.3)
想想:结合表2.1的资料 ,怎样理解式(2.3)
变量Y 的原因, 给定变量X 的值也不能具
体确定变量Y的值, 而只能确定变量Y 的
统计特征,通常称变量X 与Y 之间的这种
关系为统计关系。
16
例如,企业总产出Y 与企业的资本投入
K 、劳动力投入L 之间的关系就是统计关 系。虽然资本K 和劳动力L 是影响产出Y 的两大核心要素,但是给定K 、L 的值并 不能确定产出Y 的值。因为,总产出Y 除 了受资本投入K、劳动力投入L 的影响外
在进入正式的回归理论之前,先斟酌一下变量y与变 量x可以互换的不同名称、术语。 Y 因变量 X 自变量
被解释变量 响应变量
被预测变量
解释变量 控制变量
预测变量
回归子
归回元
22
第二节
一、引例
一元线性回归模型
假定我们要研究一个局部区域的居 民消费问题,该区域共有80户家庭组成 ,将这80户家庭视为一个统计总体。
32
函数f (Xi)采取什么函数形式,是一个
需要解决的重要问题。在实际经济系统
中,我们不会得到总体的全部数据,因
而就无法据已知数据确定总体回归函数 的函数形式。同时,对总体回归函数的 形式只能据经济理论与经验去推断。
一元线性回归分析
一元线性回归分析摘要:一元线性回归分析是一种常用的预测和建模技术,广泛应用于各个领域,如经济学、统计学、金融学等。
本文将详细介绍一元线性回归分析的基本概念、模型建立、参数估计和模型检验等方面内容,并通过一个具体的案例来说明如何应用一元线性回归分析进行数据分析和预测。
1. 引言1.1 背景一元线性回归分析是通过建立一个线性模型,来描述自变量和因变量之间的关系。
通过分析模型的拟合程度和参数估计值,我们可以了解自变量对因变量的影响,并进行预测和决策。
1.2 目的本文的目的是介绍一元线性回归分析的基本原理、建模过程和应用方法,帮助读者了解和应用这一常用的数据分析技术。
2. 一元线性回归模型2.1 模型表达式一元线性回归模型的基本形式为:Y = β0 + β1X + ε其中,Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项。
2.2 模型假设一元线性回归模型的基本假设包括:- 线性关系假设:自变量X与因变量Y之间存在线性关系。
- 独立性假设:每个观测值之间相互独立。
- 正态性假设:误差项ε服从正态分布。
- 同方差性假设:每个自变量取值下的误差项具有相同的方差。
3. 一元线性回归分析步骤3.1 数据收集和整理在进行一元线性回归分析之前,需要收集相关的自变量和因变量数据,并对数据进行整理和清洗,以保证数据的准确性和可用性。
3.2 模型建立通过将数据代入一元线性回归模型的表达式,可以得到回归方程的具体形式。
根据实际需求和数据特点,选择适当的变量和函数形式,建立最优的回归模型。
3.3 参数估计利用最小二乘法或最大似然法等统计方法,估计回归模型中的参数。
通过最小化观测值与回归模型预测值之间的差异,找到最优的参数估计值。
3.4 模型检验通过对回归模型的拟合程度进行检验,评估模型的准确性和可靠性。
常用的检验方法包括:残差分析、显著性检验、回归系数的显著性检验等。
4. 一元线性回归分析实例为了更好地理解一元线性回归分析的应用,我们以房价和房屋面积之间的关系为例进行分析。
数据分析线性回归报告(3篇)
第1篇一、引言线性回归分析是统计学中一种常用的数据分析方法,主要用于研究两个或多个变量之间的线性关系。
本文以某城市房价数据为例,通过线性回归模型对房价的影响因素进行分析,以期为房地产市场的决策提供数据支持。
二、数据来源与处理1. 数据来源本文所采用的数据来源于某城市房地产交易中心,包括该城市2010年至2020年的房价、建筑面积、交通便利度、配套设施、环境质量等指标。
2. 数据处理(1)数据清洗:对原始数据进行清洗,去除缺失值、异常值等。
(2)数据转换:对部分指标进行转换,如交通便利度、配套设施、环境质量等指标采用五分制评分。
(3)变量选择:根据研究目的,选取建筑面积、交通便利度、配套设施、环境质量等指标作为自变量,房价作为因变量。
三、线性回归模型构建1. 模型假设(1)因变量与自变量之间存在线性关系;(2)自变量之间不存在多重共线性;(3)误差项服从正态分布。
2. 模型建立(1)选择合适的线性回归模型:根据研究目的和数据特点,采用多元线性回归模型。
(2)计算回归系数:使用最小二乘法计算回归系数。
(3)检验模型:对模型进行显著性检验、方差分析等。
四、结果分析1. 模型检验(1)显著性检验:F检验结果为0.000,P值小于0.05,说明模型整体显著。
(2)回归系数检验:t检验结果显示,所有自变量的回归系数均显著,符合模型假设。
2. 模型结果(1)回归系数:建筑面积、交通便利度、配套设施、环境质量的回归系数分别为0.345、0.456、0.678、0.523,说明这些因素对房价有显著的正向影响。
(2)R²:模型的R²为0.876,说明模型可以解释约87.6%的房价变异。
3. 影响因素分析(1)建筑面积:建筑面积对房价的影响最大,说明在房价构成中,建筑面积所占的比重较大。
(2)交通便利度:交通便利度对房价的影响较大,说明在购房时,消费者对交通便利性的需求较高。
(3)配套设施:配套设施对房价的影响较大,说明在购房时,消费者对生活配套设施的需求较高。
第二讲 eviews 一元线性回归模型分析
图2.5.3 Workfile工作框
2.命令方式:在命令窗口也可以直接输入建立工作文件的命令 CREATE,命令格式为 CREATE 数据频率 起始期 终止期
其中,数据频率类型分别为 A (年)、 Q (季)、 M (月), U
(非时间序列数据)。输入 EViews 命令时,命令字与命令参数之间 只能用空格分隔。如本例可键入命令: CREATE A 1978 2001。
表2.5.2 统计数据录入结果
数据输入完毕,可以关闭数据输入窗口,点击工作文件窗口工具条 的Save或点击菜单栏的File\Save将数据存入磁盘。
2.5.3 图形分析
1.单方式
在数组窗口工具条上Views的下拉式菜单中选择Graph(图形);
2.命令方式
趋势图:plot
否存在异常值。 图2.5.4给出了表2.5.1中最终消费支出与国内生产总值的趋势图。
图2.5.2 Workfile Range对话框
选择数据类型和起止日期:时间序列提供起止日期 (年、季度、
月度、周、日 ) ,非时间序列提供最大观察个数。本例中在 Start Data 里 键 入 1978 , 在 End Data 里 键 入 2001 。 点 击 OK 后 屏 幕 出 现 Workfile工作框(图2.5.3)。
一元线性回归模型
对于一元线性总体回归模型:
图2.2.1 观测值散点图
普通最小二乘法(OLS)
最小二乘估计量的性质
一个用于考察总体的估计量,可从如下几个方面考察其优劣性:
(1)线性。即它是否是另一个随机变量的线性函数;
(2)无偏性。即它的均值或期望是否等于总体的真实值; (3)有效性。即它是否在所有的线性无偏估计量中具有最小方差; ( 4 )渐近无偏性。即样本容量趋于无穷大时,它的均值序列趋于总体的真
一元线性回归模型案例
一元线性回归模型案例一元线性回归模型是统计学中最基本、应用最广泛的一种回归分析方法,可以用来探究自变量与因变量之间的线性关系。
一元线性回归模型的数学公式为:y = β0 + β1x,其中y表示因变量,x表示自变量,β0和β1分别为截距和斜率。
下面以一个实际案例来说明一元线性回归模型的应用。
假设我们有一组数据,其中x表示一个房屋的面积,y表示该房屋的售价,我们想利用一元线性回归模型来预测房屋的售价。
首先,我们需要收集一组已知数据,包括房屋的面积和售价。
假设我们收集了10个不同房屋的面积和售价数据,如下所示:房屋面积(x)(平方米)售价(y)(万元)80 12090 130100 140110 150120 160130 170140 180150 190160 200170 210我们可以根据这组数据绘制散点图,横坐标表示房屋面积x,纵坐标表示售价y,如下所示:(插入散点图)接下来,我们可以利用最小二乘法来拟合一条直线,使其能够最好地拟合这些散点。
最小二乘法是一种最小化误差平方和的方法,可以得到最优的拟合直线。
根据一元线性回归模型的公式,可以通过计算拟合直线的斜率β1和截距β0来实现最小二乘法。
其中,斜率β1可以通过下式计算得到:β1 = n∑(xiyi) - (∑xi)(∑yi)n∑(xi^2) - (∑xi)^2截距β0可以通过下式计算得到:β0 = (1/n)∑yi - β1(1/n)∑xi通过带入已知数据,我们可以计算得到斜率β1和截距β0的具体值。
在本例中,计算结果如下:β1 ≈ 1.0667β0 ≈ 108.6667最后,利用得到的斜率β1和截距β0,我们可以得到一元线性回归模型的具体公式为:y ≈ 108.6667 + 1.0667x我们可以利用这个回归模型进行预测。
例如,如果有一个房屋的面积为130平方米,那么根据回归模型,可以预测该房屋的售价为170 + 108.6667 ≈ 278.6667万元。
一元线性规划及先关分析案例
3
层次分析法和德尔菲法
哈尔滨城市综合承载力评价指标体系构建
城市综合承载力的评价实质上就是判定该城市现有的承载力能否支撑目前
的人口规模及人类各种经济社会活动的规模和强度。衡量城市综合承载力需
要考虑以下几个方面: 1)环境承载力2)资源承载力3)基础设施承载力4)生态系统承载力5)安全承载 力6)公共服务承载力7)科学技术承载力8)社会文化承载力 通过德尔菲法和参考已有的研究成果等初步确立了1个一级指标,8个二级 指标,49个三级指标,本次参与德尔菲法的专家组由15位专家组成,包括住 建部城市建设司人员3人、城乡规划司人员2人、哈尔滨城乡规划局人员4人 、哈尔滨市政府人员2人、哈尔滨社会研究所人员4人,所有专家都具有多年 的工作经历和丰富的实践经验,充分了解城市发展历程和城市发展动力所在 。应用sPss软件对城市综合承载力评价指标进行相关性检验等一系列优化处
5.采用时间尺度分析的方法,提取交通流的时间一尺度耦合特征考虑到每个网格站点的负载量,得到时间一尺 度耦合元线性回归
基于一元线性回归分析的公路工程企业定额消耗量 推算方法研究
在公路工程施工过程中影响人工消耗量的因素很多,大致可以分为生产条件方面、技术条件方面、组织条件方面三类。而 这些影响条件根据其影响因素变化规律的不同又可分为连续性因素和间断性因素。连续性影响因素的特点是影响因素对于人 工消耗的影响变化是呈连续性渐变的。对于此类问题而言,一元线性回归分析方法是一种很好的分析影响因素带来影响大小 的方法。
3.在上述网络模型分析的基础上,采用 Small—World模型模拟交通拥堵在复杂 路网中的动态演进过程,如图。
1
线性回归
基于线性规划的城市交通流优化调度模型
4.在上述交通路网模型构建的基础上,进行交通流信息特征提取, 信息特征提取之前,采用线性规划方案,对交通网络路网结构进行 线性分割,分割结果,如图
2.4-5 一元线性回归的预测及实例
区间估计思想: 区间估计思想:构造一个已知概率的统计量(如t分布的统 计量)该统计量包含Y0的真实均值和估计量,再将该统计 量取值的置信区间转化为Y0真实均值的置信区间
6
总体条件均值与个值预测值的区间估计 构造统计量
已知
Y0 = β 0 + β 1 X 0
2 ~ N (β , σ ) β1 1 ∑ xi2
E (Y0 ) = E ( β 0 + β 1 X 0 ) = E ( β 0 ) + X 0 E ( β 1 ) = β 0 + β 1 X 0
4
举例
所建立的家庭可支配收入利用 P34 例2.2.1 所建立的家庭可支配收入-消费支出 模型,求家庭可支配收入为6000 6000元时家庭消费支出均值 模型,求家庭可支配收入为6000元时家庭消费支出均值 和个值的预测值。 和个值的预测值
Y0 ( β 0 + β 1 X 0 ) t= ~ t (n 2) S Y
0
其中
S Y
0
1 (X 0 X )2 = σ ( + ) 2 n ∑ xi
2
Why?
8
置信区间的构造过程: 置信区间的构造过程:
易得:
P( t α < t < t α ) = 1 α
2 2
即
等价于
进而 于是,在1-α的置信度下,总体均值 总体均值E(Y|X0)的置信区间为 总体均值 的置信区间为
由P35 表2.2.1 可得: 可得:
10
解续: 解续: 进而,可求得: 进而,可求得:
E(Y|6000)预测值 预测值95%的置信区间为 预测值 的置信区间为
即
11
总体个值预测值的区间估计
第2章一元线性回归模型
布图上的点接近于一条曲线时,称为非线性相关。简单相关按
符号又可分为 正相关 (见图2.3.4 )、负相关 (见图2.3.8 )和零 相关 (见图2.3.6 )。两个变量趋于在同一个方向变化时,即同
增或同减,称为变量之间存在正相关;当两个变量趋于在相反
方向变化时,即当一个变量增加,另一个变量减少时,称为变 量之间存在负相关;当两个变量的变化相互没有关系时,称为
4、普通最小二乘法
为什么要使用OLS? (1)OLS的应用相对简便; (2)以最小化残差平方和为目标在理论很合理; (3)OLS估计量有很多有用的性质。 1)估计的回归线通过Y和X的均值。下列等式总是
ˆ ˆX 严格成立的:设下,可以证明,OLS是 “最优”的估计方法。
2.2.2 最小二乘估计量的性质
一个用于考察总体的估计量,可从如下几个方面考察其
优劣性: (1)线性。即它是否是另一个随机变量的线性函数;
(2)无偏性。即它的均值或期望是否等于总体的真实值;
(3)有效性。即它是否在所有的线性无偏估计量中具有 最小方差; (4)渐近无偏性。 即样本容量趋于无穷大时,它的均值 序列趋于总体的真值; (5)一致性。即样本容量趋于无穷大时,它是否依概率 收敛于总体的真值;
1.总变差的分解
ˆ b ˆX ˆ b Yt的估计值位于估计的回归线 Y t 0 1 t 上,Y围绕其均值的变异 (Y Y )可被分解为两部分:
ˆ Y ) (1) (Y t
ˆ) (2) (Yt Y t
样本回归函数:
3.相关系数检验
(1)变量相关的定义和分类
相关:指两个或两个以上变量间相互关系的程度或强度。
2 2 ˆ e ( Y Y ) i i OLS 最小化 i i 1 i 1
一元回归分析(第1讲)
x )( y i y )
i
x
i 1
n
i
y i nx y
ˆ 3、 1
(x
i 1
x ) yi
( xi x ) 2
OLSE的性质
1、线性:
ˆ 就是指估计量 ˆ0,1为随机变量y i 线性函数即: ˆ 0 ˆ 1 n n ( xi x ) y i
决定系数(coefficient of determination)
r2 SSR SSE 1 SST SST
取值范围:[0,1],越接近1,说明实际观测点离样本线越 近,拟合优度越高。
r2高并不表示模型选择正确。
决定系数的含义
• 可决系数定义为: S S R S S E 1
r2 SST SST SSR SSE 1 SST SST
回归分析的变量
因变量
因变量必须是间距测度等级以上的变量(连续变量)
自变量
自变量可以是间距测度等级以上的变量(连续变 量)、也可以是名义测度等级的变量(分类变量)。 ▲注意: 回归分析对变量的处理方法存在不对称性,即区分应变量 (被解释变量)和自变量(解释变量)。
一元线性回归模型
回归模型建立的步骤
回归分析的参数估计(OLSE)
由此得回归方程:
ˆ ˆ ˆ y i 0 1 xi ˆ y i 称为拟合值或回归值 回归残差: ˆ ei y i y i 残差平方和: e
2
ˆ ( y i y i)
2 i 1
n
ˆ ˆ (y i 0 1 xi ) 2
H1 : 1 0 回归方程显著
2)、构造统计量: SSR F SSE /(n 2)
一元线性回归模型案例
⼀元线性回归模型案例第⼆章⼀元线性回归模型案例⼀、中国居民⼈均消费模型从总体上考察中国居民收⼊与消费⽀出的关系。
表2.1给出了1990年不变价格测算的中国⼈均国内⽣产总值(GDPP)与以居民消费价格指数(1990年为100)所见的⼈均居民消费⽀出(CONSP)两组数据。
1) 建⽴模型,并分析结果。
输出结果为:对应的模型表达式为:201.1070.3862CONSP GDPP =+(13.51) (53.47) 20.9927,2859.23,0.55R F DW ===从回归估计的结果可以看出,拟合度较好,截距项和斜率项系数均通过了t 检验。
中国⼈均消费增加10000元,GDP 增加3862元。
⼆、线性回归模型估计表2.2给出⿊龙江省伊春林区1999年16个林业局的年⽊材采伐量和相应伐⽊剩余物数据。
利⽤该数据(1)画散点图;(2)进⾏OLS 回归;(3)预测。
表2.2 年剩余物y 和年⽊材采伐量x 数据(1)画散点图先输⼊横轴变量名,再输⼊纵轴变量名得散点图(2)OLS估计弹出⽅程设定对话框得到输出结果如图:由输出结果可以看出,对应的回归表达式为:0.76290.4043t t yx =-+ (-0.625) (12.11)20.9129,146.7166, 1.48R F DW === (3)x=20条件下模型的样本外预测⽅法⾸先修改⼯作⽂件范围将⼯作⽂件范围从1—16改为1—17确定后将⼯作⽂件的范围改为包括17个观测值,然后修改样本范围将样本范围从1—16改为1—17打开x的数据⽂件,利⽤Edit+/-给x的第17个观测值赋值为20将Forecast sample选择区把预测范围从1—17改为17—17,即只预测x=20时的y的值。
由上图可以知道,当x=20时,y的预测值是7.32,yf的分布标准差是2.145。
三、表2.3列出了中国1978—2000年的参政收⼊Y和国内⽣产总值GDP的统计资料。
案例:一元线性回归模型实现
一元线性回归模型:案例分析下面用一个实例对本章内容作一简单回顾。
我们将收集中国财政收入和国内生产总值在1978~2006年间的历史数据,然后建立两者的一元线性回归模型,并用最小二乘法对其中的参数进行估计,最后对模型进行一些必要的检验。
一、中国财政收入和国内生产总值的历史数据由经济学等相关学科的理论我们知道,国内生产总值是财政收入的来源,因此财政收入在很大程度上由国内生产总值来决定。
为了考察中国财政收入和国内生产总值之间的关系,我们收集了中国财政收入和国内生产总值在1978~2005年间的历史数据,如表 2.4.1所示。
表2.4.1中国财政收入和国内生产总值数据表单位:亿元年份财政收入(Y) 国内生产总值(X) 年份财政收入(Y) 国内生产总值(X)1978 1132 3624 1992 3483 266521979 1146 4038 1993 4349 345611980 1160 4518 1994 5218 466701981 1176 4860 1995 6242 607941982 1212 5302 1996 7408 711771983 1367 5957 1997 8651 789731984 1643 7207 1998 9876 844021985 2005 8989 1999 11444 896771986 2122 10201 2000 13395 992151987 2199 11955 2001 16386 1096551988 2357 14922 2002 18904 1203331989 2665 16918 2003 21715 1358231990 2937 18598 2004 26396 1598781991 3149 21663 2005 31628 183868我们以X为横轴,Y为纵轴将这些数据的描绘在二维坐标图上,得到如下的散点图(图2.4.1 )。
简单线性相关(一元线性回归分析)
第十三讲简单线性相关(一元线性回归分析)对于两个或更多变量之间的关系,相关分析考虑的只是变量之间是否相关、相关的程度,而回归分析关心的问题是:变量之间的因果关系如何。
回归分析是处理一个或多个自变量与因变量间线性因果关系的统计方法。
如婚姻状况与子女生育数量,相关分析可以求出两者的相关强度以及是否具有统计学意义,但不对谁决定谁作出预设,即可以相互解释,回归分析则必须预先假定谁是因谁是果,谁明确谁为因与谁为果的前提下展开进一步的分析。
一、一元线性回归模型及其对变量的要求(一)一元线性回归模型1、一元线性回归模型示例两个变量之间的真实关系一般可以用以下方程来表示:Y=A+BX+方程中的 A 、B 是待定的常数,称为模型系数,是残差,是以X预测Y 产生的误差。
两个变量之间拟合的直线是:y a bxy 是y的拟合值或预测值,它是在X 条件下 Y 条件均值的估计a 、b 是回归直线的系数,是总体真实直线距,当自变量的值为0 时,因变量的值。
A、B 的估计值, a 即 constant 是截b 称为回归系数,指在其他所有的因素不变时,每一单位自变量的变化引起的因变量的变化。
可以对回归方程进行标准化,得到标准回归方程:y x为标准回归系数,表示其他变量不变时,自变量变化一个标准差单位( Z XjXj),因变量 Y 的标准差的平均变化。
S j由于标准化消除了原来自变量不同的测量单位,标准回归系数之间是可以比较的,绝对值的大小代表了对因变量作用的大小,反映自变量对Y 的重要性。
(二)对变量的要求:回归分析的假定条件回归分析对变量的要求是:自变量可以是随机变量,也可以是非随机变量。
自变量 X 值的测量可以认为是没有误差的,或者说误差可以忽略不计。
回归分析对于因变量有较多的要求,这些要求与其它的因素一起,构成了回归分析的基本条件:独立、线性、正态、等方差。
(三)数据要求模型中要求一个因变量,一个或多个自变量(一元时为 1 个自变量)。
一元线性回归模型案例
一元线性回归模型案例一元线性回归是统计学中常用的一种回归分析方法,用于研究一个自变量和一个因变量之间的线性关系。
在本文中,我们将通过一个实际案例来介绍一元线性回归模型的应用和分析过程。
案例背景:假设我们是某家电商平台的数据分析师,我们希望通过用户的年龄来预测其在平台上的消费金额。
我们收集了100位用户的年龄和其在平台上的消费金额的数据,现在我们希望利用一元线性回归模型来分析这些数据,以便更好地了解用户消费行为。
数据分析:首先,我们需要对收集到的数据进行初步的分析。
我们可以使用散点图来观察年龄和消费金额之间的关系。
通过观察散点图,我们可以初步判断年龄和消费金额之间是否存在线性关系,以及线性关系的方向和强度。
模型建立:在确认了年龄和消费金额之间存在线性关系后,我们可以建立一元线性回归模型。
模型的基本形式为,Y = β0 + β1X + ε,其中Y表示因变量(消费金额),X表示自变量(年龄),β0和β1分别表示截距和斜率,ε表示误差项。
我们需要通过最小二乘法来估计β0和β1的值,从而建立回归方程。
模型评价:建立回归模型后,我们需要对模型进行评价。
我们可以通过计算回归方程的拟合优度R^2来评价模型的拟合程度,R^2的取值范围为0到1,值越接近1表示模型拟合得越好。
此外,我们还可以利用残差分析来检验模型的假设是否成立,以及检验模型的稳健性和可靠性。
预测分析:最后,我们可以利用建立的回归模型进行预测分析。
通过输入不同年龄的值,我们可以利用回归方程来预测用户在平台上的消费金额。
预测分析可以帮助电商平台更好地了解不同年龄段用户的消费特点,从而制定针对性的营销策略和服务方案。
结论:通过以上一元线性回归模型的应用分析,我们可以得出结论,用户的年龄和在平台上的消费金额之间存在一定的线性关系,通过建立回归模型,我们可以对用户的消费金额进行预测和分析。
这对于电商平台来说具有重要的参考价值,可以帮助平台更好地了解用户消费行为,从而提升用户体验和增加销售额。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
案例分析一元线性回归
模型
Revised as of 23 November 2020
案例分析报告
(2014——2015学年第一学期)
课程名称:预测与决策
专业班级:电子商务1202
学号: 02
学生姓名:陈维维
2014 年 11月
案例分析(一元线性回归模型)
我国城镇居民家庭人均消费支出预测
一、研究目的与要求
居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。
从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。
例如,2008年全国城镇居民家庭平均每人每年消费支出为元,最低的青海省仅为人均元,最高的上海市达人均元,上海是黑龙江的倍。
为了研究全国居民消费水平及其变动的原因,需要作具体的分析。
影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。
为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。
二、模型设定
我研究的对象是各地区居民消费的差异。
居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。
而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。
所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。
因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。
因此建立的是2008年截面数据模型。
影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。
因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。
为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。
以下是2008年各地区城镇居民人均年消费支出和可支配收入表
数据来源:
作城镇居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图
从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立的计量经济模型为如下线性模型:
Yi=a+bXi+εi i=1,2,···n
一元线性回归预测法,是指两个具有线性关系的变量,配合线性回归模型,根据自变量的变动来预测因变量平均发展趋势的方法。
三、OLS 估计
采用OLS 法估计其模型的回归系数
最小平方法的中心思想,是通过数学模型,配合一条较为理想的趋势线。
这条趋势线必须满足以下两点要求:
(1)原数列的观察值与模型的估计值的离差平方和为最小;
(2)原数列的观察值与模型的估计值的离差总和为零。
1、首先进入Excel 程序,建立工作薄,接下来进行一元线性回归的输入形式。
2、计算2x 、2y 及xy ,分别在“D2、E2、F2”单元格通过相对引用输入计算公式并向下复制。
3、计算∑x 、∑y 、∑2x 、∑2y 及∑xy 。
4、一元线性回归系数的计算:
所以b=
a=
5、按bX a Y
+=ˆ计算估计值: 四、相关系数
相关系数是一元线性回归中用来衡量两个变量之间相关程度的重要指标。
主要有两种定义方法:根据总变差定义以及根据积差法定义,由于根据积差法定义的相关系数不需要先求回归模型的剩余变差,可以直接从样本数据中计算得到,所以在本案例中比较适合使用。
其定义为
相关系数2222y y n x x n y
x xy n r )()(∑∑∑∑∑∑∑---=;
五、模型检验
1、经济意义检验
所估计的参数,说明城镇居民人均年可支配收入每相差1元,可导致居民消费支出相差元,这与经济学中边际消费倾向的意义相符。
2、显着性检验
本案例中可决系数为(可决系数R 2
的大小表明了在y 的总变差中自由量x 变动所引起的百分比,它是评价两个变量之间线性相关关系强弱的一个重要指标。
),说明所建模型整体上对样本数据拟合较好,即解释变量“城镇居民人均年可支配收入”对被解释变量“城镇居民人均年消费支出”的绝大部分差异作出了解释。
对回归系数的t 检验:当显着性水平取α=,自由度为n-2=31-2=29
查相关系数临界值表,得(29)=。
因为R=>(29)=。
故在α=显着性水平之上,检验通过,说明两个变量之间相关关系显着,也就是表明,城镇人均年可支配收入对人均年消费支出有显着影响。
六、回归预测
1、计算估计标准误差。
查表确定)(2/2n t -α。
在Excel 中输入=POWER((E34-K8*C34-K6*F34)/(G33-2), 即可得到s y =
由图表中可以看出来,黑龙江省、贵州省、甘肃省、青海省、新疆省等地可支配收入以及消费支出都排名靠后。
还有其他部分省虽然可支配收入高于其他省,但是消费支出却少于其他,例如,山西省,江西省,河南省等(我选择的可支配收入的临界值是12000,消费水平的临界值是9000)。
其中大部分都是西部地区。
在西部大开发的推动下,如果西部地区的城市居民人均年可支配收入第一步争取达到2000美元(按现有汇率即人命币12245元),第二步再争取达到2500美元(即人民币元),利用所估计的模型可预测这时城市居民可能达到的人均年消费支出水平。
可以注意到,这里的预测是利用所示数据模型对被解释变量在不同空间状况的空间预测。
接下来进行预测:首先
所谓预测区间就是指在一定的显着性水平上,依据数理统计方法计算出的包含预测目标未来真实值的某一区间范围。
根据公式可以求得:
当显着性水平取α=,自由度n-m=31-2=29时,查t分布表得:
(29)=
第一步达到12245元的时候,预测区间为:
输入公式=H35-K29*K33,=H35+K29*K33,得:
预测区间为(,)
第二步达到元的时候,预测区间为:
输入公式=H36-K29*K33,=H36+K29*K33,得:
预测区间为(,)
七、总结
消费需求主要来源于居民的可支配收入,而居民的可支配收入又来自于居民的人均收入即狭义上的居民的固定工资,它是形成当期购买力最主要的来源,同样也是影响消费需求的最直接最重要的因素。
此次案例分析我以2008年全国各地可支配收入和消费支出数据资料为基础,假设人均年可支配收入为自变量X(单位:元),人均年消费支出为因变量y(单位:元),并做出可支配收入和消费支出的相关关系图。
从这两个变量的相关关系图可观测到两者之间的大体趋势,发现它们基本上呈现出一种直线的统计关系,所以我进一步进行回归分析,并进行线性相关系数R的显着性检验。
若|R|=1表示完全线性相关;0<|R|<1表示存在不同程度线性相关;|R|<为低度线性相关,<|R|<为中度线性相关,|R|>为高度线性相关。
|R|越接近于I,说明两个变量的相关程度越密切。
通过公式,利用Excel数字处理功能,进行数据处理和简单的线性相关分析,我得出2008年全国城镇居民可支配收入和消费需求的回归方程式:y=+。
相关系数为:R= ,R2=,说明2008年全国城镇居民可支配收入和消费支出之间存在着显着的相关关系。
居民可支配收入每增加1000元,消费支出将增加大约元。
可以这么说,居民可支配收入与消费需求状况紧密相关,可支配收入会对消费需求产生重要影响,即可支配收入的扩大或缩小会导致消费需求的相应的变化。
最后通过线性相关性的检验,证实前面得出的结论:居民的可支配收入对消费需求的影响十分显着。
居民可支配收入的稳定提高,使居民的消费需求有了最坚实的基础,进而提高居民的消费需求和消费支出,拥有一个稳定舒心的生活,高水平的居民可支配收入,是影响消费需求的决定性的因素。