基于回归分析的人口预测.doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计系课程实验论文基于回归分析的人口数量预测
学号:2014962005
*名:**
年级:2014级
专业:统计学
课程:回归分析
指导教师:***
完成日期:2016年6月19日
摘要 .................................................................................................................................... I 前言 .. (1)
第1章一元线性回归 (2)
1.1 指标的选择 (2)
1.2 样本确定 (2)
1.3 一元回归分析 (3)
1.3.1 绘制总人口与粮食产量的散点图 (3)
1.3.2 设定理论模型 (4)
1.3.3 回归诊断 (4)
第2章多元线性回归 (5)
2.1 数据中心化标准化 (5)
2.2 多元回归模型建立 (5)
2.3 逐步回归法 (6)
2.4 多重共线性 (7)
2.3.1 多重共线性检测 (8)
2.4 主成分分析 (9)
2.4.1 主成分分析模型建立 (9)
第3章非线性模型 (11)
3.1 曲线回归 (11)
3.1.1 曲线拟合 (11)
3.2 Logistic模型 (13)
结论 (15)
参考文献 (16)
回归分析法是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。同时依据事物发展变化的因果关系来预测事物未来的发展走势,它是研究变量间相互关系的一种定量预测方法,又称回归模型预测法或因果法,应用于经济预测、科技预测和企业人力资源的预测等。回归分析可以说是统计学中内容最丰富、应用最广泛的分支。这一点几乎不带夸张。包括最简单的t检验、方差分析也都可以归到线性回归的类别。而卡方检验也完全可以用logistic回归代替。
众多回归的名称张口即来的就有一大片,线性回归、logistic回归、cox回归、poission回归、probit回归等等。
关键词:线性回归;非线性回归;logistic回归
最早的形式回归的方法是最小二乘法,这是在1805年出版的勒让德,和高斯在1809年。勒让德和高斯都采用的方法确定的问题,从天文观测,有关Sun的机构(主要是彗星,但后来也新发现的小行星)的轨道。1821年,高斯发表最小二乘法理论的进一步发展,在包括高斯-马尔可夫定理的一个版本。
弗朗西斯·高尔顿在十九世纪的“回归”是杜撰来描述一种生物现象。这种现象是高度高大的祖先的后代往往倒退下来,对一个正常的平均水平(这种现象也被称为向均值回归)。对高尔顿,,回归只有这个生物意义,Udny圣诞节和皮尔逊但他的工作,后来扩展到更一般的统计范围内。在圣诞节和Pearson,工作的响应和解释变量的联合分布被假定为高斯。这个假设RA费舍尔在1922年和1925年,他的作品被削弱。费舍尔认为的响应变量的条件分布为高斯分布,但联合分布不一定要。
在这方面,费舍尔的假设是高斯1821年制定的。
在20世纪50年代和20世纪60年代,经济学家旧机电台计算器,计算回归。
1970年以前,有时长达24小时接收从一个回归的结果。
回归方法继续是一个活跃的研究领域。在最近的几十年中,新的方法已经制定了稳健回归,回归涉及的相关反应,如时间序列曲线和增长曲线,回归的预测或响应变量的曲线,图片,图表或其他复杂的数据对象,容纳不同的回归方法丢失的数据,非参数回归,贝叶斯方法进行回归,回归的预测变量的测量误差,预测变量的观测回归,回归和因果关系的推论与类型。
第1章一元线性回归
1.1 指标的选择
影响人口增长的主要因素经济因素,经济因素对人口自然增长的作用主要表现在它决定了人口的增殖条件和生存条件,通过改变人口的出生率和死亡率来影响人口的自然增率。一般情况下,当人口数量不能满足经济发展对劳动力的需求时,人口自身的再生产必将会刺激;当人口数量超越了经济发展所能提供的消费总数后,人口自身的再生产必将受到遏制。在现代生产力水平下,人口的自然增长率往往随着经济水平的提高而下降。经济因素对人口机械增长也有重要影响。通常情况下,经济发达或发展速度较快的地区,对人口具有一种吸引力和凝聚力,人口机械增长为正值;相反,经济落后或经济发展速度缓慢的地区,对人口会产生一种排斥力和离散力,人口机械增长一般为负值。与此同时粮食产量、出生率、死亡率,也是影响人口增长的因素。
符号说明:用1x、2x、3x、4x表示粮食产量、GDP、出生率、死亡率。y表示总人口。
1.2 样本确定
通过查阅中国政府网,得到了1980年到2014年各因素的数据。
表1-1 样本数据
1995 46661.8 61129.8 17.12 6.57 121121
1994 44510.1 48459.6 17.7 6.49 119850
1993 45648.8 35524.3 18.09 6.64 118517
1992 44265.8 27068.3 18.24 6.64 117171
1991 43529.3 21895.5 19.68 6.7 115823
1990 44624.3 18774.3 21.06 6.67 114333
1989 40754.9 17090.3 21.58 6.54 112704
1988 39408.1 15101.1 22.37 6.64 111026
1987 40297.7 12102.2 23.33 6.72 109300
1986 39151.2 10308.8 22.43 6.86 107507
1985 37910.8 9039.9 21.04 6.78 105851
1984 40730.5 7226.3 19.9 6.82 104357
1983 38727.5 5975.6 20.19 6.9 103008
1982 35450 5333 22.28 6.6 101654
1981 32502 4898.1 20.91 6.36 100072
1980 32055.5 4551.6 18.21 6.34 98705
1.3 一元回归分析
定义1.1回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
1.3.1 绘制总人口与粮食产量的散点图