基于Logistic回归模型的人口预测分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于Logistic回归模型的人口预测分析
尹东旭,李阳,马雨晨
指导老师:徐慧
(空军工程大学,西安XXXXXX)
摘要:本文在数值微分法和最小二乘法曲线拟合的基础上对Logistic回归模型进行参数估计,预测了人口城镇化和老龄化两个影响因素以及2016-2030年我国的人口总数以及人口所能达到的最大值并对其加以检验。
关键词:Logistic回归模型;数值微分;参数估计;曲线拟合;人口预测
1问题重述与社会背景
对于中国这样一个人口大国,人口问题始终是制约我们经济、文化等各方面发展的关键因素之一。如何使用数学模型来对我国的人口增长进行准确而有效的预测,关乎我国的人民幸福,更关乎国家的发展大事。近年来中国的人口发展呈现了一些新的特点,比如老龄化进程加速,男女比例失调,以及农村人口城镇化,特别是计划生育政策的施行,这些都不同水平的影响着人口的增长,而这些因素影响着人口增长趋势预测的准确性。为此,如何综合考量各方面的因素,较为精确的刻画出人口增长趋势,是本文的主要目标。经过分析与讨论后,我们着重探讨了以下问题:
1. 如何从中国的实际情况和人口增长的特点出发,参考表1中的相关数据及其他材料,建立中国人口增长的数学模型;
2如何利用建立的数学模型对中国人口增长做出预测并加以检验。
2基本假设
1.预测时间内没有重大瘟疫、战争、自然灾害等非正常因素影响人口发展。从图
1中可以看出2003年60岁以上老人的死亡率因为SARS流行达到五年年来最
大值,其余年份假设基本保持平稳。(见图1)
图1(数据来源于中国统计年鉴)
2.不考虑多胞胎情况。
3.忽略人口统计时漏报误报现象。
4.假设人口只受我国国内的出生率、死亡率和迁移因素影响,不考虑国家之间的
移民。
3模型的分析与建立
3.1logistic模型的介绍
Logistic模型是1938年Verhulst—Pearl在修正非密度方程时提出来的,他认为在一定的环境中种群的增长总存在一个上限,当种群的数量逐渐向着上限上升时实际增长率就要逐渐地缩小,所以也被称为Verhulst—Pearl方程。广义Logistic曲线可以模仿一些情况的人口增长(P)的S形曲线。起初阶段大致是指数增长;然后随着人口开始变得饱和,增加变慢;最后,达到成熟时增加停止,所以又叫sigmoid曲线(S型曲线)。(摘自百度文库)
logistic方程即微分方程:
(摘自百度百科)
众所周知,人口增长呈现指数型增长,但人口是会受到环境最大容纳量、政策变化、经济发展、科技进步等的影响,因此这些影响因素都成为一种阻滞作用,而人口越接近最大值,这种阻滞作用就越大,所以,我们在数值微分和最小二乘法曲线拟合的基础上对Logistic数学模型进行了参数估计,此方法对许多事物如经济、生物种群、医疗卫生的发展和预测具有很大的应用价值。只要满足指数增长的事物(S型曲线),就可以使用这种预测方法。
3.2logistic模型建立
首先,我们不妨设时刻t的人口总量为x(t),并将x(t)看作连续、可微的函数。记初始时刻(t=0)的人口为x0。规定人口的增长率为常数r,即单位时间内x(t)的增量等于r 乘以x(t)。我们考虑t到t+∆t时间内人口的增量,则有
x(t+∆t)−x(t)=rx(t)∆t(1) 令∆t→0,则得到x(t)满足如下的微分方程
dx
=rx,x(0)=x0(2)
dt
对人口的阻滞体现在对r的影响上,表现为r随着人口数量x的增加而下降.我们不妨把人口的增长率r表示为关于人口数量x的函数r(x),显而易见r(x)为减函数,于是(2)式可写为
dx
=r(x)x,x(0)=x0(3)
dt
设r(x)是x的线性函数,即
r(x)=r−sx(r>0,s>0)(4) 此时r表示当人口数目比较少时(理论上设x=0)的增长率,就是假设此时的人口是不受自然资源等限制的固有增长率。我们要明确参数s的含义,可以引入最大人口环境容纳量x m,即我国在现在及未来国情下所能容纳的最大人口数量。则当x=x m时,人口
,于是(4)达到最大,此时人口增长率为0,即增长率r(x m)=r−sx m=0从而得到s=r
x m
式可改写为
r (x )=r(1−
x x m
) (5)
将(5)代入(3)得如下的Logistic 模型
dx dt
=rx (1−x
x m
),x (0)=x 0 (6)
由分离变量法得方程(6)的通解
x x m −x
=ce rt 。
利用初始条件得
c =x 0x m −x 0
。
把c 代入通解并简化得 x (t )=x m
1+(x
m x 0
−1)e −rt
。 (7)
(7)式可简写为 x =
x m 1+ae −bt
, (8)
其中 a =
x m x 0
−1 ,b =r 。
从(8)式可以看出要想预测出人口数量,需求出参数x m ,r 或a 、b 的值。我们采用最小二乘法求
E (x m ,r )=∑
(
x m 1+(x m
x 0
−1)e −rt
−y i )2
n
i=1
的最小值,通过求ðE
ðx m
,ðE
ðr 并令它们等于零,利用Matlab 软件进行处理可以估算x m ,r
的值,并对解取倒数,得到1x =1x m
+(1x 0
−1
x m
e −rt )。利用等长度时刻t 0,t 1,t 2(t 2=2t 1)
所对应的三个人口数量求得相关参数 r =In (x 1−x 0)x 2
(x 2−x 1)x 0 ,
X m =
x 0(1+e rt )(1+x 0x 1)e rt
(t=t 1−t 0=t 2−t 1)。
3.3 Logistic 回归模型的参数估计
对Logistic 模型进行参数估计的方法有很多,通常我们使用的方法有Bayes 估计、最小二乘法估计、稳健估计等等。这里我们使用数值微分和预测拟合法对logistic 模型进行参数估计,并对结果进行合理验证。由解(8)中可知,只要对参数x m ,a ,b ,进行估计即可得出结果,主要方法和步骤如下: