中国人口模型研究论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
题目中国人口模型研究
摘要
人口预测研究是国家制定未来人口发展目标和生育政策等有关人口政策的基础,对于国民经济计划的制定和社会战略目标的决策具有重要的参考价值。
而这篇文章主要针对了中国人口总数的增长趋势和未来可能的人口总数进行了一些研究,对短期人口增长和中长期人口变化建立了相应的模型,并作了深入的探讨,从而对中国未来的人口总数进行了一些合理的预测。
本文主要根据《中国人口统计年鉴》上收集到的2001年到2005年部分数据, 在灰色预测的基础上, 引入BP神经网络模型, 建立了中国人口增长的GM(1,1)和BP神经网络组合模型, 并由此对中国人口增长的中短期和长期趋势做出预测.
我们通过输入原始数据资料, 应用灰色模型进行预测, 得到预测数列, 然后将预测值作为输入量, 原始数据作为期望值, 对BP神经网络进行训练, 得到相应的权值和阀值, 最后输入预测年份, 即可得到具有较高精度的预测量. 由此可以知道, 中国人口增长的中短期和长期趋势为:
人口总量在中短期内继续增长, 增速较为平稳, 每年以0.11亿人口数增长. 总人口
将于2010年, 2020年分别达到13.474亿人和14.67581亿人, 2040年前后达到峰值15.1亿人.
全国人口死亡率继续保持较低水平( 维持在7‰以下) , 并持续缓慢下降, 从2002年的6.448‰下降到2040年的6.05‰, 减少了0.5个千分点;
男女性别比波动虽然不大,但是每年以一定的速度减少,可见男女总人数趋于平衡。
到2020年, 65岁以上老年人口将达到1.74亿人, 比重从2005年的7.937%增长到10.9456%. 预计2040年, 65岁以上老年人口比重达16.8%. 老龄化进程加速. 老年人口数量多, 老龄化速度快, 高龄趋势明显.
此组合模型兼有灰色预测和BP神经网络预测的优点, 既利用灰色系统理论具有所需要的样本数据少, 原理简单, 运算方便, 短期预测精度高, 可检验等优点, 也发挥神经网络并行计算, 容错能力强, 自适应能力强等优点, 模型既克服了原始数据少, 数据波动性大对预测精度的影响, 也增强了预测的自适应性.
关键词:BP神经网络 GM(1,1)灰色预测模型人口预测
一、问题重述
1.1背景分析
今天,随着人类文明的飞速发展,社会的快速进步,人们也越来越意识到地球资源的有限性。
我们感受到了“地球在变小”,感受到了人口与资源之间的矛盾日渐突出,人口问题已经成为了当前世界上被最普遍关注的问题之一,同时人口增长规律的发现以及人口增长的预测对一个国家制定比较长远的发展规划有着非常重要的意义。
人口预测研究是国家制定未来人口发展目标和生育政策等有关人口政策的基础,对于国民经济计划的制定和社会战略目标的决策具有重要参考价值。
1.2问题重述
中国是一个人口大国,人口问题始终是制约我国发展的关键因素之一。
根据已有数据,运用数学建模的方法,对中国人口做出分析和预测是一个重要问题。
近年来中国的人口发展出现了一些新的特点,例如,老龄化进程加速、出生人口性别比持续升高,以及乡村人口城镇化等因素,这些都影响着中国人口的增长。
2007年初发布的《国家人口发展战略研究报告》(见附录I)还做出了进一步的分析。
经过研究分析,结果显示世界人口呈现出以下特点:
近半个世纪以来,世界人口发展的基本态势:一是生育水平逐步下降,人口总量经历高速增长后进入增速趋缓时期。
发展中国家总和生育率从6.2下降到2.9,发达国家从2.8下降到1.6。
据联合国预测,到本世纪中叶,全球人口再生产类型转变将基本完成。
二是人口年龄结构持续老龄化。
2000年,世界60岁以上和65岁以上老年人口比重分别达到10%和7%,欧洲为20%和15%。
三是人口素质成为综合国力竞争的核心,在经济社会发展中的作用更加突出。
四是人口城镇化快速发展,城镇人口接近50%。
关于中国人口问题已有多方面的研究,并积累了大量数据资料。
附录II就是从《中国人口统计年鉴》上收集到的部分数据。
试从中国的实际情况和人口增长的上述特点出发,参考附录II或附录IV或国家统计局统计中的相关数据(也可以搜索相关文献和补充新的数据),建立中国人口增长的数学模型,并由此对中国人口增长的中短期和长期趋势做出预测。
二、模型假设
结合本题的实际,为了确保模型求解的准确性和合理性,我们排除了一些位置因素的干扰,提出以下几点假设:
1.在预测期间,假设不会发生重大的灾难,瘟疫或者战争等会影响人口产生重大变化
的天灾人祸。
2.预测期内,假设总的出生率、死亡率和性别比例不会发生太大的变化,能够用往年
的平均值来计算。
3.人口的迁入迁出不会改变当地的人口性别和年龄结构,并且不会有过多的人搬离居
住地,导致人口大量减少。
4.长期人口预测的参数主要由政策决定。
5.假设经济、社会环境、资源等因素对人口的影响较小,可忽略不计。
三、符号说明
四、问题分析
人口增长预测问题是一个庞大的系统分析问题,表现出诸多的特征,又涉及到了很多的影响因素。
个体的出生与死亡率,生育模式,年龄结构构成,性别比例以及人口的流动情况都会影响到人口预测的结果。
由于人口预测关乎国家的发展,各国都对人口发展预测研究投入巨大。
在中国,进行了多次人口普查,积累了大量的人口统计资料。
这些统计资料包括各个年份的人口总数,出生人口数量及出生人口率,人口死亡数量及人口死亡率,市镇乡各年龄层男女比率及死亡率,市镇乡的各年龄育龄妇女的生育率,出生人口性别比等等。
为尽可能准确地预测人口增长,同时又不耗费太多的精力财力,须抓住当前人口问题的特点,对问题进行调研。
而目前中国人口增长最突出的特点是:老龄化加速,出生人口性别比持续增高和乡村人口城镇化。
因此,要讨论这些问题,在人口的预测模型中必须将对象的年龄,性别,和所在地加以区分,并且对这些特点分开进行计算,才能反映出上述特点对中国未来人口所产生的影响,以及在这些影响下中国人口增长的趋势,计算出在未来预测期内人口总数的预期值。
人口预测按预测期长短又可以分为短期预测 (5年以下)、中长期预测(5~40年)。
短期预测中所用的各项参数以实际调查所得数据为基础,收到各种因素、特点的影响比较小,可以根据以往变动趋势,较准确加以估计,推算结果容易接近实际,现实意义较大。
然而中长期预测中未知因素较多,收到当前中国人口增长特点的影响较大,不容易把握,受政策的影响大,预测结果不太准确,与实际的数据可能存在一定的偏差,需要定期进行修改。
基于对我国人口基本状况和特征的认识,我们选定总和生育率、出生性别比和死亡率作为预测控制参数。
为看出在不同预测期的情况下,人口未来发展的差别,以及人口总数的变化情况,我们决定针对短期和中长期这两种预测期的人口预测建立不同的模型,做出不同的预测方案,从而进行比较。
五、模型的建立与求解
经过以上的分析和准备,我们将逐步建立以下数学模型,进一步阐述模型的实际建立过程。
5.1短期人口增长模型的建立与求解
对于人口增长的短期预测,我们首先提取2001~2005年的出生率、死亡率和自然增长率,如下表所示:
的灰色预测,建立()1,1G M 模型来对这个问题进行研究和求解。
5.1.1数据预处理
首先我们利用公式(1)
(0)
1
{()|1,2,...,5}i
t x x
t i ===∑对死亡率的数据进行处理,首先对数
据累加:
(1)(0)
(0)(0)0.00963373x x ==
(1)(0)
(0)
(1)(0)(1)0.01899x x
x
=+= (1)(0)(0)(0)(2)(0)(1)(2)0.028113x x x x =++=
(1)(0)(0)(0)(0)(3)(0)(1)(2)(3)0.03783x x x x x =+++= (1)
(0)
(0)
(0)
(0)
(0)
(4)(0)(1)(2)(3)(4)0.044974
x
x
x
x
x
x
=++++=
于是得到一个新数据序列:
(1)
{0.00963373,0.01899,0.028113,0.03783,0.044974}x
=
称此式所表示的数据列为原始数据列的一次累加生成,简称为一次累加生成。
显然有(1)(0)(1)(1)x x =。
5.1.2建模原理 给定观测数据列
(0)(0)(0)(0)
{(1),(2),...,(5)}(5.1)x x x x =
经一次累加得
(1)(1)(1)(1)
{(1),(2),...,(5)}(5.2)x x x x =
在上式中:
(1)
(0)
1
()()
(1,2,...,5)i
t x
i x
t i ==
=∑
设(1)x 满足一阶常微分方程
(1)
(1)
(5.3)dx
ax
u
dt
+=
其中,a u 是常数,称a 为发展灰数;称u 为内生控制灰数,是对系统的常定输入,次方程满足初始条件:当0t t =时,即为(1)(1)0()x x t =,它的解为:
0()
(1)
(1)
0()[()]a t t u u x
t x
t e
a
a
--=-
+
微分方程(5.3)的求解过程:当(1)
0x ≠时,由
(1)
(1)
0dx
ax
dt
+=有
(1)
(1)
dx adt x
=-,两端分
别积分,得到(1)ln ||x at c =-+,即(1)1at c at x e c e -+-==。
这里记1c c e =。
显然(1)0x =也是方程
(1)
(1)
0dx
ax
dt
+=的解,直接验证可知u x a
=
是方程(5.3)的一个解,依据常微分方程理
论,方程(7.3)的所有解可以表示为1at u x c e a
-=+。
将初始条件“当0t t =时,0()x x t =”
代入1at u x c e a
-=+,有0
10(())at u
c x t e a
=-,再将1c 代入1at u x c e a
-=+
,得到微分方程(5.3)的
解为:
0()
(1)
(1)
0()[()]a t t u u x
t x
t e
a
a
--=-
+
对等间隔取样的离散值(注意到01t =)则为:
(1)
(1)
(1)[(1)]1,2,...,51(5.4)
ak
u u x
k x
e
k a
a
-+=-
+
=-
灰色建模的途径是一次累加序列(5.2)通过最小二乘法来估计常数a 与u 。
因(1)(1)
x 留作初值用,故将(1)(1)(2),(3),...,x x 分别代入方程(5.3),用差分代替微分,又因等间隔取样(1)1t t t ∆=+-=,故得:
(1)
(1)
(1)
(1)
(0)
(2)
(2)(2)(1)(2)x
x
x
x
x
t
∆=∆=-=∆
类似的:
(1)
(1)
(0)
(0)
(3)
(5)
(3),...,
(5)x
x
x
x
t
t
∆∆==∆∆
于是,由式(5.3)有
(0)(1)(0)(1)
(0)(1)(2)(2)(3)(3).................................(5)(5)x ax u x ax u
x ax u ⎧+=⎪+=⎪⎨
⎪
⎪+=⎩
把(1)()ax i 项移到右边,并写成向量的数量积形式
()(0)(1)
(0)(1)(0)(1)
(2)(2),1(3)(3),1 5.5......................................(5)(5),1a x x u a x x u a x x u ⎧⎡⎤⎡⎤=-⎪⎢⎥
⎣⎦⎣⎦⎪
⎪⎡⎤⎪⎡⎤=-⎪⎢⎥⎣⎦⎨⎣⎦⎪
⎪⎪⎡⎤⎡⎤=-⎪⎢⎥
⎣⎦⎪⎣⎦⎩
由于
(1)
x
t
∆∆涉及累加列(1)x 的两个时刻的值,因此,(1)()x i 取前后两个时刻的平均代
替更为合理,即将(1)()x i 替换为
(1)
(1)
1[()(1)](2,3, (5)
2x
i x
i i +-=
将方程组(5.5)写为矩阵表达式
(1)
(1)
(0)
(1)(1)
(0)(0)(1)
(1)
1[(2)(1)]12(2)1[(3)(2)]
1(3)(5.6)
2.........................................1()1[()(1)]
12x x x a x
x
x u x N x
N x
N ⎡⎤-+⎢⎥⎡⎤⎢⎥⎢⎥⎢⎥-+⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦⎢⎥⎢⎥⎣⎦⎢
⎥-+-⎢⎥⎣
⎦
令(0)(0)(0)((2),(3),...,(5))y x x x T =,在这个式子中,T 表示转置,令:
0.0094997310.00923961
1,0.0090416910.00843031
1d a B U u -⎛⎫
⎪-⎡⎤
⎪==⎢⎥
⎪-⎣⎦
⎪-⎝⎭
则()5.6式的矩阵形式为:
()5.6'y BU
=
方程组()5.6'的最小二乘估计为:
()1
ˆˆ(5.7)ˆT T a U B B B y u
-⎡⎤==⎢⎥
⎣⎦
把估计值ˆa
和ˆu 代入()7.4式得时间响应方程: ()
()()()
()11ˆ
ˆˆˆ11 5.8ˆˆak u u x
k x e a a -⎡⎤+=-+⎢⎥⎣⎦
(0.000268,0.00025224,0.0001436,0.00107916)T
d C =----
1
()()(0.209686,0.0023334)
T
T T
d d d d
d A B B B
C -==--
得预测方程
0.209686()0.001494370.0111281t
d t e
=-+
根据上述步骤,我们利用题目中给出的数据,对出生率进行计算,得出关于出生率
的预测方程:
0.21878()0.002662660.0235528t
b t e =-+
所以增长率函数为0.2096860.21878()0.001494370.002662660.0124247t t g t e e =-+ 则对总人口数N(t),有:()()()N t t N t g t N t +∆-=∆
()0.2096860.21878()()(0.001494370.002662660.0124247) 5.9t
t
dN t g t N e
e
N
dt
==-+
且有初值条件N(0)=0N =12.7627亿人0N 为2001年的总人口数,解该微分方程()5.9得:
0.2096860.218780.00712670.012170.01242470.0050433
0()t
t
e
e
t N t N e
-++=
利用此式来预测短期内2006~2011年的人口趋势,结果如下表所示:
5.2中长期人口增长模型的建立与求解
对于人口增长的长期预测,由于影响人口发展有着众多的不确定性因素,所以我们建立神经网络模型对其进行研究和求解。
5.2.1运用BP 神经网络进行人口预测的可行性
我们对运用B P 神经网络进行人口预测的可行性进行分析,具有P 个输入、Q 个输出的BP 网络可看作P 维欧氏空间到Q 维欧氏空间的一个非线性映射,只含一个隐含层的BP 网络可以逼近任何连续函数。
BP 网络的非线性映射与人口非线性特征是相近的,对于未知的人口动力学系统可通过神经网络来学习系统的表征量并进行预测,
K o l m o g o r o v 连续定理从数学上保证了网络用于时间序列预测的可行性。
网络的输入向量和结构参数可由相空间重构技术予以确定,同时BP 网络的动态学习能力对人口波动
性数据具有较强的识别和拟合能力,克服了以往人口预测模型剔除奇异值或划分阶段处理的缺陷。
因此从模型映射性质、输入变量的选择和波动性数据拟合等方面表明BP 神经网络模型用于人口预测是可行的。
5.2.2人口预测的BP 神经网络模型的建立
三层的BP 网络模型由输入层、一个隐含层、输出层组成,BP 算法的学习过程分为正向输入和反向传播两个过程,正向传播中输入信息从输入层经隐含层处理,并传向输出层,如果在输出层不能得到期望输出,则转入反向传播将误差信号沿原来的连接通路返回。
建立一个神经网络预测模型主要包括三个阶段:配置阶段、训练阶段、预测阶段。
5.2.2.1配置阶段
神经网络各层节点数的确定是直接影响网络模拟成功与否的关键技术,采用相空间重构技术(GP 算法)从人口时间序列中提取系统信息作为模型结构参数选择依据。
不失一般性,令()p t 为观测到的人口时序数()0,1,...,t N =,可得m 维人口相空间矢量:
()()()(){}
(),,,...,11m Y m p t p t p t m τττ=
++-⎡⎤⎣⎦
在式()1中1,2,...,'n N =,m 为嵌入维数,τ为时间延迟,()'N N m t τ=--。
通过'
N 个矢量在m 维人口相空间中描述出人口动力系统轨迹,当21m d >+时(d 为吸引子关联维数),可重现原吸引子的几何特征。
对于τ,运用自相关函数下降到初始值的11e
-
的
时滞作为延迟时间,嵌入维数m 是通过相关积分计算出关联维数来确定的。
GP 算法得
到由离散人口时序数()p t 重构的m 维人口相空间,在m 维人口相空间中状态转移形式为:()1n n Y f Y +=,其中n Y 为人口相空间矢量,再结合式()1展开:
()()()()(){}
()1,...,11,...,12p t p t m f p t p t m ττ⎡⎤+++-=+-⎡⎤⎣⎦⎣⎦
为计算方便和直观起见,上式记为:
()()(){}
()11,...,13p t m F
p t p t m ττ++-=+-⎡⎤⎡⎤⎣⎦⎣⎦
5.2.2.2训练阶段
()F 是一个m 维矢量到一维实数的映射,运用三层BP 神经网络模型多输入单输出的函数逼近功能来实现。
三层BP 神经网络模型由输入层、隐含层和输出层组成,输入和输出节点数分别为m 、1,隐含层节点数根据神经网络优化理论确定为21m +,其网络学习分为两个过程: 1、向前传输阶段:
①从样本集中取一个样本,i j P Q ,将i P 输入网络; ②计算出误差测度1E 和实际输出(1)
(2)
()
21(...((())...))L i L i O F F F PW W
W
=;
③对权重值L
W
W
W
,...,)
2()
1(各做一次调整,重复这个循环, 直到i E ε<∑。
2、向后传播阶段——误差传播阶段: ①计算实际输出p O 与理想输出i Q 的差; ②用输出层的误差调整输出层权矩阵; ③2
1
1
()2
m
i ij
ij j E Q O ==
-∑;
④用此误差估计输出层的直接前导层的误差, 再用输出层前导层误差估计更前一层的
误差. 如此获得所有其他各层的误差估计;
⑤并用这些估计实现对权矩阵的修改。
形成将输出端表现出的误差沿着与输出信号相反的方向逐级向输出端传递的过程。
网络关于整个样本集的误差测度:
i
i
E E
=
∑
5.2.2.3预测阶段
未来我国总人口变化情况,通过代入附录中的数据,我们对该问题进行求解。
应用灰色模型预测我国未来10年人口总数, 出生率和死亡率, 将其作为训练样本, 1990—2005年的原始数据作为检验样本, 对BP 神经网络进行训练。
在此基础上, 对我国未来45年人口总数进行预测,结果如下表所示:
图所示(其余间附录I):
图1:中长期总人口变化图
六、模型的评价与改进
6.1模型的优点
1、短期预测中利用灰色预测模型,结果准确,可信度高。
2、中长期预测中利用神经网络模型,精度较高,对于人口这个复杂非线性系统波动性
具有较强的再现和泛化功能。
3、神经网络模型结合了相空间重构技术,减少了建模主观性,在理论上是可行的,在
实际上有可操作性。
4、运用图表,表现出人口增长的整体趋势。
6.2模型的缺点
1、模型理想化,对人口的影响因素比较复杂,不能很好的解决。
2、对于一些常见的灾难性事件没有考虑到,不能很好的适用于一些局部地区的人口总
数增长问题。
3、根据中国国情,人口变化率很大一部分是按照政府的措施变化的,所以政策因素对
于人口数量的影响是非常大的。
而该模型在政策稳定或政府很少出面干预,以及没有过多灾难或者战争等大幅度影响人口数量的事件发生的情况下,对于人口总数在未来的变化,以及其发展趋势具有很高的预测精度,结果与实际情况的偏差也比较小。
但是对于一些比较复杂的,波动比较大的情况来说,其效果就比较差,结果与实际情况的偏差也比较大。
七、参考文献
[1]焦宝聪陈兰平,运筹学的思想方法及应用,北京:北京大学出版社,2008
[2]毕小龙袁勇,基于BP神经网络的人口预测方法研究,武汉理工大学学报,第31卷
第3期:556~558,2007
[3]刘赛瑜黄国祥,中国离散型人口模型,科学技术与工程,第10卷第21期:5225~
5229,2010
[4]魏高峰龙克柔,中国人口演化模型与中国未来人口预测研究,科技咨询导报,第13
卷:102~104,2007
附录I
图2:中长期出生率变化图
图3:中长期死亡率变化图
图4:中长期老龄化变化图
图5:中长期男女比例变化图
附录II
短期灰色预测代码:
x=[17.12 16.98 16.57 15.64 14.64 14.03 13.38 12.86 12.41 12.29 12.40]; %二次拟合预测GM(1,1)模型
sizexd2 = size(x,2);
%求数组长度
k=0;
for y1=x
k=k+1;
if k>1
x1(k)=x1(k-1)+x(k);
%累加生成
z1(k-1)=-0.5*(x1(k)+x1(k-1));
%z1维数减1,用于计算B
yn1(k-1)=x(k);
else
x1(k)=x(k);
end
end
%x1,z1,k,yn1
sizez1=size(z1,2);
%size(yn1);
z2 = z1';
z3 = ones(1,sizez1)';
YN = yn1'; %转置
%YN
B=[z2 z3];
au0=inv(B'*B)*B'*YN;
au = au0';
%B,au0,au
afor = au(1);
ufor = au(2);
ua = au(2)./au(1);
%afor,ufor,ua
%输出预测的 a u 和u/a的值
constant1 = x(1)-ua;
afor1 = -afor;
x1t1 = 'x1(t+1)';
estr = 'exp';
tstr = 't';
leftbra = '(';
rightbra = ')';
%constant1,afor1,x1t1,estr,tstr,leftbra,rightbra
strcat(x1t1,'=',num2str(constant1),estr,leftbra,num2str(afor1),tstr,rightbra,'+',leftbra,num2str(u a),rightbra)
%输出时间响应方程
中长期神经网络模型代码:
p1=[1995:2009];
p4=[2010:2040];
t1=[121.1210000 122.3890000 123.6260000 124.7610000 125.7860000 126.7430000 122.0559000 125.8951000 126.0498000 126.3065000 127.0000000 131.448000 132.129000 132.802000 133.474000];
p=(p1-min(p1))/(max(p1)-min(p1));
p2=(p4-min(p1))/(max(p1)-min(p1));
t=t1;
net = newff([0 1],[5 1],{'tansig' 'purelin'});
net.trainparam.show=25; %每次循环50次
net.trainParam.epochs =50; %最大循环500次
net.trainparam.goal=0.001; %期望目标误差最小值
net = train(net,p,t); %对网络进行反复训练
Y=sim(net,p);
sim(net,p2)。