基于BP神经网络和GM(1,1)灰色模型的中国人口预测分析黄俸强李晶邓健萍摘要人口预测对国民经济的发展有着非常重要的作用.如何用操作性强,可信度高的方法来预测人口的变化,这是一个值得探讨的问题.本文主要根据《中国人口统计年鉴》上收集到的2001年到2005年部分数据,在灰色预测的基础上,引入BP神经网络模型,建立了中国人口增长的GM(1,1)和BP神经网络组合模型,并由此对中国人口增长的中短期和长期趋势做出预测.我们通过输入原始数据资料,应用灰色模型进行预测,得到预测数列,然后将预测值作为输入量,原始数据作为期望值,对BP神经网络进行训练,得到相应的权值和阀值,最后输入预测年份,即可得到具有较高精度的预测量.由此可以知道,中国人口增长的中短期和长期趋势为:人口总量在中短期内继续增长,增速较为平稳,每年以0.11亿人口数增长.人口总量在未来30年还将净增2亿人左右,总人口将于2010年,2020年分别达到13.63亿人和14.67亿人,2033年前后达到峰值15.01亿人,之后人口总量缓慢下降.我国育龄妇女(15-49岁)人数在短期内持续增加,在2014年达到顶峰,之后开始缓慢下降,到2033年左右,下降速度加快;我国生育旺盛期育龄妇女(20-29岁)人数在短期内持续下降,在2015年达到低谷,之后开始缓慢回升,但是一段时期后,又开始缓慢下降,如此波动变化.全国人口死亡率继续保持较低水平(维持在7‰以下),并缓慢下降,从1990年的6.67‰下降到2050年的5.66‰,减少了1.01个千分点;我国男性人口死亡率高于女性人口死亡率,乡人口死亡率高于城镇人口死亡率.我国人口城镇化速度在未来20年里每年增长1.10-1.50个百分点,之后人口城镇化开始放慢增长速度,2021-2050年间仅增加11.41个百分点.到本世纪中叶,城镇化水平在75%左右.2005年我国老年人口已超过1亿人,到2020年,65岁以上老年人口将达到1.74亿人,比重从2005年的8.09%增长到12.02%.预计2050年,65岁以上老年人口达3.38亿多人,比重达23.23%.老龄化进程加速.老年人口数量多,老龄化速度快,高龄趋势明显.出生人口性别比总体呈上升趋势.中短期变化不大,都在初始值附近波动;从2010年到2050年平均每年增长了0.75.此组合模型兼有灰色预测和BP神经网络预测的优点,既利用灰色系统理论具有所需要的样本数据少,原理简单,运算方便,短期预测精度高,可检验等优点,也发挥神经网络并行计算,容错能力强,自适应能力强等优点,模型既克服了原始数据少,数据波动性大对预测精度的影响,也增强了预测的自适应性.关键词:BP神经网络GM(1,1)灰色预测模型人口预测一,问题重述1.1,问题背景中国自古以来是一个人口大国.新中国成立后,我国人口进入飞速发展阶段.1949年到1957年8年时间,人口增长了1亿;1964年总人口超过7亿,1969年总人口超过8亿,1974年总人口超过9亿.这一时期每增长1亿人时间间隔为5年.中国人口净增长率波动比较剧烈.80年代以后,由于我国实行了计划生育,人口膨胀得到了有效的控制.实行近30年来,使我国少生了4亿多人,为中国现代化建设,全面实现小康社会打下了坚实的基础,同时也为世界人口控制做出了杰出贡献.但是由于中国人口基数大,人口增长问题依然十分严峻.在我国现代化进程中必须实现人口与经济,社会,资源,环境协调发展和可持续发展,而人口问题始终是制约我国发展的关键因素之一.要发展,必须进一步控制人口数量,提高人口质量,改善人口结构.对中国未来人口的准确预测,能够为中国经济和社会发展的重大决策提供科学依据,这对加速推进我国现代化建设有着极为重要的现实意义.因此,根据已有数据,运用数学建模的方法,对中国人口做出分析和预测是一个重要问题.1.2,问题提出近年来中国的人口发展出现了一些新的特点,例如,老龄化进程加速,出生人口性别比持续升高,以及乡村人口城镇化等因素,这些都影响着中国人口的增长.2007年初发布的《国家人口发展战略研究报告》(附录1)还做出了进一步的分析.关于中国人口问题已有多方面的研究,并积累了大量数据资料.现在得到了《中国人口统计年鉴》上收集到的部分数据(见附录2).其中包含2001至2005年的市,镇和乡人口不同性别的人在该类人口中所占的百分比,死亡率,生育率,每年人口抽样调查的样本容量(人数)数据.1994至2005年的市,镇和乡男女出生比例.1995至2005年的市,镇和乡育龄妇女生育率的千分比(‰).根据已知数据(或搜索相关文献和补充新的数据),解决以下的问题:从中国的实际情况和人口增长的上述特点出发,建立中国人口增长的数学模型,并由此对中国人口增长的中短期和长期趋势做出预测.二,问题的分析一个国家人口的准确预测,是制定相应宏观经济政策的重要依据,对我国经济的发展有着巨大的作用.预测是控制和规划的基础,预测的精度是控制和规划成功的前提,而选择预测的方法是提高预测精度的关键.传统的人口预测方法主要有逻辑方法,常微分方程方法和动态预测方法等.这些方法在人口预测领域起到了一定的作用,但采用这些方法时都要对数据进行模型假设.由于真实模型往往是非线性的,如果在一些简单的模型假设下就进行数据模拟,常常不能达到较好的模拟效果.神经网络对复杂非线性系统具有曲线拟合能力,基于BP神经网络和GM(1,1)模型的组合模型进行动态预测.既利用灰色预测的需要数据资料少的优点,又吸收了BP神经网络容错能力,自适应能力强的优点.由于神经网络的功能之强大,型式之多样,若能将其它网络形式同灰色模型相结合,则有可能进一步提高预测精度.三,模型的假设与符号说明3.1,模型假设与约定(1)未来人口的死亡模式保持不变;(2)所研究的人口为封闭人口;(3)农村人口一旦迁入城镇或者城镇化,其人口行为和特征即与城镇人口相同,即忽略城镇人口与迁入城镇人口或城镇化人口的差别.(4)人口数据质量高,无误报和漏报等.(5)在分析老年人口问题时,是以65岁作为老年人口的起点年龄;3.2,名词定义主要统计指标解释人口数指一定时点,一定地区范围内有生命的个人总和.出生率指在一定时期内(通常为一年)一定地区的出生人数与同期内平均人数(或期中人数)之比,用千分率表示.其计算公式为:0001000年出生人数出生率年平均人数死亡率指在一定时期内(通常为一年)一定地区的死亡人数与同期内平均人数(或期中人数)之比,用千分率表示.其计算公式为:0001000年死亡人数死亡率年平均人数人口自然增长率是指在一定时期内(通常为一年)人口自然增加数(出生人数减死亡人数)与该时期内平均人数(或期中人数)之比,用千分率表示.计算公式为:000=1000年出生人数-本年死亡人数人口自然增长率=人口出生率-人口死亡率年平均人数预测时期短期(10年),中期(10-25年),长期(25年);出生人口性别比是活产男婴数与活产女婴数的比值,通常用女婴数量为100时所对应的男婴数来表示.正常情况下,出生性别比是由生物学规律决定的,保持在103~107之间.人口抚养比指人口总体中处于供养年龄(一般指15岁以下和64岁以上)的人口与处于“经济活动”年龄(15-64岁)人口的比率.用百分铝表示.计算公式为:001564100岁以下人口岁以上人口人口抚养比=15-64岁人口总和生育率:一定时期(如某一年)各年龄组妇女生育率的合计数,说明每名妇女按照某一年的各年龄组生育率度过育龄期,平均可能生育的子女数,是衡量生育水平最常用的指标之一.四,模型的建立和求解4.1,GM(1,1)预测模型的基本原理(1)GM(1,1)灰色系统[1]所谓灰色系统是指既含有已知信息,又含有未知信息的系统,是由邓聚龙教授在1986年提出的.灰色理论自诞生以来,发展很快,由于它所需因素少,模型简单,特别是对于因素空间难以穷尽,运行机制尚不明确,又缺乏建立确定关系的信息系统,灰色系统理论及方法为解决此类问题提供了新的思路和有益的尝试.灰色预测方法是根据过去及现在已知的或非确知的信息,建立一个从过去引申到将来的GM模型,从而确定系统在未来发展变化的趋势,为规划决策提供依据.在灰色预测模型中,对时间序列进行数量大小的预测,随机性被弱化了,确定性增强了.此时在生成层次上求解得到生成函数,据此建立被求序列的数列预测,其预测模型为一阶微分方程,即只有一个变量的灰色模型,记为GM(1,1)模型.灰色GM(1,1)预测模型在计算过程中主要是以矩阵为主,它和MATLAB的结合可以有效的解决了灰色系统理论在矩阵计算中的问题,为灰色系统理论的应用提供了一种新的方法.(2)GM(1,1)预测模型的基本原理GM(1,1)模型是灰色预测的核心,它是一个单个变量预测的一阶微分方程模型,其离散时间响应函数近似呈指数规律.建立GM(1,1)模型的方法是:设(0)(0)(0)(0)1,2,,XXXXn为原始非负时间序列,(1)Xt为累加生成序列,即(1)(0)1,1,2,,imXtXmtn(1)GM(1,1)模型的白化微分方程为:(1)(1)dXaXudt(2)式(2)中,a为待辨识参数,亦称发展系数;u为待辨识内生变量,亦称灰作用量.设待辨识向量ˆaau,按最小二乘法求得1ˆ()TTaBBBy式中(1)(1)(1)(1)(1)(1)11212123121112XXXXBXnXn(0)(0)(0)23XXyXn于是可得到灰色预测的离散时间响应函数为:(1)(0)11atuuXtXeaa(3)(1)1Xt为所得的累加的预测值,将预测值还原即为:(0)(1)(1)ˆˆˆ11,1,2,3XtXtXttn(4)(3)GM(1,1)预测模型的MATLAB程序根据上述GM(1,1)模型的数学思想,结合MATLAB语言的特点编制了一套可读性强,容易理解的预测程序.该程序操作简单灵活,稳定性好,直接面向用户.4.2,BP神经网络模型的基本原理(1)神经网络的定义简介[2]神经网络是由多个神经元组成的广泛互连的神经网络,能够模拟生物神经系统真实世界及物体之间所做出的交互反应.人工神经网络处理信息是通过信息样本对神经网络的训练,使其具有人的大脑的记忆,辨识能力,完成名种信息处理功能.它不需要任何先验公式,就能从已有数据中自动地归纳规则,获得这些数据的内在规律,具有良好的自学习,自适应,联想记忆,并行处理和非线性形转换的能力,特别适合于因果关系复杂的非确定性推理,判断,识别和分类等问题.对于任意一组随机的,正态的数据,都可以利用人工神经网络算法进行统计分析,做出拟合和预测.基于误差反向传播(Backpropagation)算法的多层前馈网络(Multiple-layerfeedforwardnetwork,简记为BP网络),是目前应用最成功和广泛的人工神经网络.(2)BP模型的基本原理[3]学习过程中由信号的正向传播与误差的逆向传播两个过程组成.正向传播时,模式作用于输入层,经隐层处理后,传入误差的逆向传播阶段,将输出误差按某种子形式,通过隐层向输入层逐层返回,并“分摊”给各层的所有单元,从而获得各层单元的参考误差或称误差信号,以作为修改各单元权值的依据.权值不断修改的过程,也就是网络学习过程.此过程一直进行到网络输出的误差准逐渐减少到可接受的程度或达到设定的学习次数为止.BP网络模型包括其输入输出模型,作用函数模型,误差计算模型和自学习模型.BP网络由输入层,输出层以及一个或多个隐层节点互连而成的一种多层网,这种结构使多层前馈网络可在输入和输出间建立合适的线性或非线性关系,又不致使网络输出限制在-1和1之间.见图(1).O1O2OiOm(大于等于一层)W(1)…W(L)(3)BP神经网络的训练BP算法通过“训练”这一事件来得到这种输入,输出间合适的线性或非线性关系.“训练”的过程