-1-参赛密码(由组委会填写)全全第十届华为杯全国研究生数学建模竞第十届华为杯全国研究生数学建模竞赛赛学校上海工程技术大学参赛队号10856015队员姓名1.徐小剑2.谭英花3.徐彪-2-参赛密码(由组委会填写)第十届华为杯全国研究生数学建模竞赛第十届华为杯全国研究生数学建模竞赛题目中等收入定位与人口度量模型研究摘要:中等收入人口比重是反映收入分配格局的重要指标,这一人口比重越大,意味着收入分配结构越合理,称之为“橄榄型”收入分配格局,这种收入格局下,社会的差距不大,有利于社会的稳定。本文主要是明确中等收入群体的含义,对题目提到的测定中等收入群体的现有方法进行改进,对一系列收入数据进行定量描述,分析一定时间内某个区域的中等收入人口的变化,最后提出题目提到的方法之外的方法对中等收入人口进行测算。对于问题1,本文在满足(9)式的基础上,构建关于),(pL的新模型,即L(p)=pα(tan(p*pi/4))υ,其中α≥0,υ≥1。利用Mathematica编制程序,应用lsqnonlin非线性最小二乘拟合函数,求解模型参量,拟合出洛伦兹曲线,并对参考文献中的10个模型进行拟合。然后,采用均方误差(MSE,meansquarederror)的方法,对新建的模型与来自参考文献中的10个模型进行拟合精度的比较,RESNORM值反映新建模型的拟合精度较好,高于部分模型。对于问题2,改进方法一,用部分排序法对收入空间法进行改进,其原理在于,中等收入是一个变化的区间,随着收入水平的提高,中等收入人口的比重会有所变化,一般而言是增加,那么中等收入人口的比例范围也应有所增加,而不是一个固定的区间,将范围依次确定为75%~125%、75%~150%,从而实现纵向比较。但该方法改进有限,文章又提出改进方法二,用模糊分析法进行改进,让收入人口的收入比例随即在区间[(1-a)*S1,(1+a)*S1]内变化。对于人-3-口分布法的改进,主要考虑不同社会发展阶段,中等收入人群的比重是不一样的,除去固定比重的局限,选择不同的参数值对应的人口比例区间进行计算,同时可以结合基尼系数G帮助选择。对于问题3,首先对收入分配的真实数据进行简单的描述统计。利用问题2中部分排序法具体化中等收入人口的三个比例:75%~125%、75%~150%、50%-150%,对此分别算出各个地区各个年份的中等收入群体,并结合收入分布,画出收入分布间距密度图,进行纵向比较。其次通过Matlab软件使用多项式插值法曲线拟合L(p)曲线方程,计算出基尼系数,进行地区横向比较。对于问题4,建立了“模糊界定法”新模型,在文中收入空间发、人口空间法的基础上,根据每一群体洛伦兹曲线的不同,变动和优化上下界限,重新选定中等收入群体,以实现对收入空间法、人口空间法固有缺陷的修正。关键词:中等收入人口;Mathematica;部分排序法;模糊分析法;-4-一、问题的重述居民收入分配关系到广大民众的生活水平,分配公平程度是广泛关注的话题。其中中等收入人口比重是反映收入分配格局的重要指标,这一人口比重越大,意味着收入分配结构越合理,称之为“橄榄型”收入分配格局。在这种收入分配格局下,收入差距不大,社会消费旺盛,人民生活水平高,社会稳定。一般经济发达国家都具有这种分配格局。直观上,收入处于中间部分人口增加,则收入分配格局向好的方向转化。于是基本问题回答什么是中间部分,即确定中等收入群体。一个国家的收入分配可以用统计分布表示,下图是某收入分配的密度函数)(xf,其中0x表示收入(仅考虑正的收入),0x是众数点,m是中位数点,是平均收入。收入分配经验分析说明,收入分配曲线一般是所谓正偏的,即峰值点向左偏,右端拖一个长尾巴,且通常有mx0记对应的分布函数为)(xF,则)(xFp表示收入低于或等于x的人口比例。由于21)(mF,(1)式意味着收入大于或等于平均收入的人口一定不到半数,因此是少数。记收入低于或等于x的人口群体拥有收入占总收入的比例为)(pL,则应有xtttfpL0d)(1)(,)(xFp(2))(pL称之为收入分配的洛伦兹曲线。显然,如果)(1pL与)(2pL是两个不同收入分配的洛伦兹曲线,若对任何)1,0(p都有)()(21pLpL,则)(1pL对应的收入分配显然更优,因为在)(1pL中,任何低收入端人口拥有的总收入比例更大。下图中红色曲线是某收入分配的洛伦兹曲线。-5-图1其中横轴表示人口比例,纵轴表示总收入比例。显然,图中曲线位置越高,所代表的收入分配越平等。其中45线可以理解为平等收入线,这时,任何低收入端人口比例为p的人口拥有的总收入比例也是p,从而必定是完全平等的收入分配。因此定义45线与)(pL之间面积的2倍为基尼系数。于是基尼系数定义为10d)(21ppLG(3))(pL与)(xf具有关系xpL)((4))(1)(pLxf(5)其中)(xFp。记)(xF的反函数为)(1pF,则洛伦兹曲线可以表示为pqqFpL01d)(1)(实践中通过入户调查获得家庭收入与消费等数据,如果可以得到这类数据,则可以使用例如Kernel法估计收入分配的统计分布。我国统计部门也进行这种调查,但数据不对外公开,而只是在统计年鉴上发布所谓的分组数据(世界上很多国家也如此),这种数据的完整形式为-6-iixp,,ni,,2,1(6)iiLp,,ni,,2,1(7)其中ix是收入区间点,满足1210nnxxxx,通常1nx理解为充分大的正数。n通常不大,例如10n。很多国家只提供(7)式描述的数据。经济学界只能利用这种稀疏的信息进行收入分配分析。记00p,则),[1iixx中人口比例为1iipp。例如图1中“+”中标出的点表示了形如(7)的数据点,其中/10ipi,9,,2,1i,最后的点是95.010p。如果收入分配的真实洛伦兹曲线为)(pl,且若)(pl存在,则(6)表示的是)(pl曲线上的坐标点,即iixpl)(;(7)表示)(pl曲线上的点,即iiLpl)(。经济学界采用所谓的洛伦兹曲线模型),(pL拟合上述数据(7),其中是一组参数,使用非线性最小二乘法求解niiiLpL12),(min(8)确定其中参数向量的估计值ˆ,然后用)(ˆ)ˆ,(pLpL作为近似的洛伦兹曲线来进行收入分配分析,显然,这时就能通过(4)、(5)式确定相应的统计密度与分布的估计。),(pL是定义在]1,0[区间上、取值于]1,0[区间的函数,满足0),0(L,1),1(L,0),(pL,0),(pL(9)即),(pL在]1,0[上是凸增函数。文献中常常略去参数以求表述简练。但洛伦兹曲线只能表现一个国家整体收入分配的不平等程度,在此基础上对中等收入群体进行测定还是需要特殊的算法,经济学计算中等收入群体主要有两种算法,一是“收入空间法”,取收入落在中位收入m的一个范围内的人口为中等收入人口,一是另一种方法可以视为“人口空间法”,即选择21)(mF邻近的一个范围为中等收入人口,例如取范围1p20%到2p80%,当然,按定义,中等收入人口比例已经取定为60%。再用此60%的人口所拥有的收入占总收入的比例来描述中等收入人口的状态。但两种方法都有一定的局限,对此结合参考文献,在此基础上进行创新,完成如下问题:一、构造满足(9)式的新模型),(pL,使得能很好的拟合上述分组数据、-7-反映经济规律。请在现有参考文献中(文献[4]的参考文献部分列出了大部分有关的文献)找出至少10种模型,与你们提出的模型进行比较。通过比较,说明你们的模型不差。二、研究可否改进上述提到的收入空间法,这时需要研究确定中等收入的范围、中等收入人口的范围的科学方法,以克服中等收入区间取法的任意性;研究可否改进上述提到的人口空间法,例如研究在各年中1p与2p取不同的值时,纵向比较各年中等收入人口与收入的变动的方法。三、利用最后表二至表五所附A,B两个地区前后两个不同年份的收入分配分组数据,请研究:(1)对各地区、各年份的中等收入的数量(或范围)、中等收入人口的数量或范围进行定量描述,说明中等收入人口的变化趋势;(2)比较两个地区的中等收入人口、收入等变化情况。四、除二题中所述方法外,提出中等收入人口的定义、原理及经济学意义,并提出与之相应的中等收入人口的测算方法、模型或指数,说明其经济学意义。二、符号说明G基尼系数R中等收入群体区间k中等收入群体收入比例系数S1中等收入群体收入比例三、模型的建立和求解3.1问题一3.1.1模型建立与求解本题主要是构造一个满足(9)式的新模型),(pL,该模型能很好的拟合上述分组数据,误差较小,即根据已有的数据拟合洛伦兹曲线。根据参考文献[3],洛伦兹曲线模型的一般式为:L(p)=f(p)αg(p)υ,α≥0,υ≥0当α≥0,υ≥1时,Ls(p)=pαL(p)υ即为另一派生洛伦兹曲线模型,在满足(9)式条件的基础上,我们构造以下模型来拟合表1中数据:L(p)=pα(tan(p*pi/4))υ,α≥0,υ≥1利用参数变换把模型转变成无约束型:α=exp(a),υ=1+exp(b)相当于把模型中的参变量变成a、b,参变量无约束条件,即化为无约束非线性最小二乘问题。-8-表1收入分配分组数据jx1jxjfjpjL0.00999.000.07800.07800.00591000.001499.000.05600.13400.01651500.001999.000.04200.17600.02762000.002499.000.04700.22300.04362500.002999.000.04200.26500.06113000.003499.000.04400.30900.08283500.003999.000.04100.35000.10614000.004999.000.08600.43600.16475000.005999.000.09200.52800.24136000.006999.000.08800.61600.32797000.007999.000.08000.69600.41888000.008999.000.06500.76100.50249000.009999.000.05200.81300.577210000.0011999.000.07800.89100.707112000.0014999.000.05600.94700.821615000.0024999.000.04300.99000.945325000.000.01001.00001.0000本文利用Mathematica编制程序,应用lsqnonlin非线性最小二乘拟合函数,求解模型参量。具体程序见附件1。其拟合结果如下图所示:图3新建模型的拟合图拟合结果:a=-12.3515,b=-0.2304,RESNORM=0.0036。3.1.2模型的比较与优势分析为了检验我们建立模型的拟合精度,题目要求将建立的模型与参考文献中选出的至少10个模型进行比较。拟合精度的的好坏主要采用均方误差(MSE,meansquarederror)进行比较,因RESNORM值与均方误差只差一个倍数关系,-9-可以直接比较RESNORM大小即可知拟合精度好坏。从已知的参考文献中找出10种比较模型,与新构造模型比对,其拟合曲线及RESNORM值见下:1)模型一:L(p)=pα[1−(1−p)β]υ,β∈(0,1],应用lsqnonlin非线性最小二乘拟合,拟合曲线如图4。图4模型一的拟合图拟合结果:α=1.3920,β=0.5181,υ=0.4778,RESNORM=5.7350e-05。通过比较,新建模型的RESNORM=0.0036大于RESNORM=5.7350e-05,新建模型的拟合精度低于模型一。2)模型二:L(p)=pα[1−(1−p)β]。其拟合图形见图5。图5模型二的拟合图拟合结果: