东北大学秦皇岛分校数学模型课程设计报告经理人的人寿保险模型院系数学与统计学院专业信息与计算科学学号姓名指导教师张尚国姜玉山成绩教师评语:指导教师签字:2012年7月11日数学与统计学院数学模型课程设计报告第1页摘要本文通过对数据的观察,并绘出其散点图,推测经理的人寿保险额只与其年均收入和风险偏好度之间分别存在着二次效应和线性效应。在采用混合回归模型建立起了经理的人寿保险额与其年均收入和风险偏好度之间的函数关系式,利用MATLAB软件的统计工具箱中的regress求解,结合题中所给数据对各参数的值与其置信区间进行了估计,并进行残差分析和数据剔除,以达到模型优化。在基本模型的基础上,扩展改进了风险偏好二次效应的模型和交互效应模型,在通过求解分析检验,得出风险偏好度对人寿保险金额不具有二次效应,两个变量一定程度上有交互效应。但综合比较之后,可以看出,最优的模型是20112231Yxx+x。本模型通过已知的统计数据,最终得出了极为近似的函数关系,其基本思想可以推广到其他同类的问题上。关键词:回归分析残差分析保险MATLAB1问题引入1.1问题题目课程设计的具体问题描述。下表列出了某城市18位35~44岁经历的年平均收入X1(千元),风险偏好度X2和人寿保险Y(千元)的数据,其中风险偏好度是根据发给每个经历的问卷调查表。综合评估得到的,它的数值越大,就越偏爱高风险。研究人员想研究此年龄段中的经理所投保的人寿保险额与年平均收入及风险偏好度之间的关系。研究者预计,经理的年平均收入和人寿保险额之间存在着二次关系,并有把握地认为风险偏好度对人寿保险额有线性效应,但对于风险偏好度对人寿保险额是否有二次效应以及两个自变量是否对人寿保险额有交互效应,心中没底。请通过表中数据来建立一个合适的回归模型,验证上面的说法,并给出进一步分析。请通过表中数据来建立一个合适的回归模型,验证上面的说法,并给出进一步分析。序号YX1X2序号YX1X2119666.2907104937.408526340.96451110554.3762325272.99610129846.186748445.0106137746.1304数学与统计学院数学模型课程设计报告第2页512657.2044141430.366361426.8525155639.060574938.12241624579.380184935.84061713352.7668926675.79691813355.9166表1.11统计的X1,X2和Y的数据1.2分析与假设根据我们平常的经验,我们容易做出如下判断:经理的人寿保险额应该随经理人的收入的提升而提高,与该经理人的风险偏好度有着直接的关系。然而,我们并不知道这种关系是二次关系还是线性关系,我们可以通过作图初步判定这种关系。为了简化模型,我们做如下假设:(1)假设经理人的年纪不影响所投保的人寿保险的金额;(2)假设经理人身体状况大致相当,无差异;2基本模型题目告知中预计Y与X1二次效应,有较大把握认为Y与X2有线性效应,为了大致地分析Y与X1和X2的关系,首先利用已知数据分别作出对Y对X1和X2的散点图和初步拟合图线。图2.1Y对X1的散点图图2.2Y对X2的散点图通过对图形1的分析发现随着X1的增加,Y有向上弯曲增加的趋势,因此拟合的时候选择使用二次拟合,建立2次函数的模型:201121Yxx(1)其中是随机误差通过对图像2的分析发现随着X2的增加,Y的值有比较明显的线性变化的趋势,因数学与统计学院数学模型课程设计报告第3页此我们建立了如下的模型:012Yx(2)综合上面的分析,我们建立如下的回归模型20112231Yxx+x(3)其中X1和X2为回归变量,20112231xx+x是给定收入X1和风险偏好度X2的数据时,购买的保险Y的平均值,0,1,2,3是回归系数,由已知的数据估计求解,如果模型建立的大致合适,,那么应该大致服从均值为零的正态分布。3模型分析3.1模型求解直接利用MATLAB统计工具箱中的regress求解(代码见附录),使用格式为:[b,bint,r,rint,stats]=regress(y,x,alpha)其中输入y为模型(3)中Y的数据(n维向量,n=18),x为对应于回归系数=(0,1,2,3)的数据矩阵[1X1X2X12](n4矩阵,其中第一列全为1),alpha为置信水平(缺省时=0.05);输出b为的估计值,记作ˆ,bint为b的置信区间,r为残差向量y-xˆ,rint为r的置信区间,stats为回归模型的检验统计量,有4个值,第1个回归方程的决定系数R2(R是相关系数),第2个是F统计量值,第3个是与F统计量对应的概率值p,第4个是估计误差方差。得到模型(3)的回归系数估计值及其置信区间(置信水平=0.05)、检验统计量R2、F统计量值、p值结果整理如下:参数参数估计值参数置信区间0-62.3489[-73.5027-51.1952]10.8396[0.39511.2840]25.6846[5.26046.1089]30.0371[0.03300.0412]R2=1.000F=11070p=0表3.11模型(3)的第一次计算结果并做出残差图,由图可知,第5组数据异常,剔除异常数据后,在用regress求解,可得到新的结果,如下表:数学与统计学院数学模型课程设计报告第4页参数参数估计值参数置信区间0-65.4793[-75.0115-55.9472]10.9879[0.60301.3727]25.5789[5.21895.9390]30.0358[0.03230.0393]R2=1.000F=16410p=0.000表3.12模型(3)剔除异常后的计算结果且剔除异常后的模型得到的残差全部正常。3.2模型分析剔除异常前,结果显示,R2=1.000指因变量Y(保险额)接近100%可由模型确定,F值远远超过F检验的临界值,p远小于,因而模型3从整体来看是可用的。剔除异常后,R2、p不变,但F值有较大增加,且估计误差方差变得更小,残差全部正常,故认为剔除后的模型更好。所以得出0,1,2,3的估计值0ˆ=-65.4793,1ˆ=0.9879,2ˆ=5.5789,3ˆ=0.0358,可以看到它们的置信区间都不含零点,模型可用,可知题目假设经理的年平均收入和人寿保险额之间存在着二次关系,风险偏好度对人寿保险额有线性效应成立,得到预测方程如下,当已知经理人年均收入X1和X2风险偏好度可以大致得到其人寿保险额。20112231ˆˆˆˆˆYxx+x4模型扩展4.1风险偏好二次效应模型为了进一步研究风险偏好度X2与保险额Y的关系,我们假设X2也具有二次效应,则建立模型如下:22011213242Yxxxx(4)用同样的方法求解模型,结果整理如下:参数参数估计值参数置信区间0-60.9104[-72.6072-49.2135]10.9303[0.43891.4218]20.0359[0.03100.0408]数学与统计学院数学模型课程设计报告第5页34.4529[1.69107.2147]40.1159[-0.14080.3727]R2=1.000F=8274p=0.000表4.11模型(4)的计算结果根据求解结果看,R2、p、F值并没有改善,并且4的置信区间含有零点,这表明22X对Y的影响不显著,即风险偏好度X2对Y没有二次效应。4.2风险偏好交互效应模型前面两种模型都是建立在X1和X2相互独立的基础上,为了进一步讨论X1和X2与Y的关系,再以X1X2作为一项,表示年平均收入和风险偏好度对保险额的交互效应,添加到模型中,如下:20112231412Yxxxxx(5)求解结果整理如下:参数参数估计值参数置信区间0-119.7372[-171.1948-68.2795]14.5630[3.85965.2664]2-5.6765[-17.41226.0592]31.2026[0.18112.2240]4-0.0264[-0.16620.1135]R2=0.9922F=410.9307p=0.0000表4.21模型(5)的计算结果2和4的置信区间包含零点,且做出残差图(见附录)可知,第11和16组数据异常,故剔除后,在进行一次求解,得到结果整理如下:参数参数估计值参数置信区间0-82.7109[-108.8778-56.5439]11.1854[1.48293.2093]2-5.6765[-6.10368.4744]3-1.0695[-2.1243-0.0146]40.3572[0.20580.5086]R2=1.0F=1697.3p=0.0000表4.22模型(5)第一次剔除异常后的计算结果数学与统计学院数学模型课程设计报告第6页2的置信区间仍包含零点,且在做残差图(见附录)可以看到,第5、6组数据异常,再次剔除,然后继续求解,结果整理如下:参数参数估计值参数置信区间0-79.5084[-101.0664-57.9504]11.9106[0.89422.9271]23.2038[-2.74889.1564]3-1.4625[-2.4402-0.4848]40.4227[0.26970.5758]R2=1.0F=3392.9p=0.0000表4.23模型(5)第二次剔除异常后的计算结果再次做出残差图(见附录),可以看到无异常数据,R2、p、F数值正常,模型总体可用,但是2的置信区间包含零点,认为2所对应的X2项对Y的影响不明显,故可以在模型(5)中剔除X2项,所以得到交互型模型如下:201131412ˆˆˆˆYxxxx(6)5总结5.1模型比较虽然大致上,模型(3)和模型(6)都是可用的,但是比较结果中各项数据,可以看出模型(3)更为理想,所以最终得出经理人人寿保险金额Y与年均收入X1和风险偏好度X2的关系模型:2121Y65.47930.9879x5.5789x+0.0358x。5.2模型评价本模型较好的地模拟了经理人人寿保险金额Y与年均收入X1和风险偏好度X2的关系,运用的回归分析思想和方法还可以推广到其他问题中,模型中得出的关系可以在已知年均收入和风险偏好的情况下预测人寿保险金额。但是考虑到人寿保险行业的特殊性,影响一个投保人投保额的大小的因素并不只有题中提到的两种,比如投保人的身体健康状况对其投保额的多少就有一定的影响,但对健康因素本模型忽略了,由于模型的变量选取较为简单,模型显得粗糙,还有很大的改进空间。数学与统计学院数学模型课程设计报告第7页附录1.散点图1.1图2.1Y对X1的散点图X1=[66.29040.96472.99645.01057.20426.85238.12235.84075.79637.40854.37646.18646.13030.36639.06079.38052.76655.916];Y=[19663252841261449492664910598771456245133133];plot(X1,Y,'*');holdonp=polyfit(X1,Y,2);x1=[25:0.1:80];yy=polyval(p,x1);plot(x1,yy,'r')holdoff1.2图2.2Y对X2的散点图X2=[7,5,10,6,4,5,4,6,9,5,2,7,4,3,5,1,8,6];Y=[19663252841261449492664910598771456245133133];plot(X2,Y,'*');holdonp=polyfit(X2,Y,1);x2=[0:0.01:10];yy=polyval(p,x2);plot(x2,yy,'r')holdoff2.模型求解2.1基本模型求解X1=[66.29040