精算模型第六章

tqtifm
1 ℃
2020-02-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第六章经验模型问题：如何选取合适的理赔额分布或理赔次数的分布。分布拟合检验的一般步骤（1）获得损失分布的经验分布信息，例如经验分布图、样本均值、样本方差、分位点等。（2）选择一种概率分布作为损失的分布类型，估计所选择分布中所包含的参数；（3）对分布进行拟合检验，以确信所选择的分布类型和参数估计是否恰当；（4）考虑是否还有其它适合的分布，如果有，重复第（1）—（3）步;（5）在几种合适的分布中选取一个最优的分布作为损失额的分布。选择的标准有多种，常用的方法是比较2统计量的值，比较最大似然函数的值等；（6）模型的修正。选择模型后，要注意随时对模型修正，以反映未来发生的情况，如通货膨胀，免赔额变化等。一、构建经验模型DatasetA下表是某保险公司在一年内小汽车发生事故次数的统计数据：发生事故次数驾驶员数量081,714111,306216183250440不少于57DatasetB下表是某劳工补偿险的部分原始损失数据2782115126155161243294340384457680855877974119313401884255815743DatasetC下表是某责任险的赔付数据：支付范围支付次数0-7500997500-175004217500-325002932500-675002867500-12500017125000-3000009超过3000003DatasetD1寿险保单终止有三种状态：死亡，期满和退保（surrender）。下表是某寿险保单持有人在签订保单后5年内保单终止的时间记录。policyholderTimeofdeathTimeofsurrender1-0.124.80.53-0.840.83.953.11.86-1.87-1.88-2.19-2.5102.92.8112.94.612-3.9134.0-14-4.015-4.1164.8-17-4.818-4.819-30--其中‘-’表示时间未知，最后12个保单持有人保单期满并退保。DatasetD2下表表示寿险保单存活状态的两次观测值，其中Firstobserved表示第一次观测的时间，若为0则表示保单签订后马上进行记录，Lastobserved表示第二次观测的时间，Event表示最后一次观测时保单持有人的状态，S表示退保，D表示死亡，E表示保单期满。PolicyFirstobservedLastobservedEventPolicyFirstobservedLastobservedEvent100.1S1604.8D200.5S1704.8S300.8S1805.0S400.8D19-3005.0E501.8S310.35.0E601.8S320.75.0E702.1S331.04.1D802.5S341.83.1D902.8S352.13.9S1002.9D362.95.0E1102.9D374.8S1203.9S383.24.0D1304.0D393.45.0E1404.0S403.95.0E1504.1s例这是一组责任险保单的赔付数据,这个数据中包含了不同的免赔额和限额。年免赔额最大支付额赔付额年免赔额最大支付额赔付额9001000000289091150000001000000010000000900500000058519201000000183690250000100000001534792010000001070590010000001563592050000001097390030000002055392050000001340890010000000345849201000000016339900100000007966192350000500000095736900400000132601920100000021231390150000050000001410989920500000043954390010000000278440192700000001500000010987109001000000048943609203000000121118090100000001000000093167519305000001051091010000001891930300000014029910300000030893930100000001529691010000003139293500001000000275169150000010000000494889301000000053467911750001000000674259330000050000008746391010000001503109310000050000002209959145000000330000001335735931500005000000274086910100000003308199930500000018623049112750000100000001000000093050000005000000请同学们观察上述几个数据集的特征个体，完整数据分组数据Truncated和Censored数据我们将分三种情况讨论经验模型的构建个体，完整数据分组数据Truncated和Censored数据censored（fromabove）truncated(frombelow)（一）个体数据对于个体数据，它的经验分布信息除了样本均值、样本方差、中位数、极大值和极小值，还包括经验分布函数、生存函数（survival），死亡力函数(cumulativehazardratefunctuon）等信息。1、样本分布函数样本分布函数就是累积频率，其定义式为()nnumberofobservationsxFxn其中ｎ是样本量。例：设某医疗保险，规定免赔额为50元，随机抽取了10个理赔事件，赔偿额分别为1411646403512593171511107567F10(16)=1/10=0.1,F10(40)=0.2,…,F10(1511)=1可以证明:当X1,X2,…,Xn是某总体X～F(x)的独立同分布的样本时，Fn(x)依概率收敛到F(x).经验生存函数'()1()innnumberofxstStFtn特殊地,设样本为n个数据x1,x2,…,xn，这ｎ个数据中只有ｋ个不同的值，把这ｋ个值按从小到大的顺序排列，记为ｙ(1)ｙ(2)…ｙ(ｋ)，令ｓｊ表示等于ｙ（ｊ）的数据的个数，kjiijrs表示大于等于ｙ（ｊ）的个数，经验生存函数为1(),jnjjrStifytyn则样本分布函数(1)(1)()()0,()1/,,2,...,1,njjjkxyFxrnyxyjkxy例：假设某数据集包括7、2、4、4、6、2、1、9，则11y，22y，34y，46y，57y，69y，11s，22s，32s，41s，51s，61s，kjiijrs18r，27r，35r，43r，52r，61r483(4.5)8rSn，3444.56yy8(3)?S例假设某数据集包含下面的数据：1.0,1.3,1.5,1.5,2.1,2.1,2.1,和2.8，计算其经验分布函数。解：ｋ＝５，ｊｙｊｓｊｒｊ１1.018２1.3？7３1.52？４2.134５2.81180,1.0710.125,1.01.38610.250,1.31.58()410.5,1.52.18110.875,2.12.881,2.8xxxFxxxx2、经验均值、经验方差等1ˆ221111ˆ,()nniiiiXnXXn1ˆ()((numberof'))ikkiixuEXuxuxsun3、百分位数设随机变量X的分布函数为(,)Fx，称()p为(,)Fx的100％p分位数，如果()p满足(()|)pFp个体数据的样本分位点：将1,,nxx按从小到大的顺序排列为(1)(),,nxx。对于01p，g=[(n+1)p]表示不超过(n+1)p的最大整数，此时认为分位数应该在x(g)和x(g＋1)之间。记h=(n+1)p-g表示(n+1)p的小数部分，则样本的100p％的分位数为(p)=(1-h)x(g)+hx(g＋1)中位数当n为奇数时,记k=(n+1)/2,中位数为x(k),当n为偶数时,记k=n/2,则中位数为)1()(2121kkxx例：求下表中的理赔记录的25％和75％分位数来估计参数的值。0.10.52.24.128.10.20.72.65.930.00.20.92.96.249.20.31.33.212.163.80.41.83.313.65118.0由于0.25×26＝6.5，因此，0.25的分位点为0.5×0.5+0.5×0.7＝0.65类似计算，0.75×26＝19.5，0.75的分位点为0.5×12.1+0.5×13.65＝12.8754、核估计直观含义经验分布函数是离散的，而大多数真实分布是连续的，因此经验分布不能很好的近似真实的分布，核估计的基本思想就是对每个观测值yj使用一个连续分布函数去近似，即令()jyKx表示在yj附近的分布函数，其均值为yj，则分布函数的核估计定义为：1ˆ()()()jkjyjFxpyKx()jpy表示yj的经验概率，密度函数1ˆ()()()jkjyjfxpykx其中jyK是连续分布函数，jyk为其分布函数。常见的核函数均匀核函数0,1(),20,yxybkxybxybbxyb0,(),21,yxybxybKxybxybbxyb请同学们画出均匀核函数分布图例:某个损失数据的样本为：7,12,15,19,26,27,29,29,30,33,38,53。给定带宽参数5h，利用均匀核函数，估计ˆ(20),fˆ(20),Fˆˆ(30),(30)fF。对于ˆ(20)f，需要考虑15,19处的经验密度，两点的权重都为11210h。11111ˆ(20)1210121060f。对于ˆ(20)F，需要考虑的点包括7，12，15，19。其中前两个点在带宽范围左边，权重为1，第三个点权重也为1，第四个点权重为0。6。因此：11113ˆ(20)1110.61212121210F。同法可得：1111111111111ˆ(30)12101210121012101210121020f11111111219ˆ(30)11110.90.80.60.50.212121212121212121230F我们可以绘制核密度估计的分布函数和密度函数图像，如图8-7所示̣。图8-1均匀核密度估计的密度函数和分布函数三角核函数220,,(),0,yxybxybybxybkxybxyxybbxyb（请同学们画出三角型图）22220,(),2()()1,21,yxybxybybxybKxybxyxybbxyb例：例某个损失数据的样本为：7,12,15,19,26,27,29,29,30,33,38,53。给定带宽参数5h，利用均匀核函数，估计ˆ(20),fˆ(20),Fˆˆ(30),(30)fF估计过程类似。为计算ˆ(20)f，需要考虑的点是15，19。由公式(8.4.8)得到相应的权重分别为0和25|2019|4525。因此：141ˆ(20)122575f对于对于ˆ(20)F，由(8.4.9)计算得到点7，12，15，19的权重分别为1，1，1，22(19205)1712525。因此：11111723ˆ(20)111121212122575F同理可得，3ˆ(30)50f，49ˆ(30)75F。相应的估计结果示意图为：图8-2