基于GAM_Tweedie模型的车险定价研究摘要:广义线性模型作为车险费率厘定的主流方法,其假设协变量的影响为预测函数的线性形式,但在实际的情况下,许多对索賠频率、索賠强度或纯保费的影响因素不仅仅是表现成线性形式的,单纯地用线性估计会造成一些变量的不显著而丢失重要影响因素。本文以一组汽车保险损失数据为样本,建立Tweedie广义加法模型,通过与Tweedie广义线性模型对比,表明Tweedie广义加法模型可以更好的解释各因素对索赔额的影响。关键词:广义线性模型,车险费率厘定,Tweedie分布,广义加法模型一、引言车险定价实则是对索赔频率、索赔强度或纯保费进行预测。在车险定价实务中,经常假设索赔频率与索赔强度相互独立,并分别建立索赔频率和索赔强度的广义线性模型。在独立的假设下,可以把索赔频率与索赔强度的预测值相乘从而求得纯保费的预测值。这种方法简单易行,在非寿险精算实务中得到广泛的应用,但其忽略了索赔频率与索赔强度之间可能存在的相依关系,从而造成预测的偏差。而在纯保费的预测中,主要是应用Tweedie广义线性模型。Tweedie广义线性模型,是假定保单的累积赔付额服从Tweedie分布,对赔付额的均值函数建立回归模型。其要求协变量的影响为预测函数的线性形式,但在实际的情况下,许多对纯保费的影响因素不仅仅是表现成线性形式的,如空间协变量,大多数情况下其对响应变量均值函数的影响是非线性的,如果单纯地用线性估计会造成一些变量的不显著而丢失重要的影响因素。为了更好的拟合数据,从而有必要对其进行优化推广,在广义线性模型中纳入平滑预测项,将其推广到广义加法模型。从线性和非线性两个方面去分析各因素对预测函数不同的影响程度。本文以一组汽车保险损失数据为样本,建立Tweedie广义加法模型,利用R软件对模型的参数进行估计检验。通过与Tweedie广义线性模型对比,表明Tweedie广义加法模型可以更好的解释各因素对索赔额的影响,从而改进了传统广义线性模型对纯保费的预测精度。二、理论基础2.1广义线性模型广义线性模型(GLM)首次由Nelder和Wedderburn(1972)提出,是常见正态线性模型的推广形式。模型要求响应变量只能通过线性形式依赖于自变量,从而保持了线性自变量的思想。其对线性模型进行了两个方面的推广:一是在因变量分布方面,GLM扩充了分布类型,假设因变量iY服从指数分布族,其密度函数可以表示为)},()()(exp{),|(iiiiiiycabyyf其中,),(),(),(iiycba为已知函数,对所有的观察值具有相同的形式。i为自然参数,与均值是一一对应关系,为离散参数。指数分布族的均值和方差可以分别表示为:)()('iiibYE)()()()()(iiiuVabaYVar指数分布族包括正态分布、二项分布、泊松分布、伽马分布和逆高斯分布等。二是在表达形式方面,GLM是假设响应变量均值经过某连接函数变换后,等于解释变量的线性组合形式,具体如下:)()()('11iiiixggYE其中,i是风险i的期望值,)(iV是方差函数,ix是解释向量,是回归系数向量,'iix是线性预测项,g是连接函数。模型中参数可利用极大似然估计法来估计,通过加权最小二乘估计,再使用Newton-Raphson迭代算法,可得到的极大似然估计。因为数据和算法的复杂,可通过R中的软件包进行拟合。2.2Tweedie分布Tweedie分布族是一类特殊的指数分布族,证明参见孙维伟(2014),用),(PWT来表示,由方差函数PV)(完全确定,p的取值在。图一给出了在、保持不变的情况下,P取不同的值时Tweedie分布族的概率密度和累积分布。图一Tweedie分布族的概率密度和累计分布图其中指数参数P不同的取值对应着不同的分布形式,P=0、1、2、3分别对应正态、泊松、伽马和逆高斯分布,当1P2时,为Tweedie分布,即复合泊松分布,由泊松分布和伽马分布复合而成:如果保单在保险期间的索赔次数服从泊松分布,每次索赔的赔付额服从伽马分布,则保单在整个保险期间的累积赔付额服从Tweedie分布,适合用来拟合个体保单的总赔付金额数据。Tweedie分布在零点有一个较大的概率堆积,从图一概率密度函数可看出,当P值越接近2时,其在零点的概率越大,这与车险不发生损失几率大的情况符合。在车险定价实务中,如果索赔频率和索赔强度之间的相依关系较强时,常采用Tweedie回归模型直接对索赔额建模。可通过迭代算法求得Tweedie分布指数参数p的极大似然估计值。2.3广义加法模型2.3.1模型介绍进入21世纪以来,分类费率厘定的主流方法被GLM所取代,但随着车险行业的发展、数据的复杂化,由于其对协变量的影响必须为预测函数的线性形式,使得传统的GLM已经不能满足精算者们的需求,于是对GLM进行扩展成广义加法模型(GAM)来拟合更加复杂的数据。GAM是在GLM的基础框架下,将解释变量的形式引入非参数函数,使得其更一般化,从而具有较小的偏差、良好的稳健性和广泛适用性。具体来看,GAM由三个部分组成:随机部分、系统部分和联结函数。第一部分是随机部分,是指响应变量Y的概率分布。假设响应变量TnyyyY),,,(21的每个观测值相互独立且服从指数分布族,如正态分布、泊松分布、伽马分布、逆高斯分布和Tweedie分布等。第二部分是系统部分,与GLM不同的是GAM加入了非参数函数部分,表达形式为:rkkkxfXg1)()(其中X是具有线性影响的解释变量矩阵形式,是相应的系数矩阵,),,2,1(rkxk是非线性影响的解释变量,)(kf是非参数的待估计的光滑函数,为响应变量均值,)(g为联结函数。第三部分是联结函数。通过联结函数将响应变量与解释变量连接一起。常用的联结函数有对数联结函数、倒数联结函数和logit联结函数等。对于响应变量服从不同的分布其联结函数与之对应,譬如对于泊松分布选择对数联结函数,伽马分布选择倒数联结函数,二项分布假设下则常选择logit联结函数等等。2.3.2参数估计GAM是GLM的参数、半参数拓展,可应用不同函数拟合解释变量的非线性关系,假设函数可加、且函数的组成成分是光滑函数,进而可以通过联结函数建立响应变量的均值与解释变量之间的关系。尤其对于空间数据,GAM能够使解释变量的非线性影响表现得更加明确。GAM与GLM相比,其核心观点在于非参数部分,即解释变量的非线性影响函数。因此,GAM的关键在于,如何估计或采用光滑函数逼近这一非参数部分。GAM的估计与LM相似,就是借助最小二乘法使期望值与观测值之间的差距达到最小,同时兼顾光滑性。GLM对参数的估计常用极大似然法,GAM对参数的估计可采用惩罚极大似然法(penalizedlikelihoodmaximization),即等价于惩罚迭代加权最小二乘法(penalizediterativelyre-weightedleast,P-IRLS),参见Wood(2006),Marra和Wood(2012)。GAM除了拟合普通线性因子外,还可以采用不同的光滑函数相加的形式来描述那些与响应变量之间存在复杂非线性关系的变量。对于每个解释变量所对应的单变量函数的拟合方法有很多种,如核光滑函数、局部加权回归光滑函数、样条函数和张量积函数,这些方法都属于非参数方法。2.3.3模型的选取与评价GLM的评价和检验主要是基于模型的偏度和尺度化偏差,另外常用的也有Pearson卡方统计量、残差检验,较为简单的有AIC、BIC等信息准则,它们定义为:信息准则的值越小表明模型拟合的效果越好。GAM模型是通过广义交叉验证(GeneralizedCrossValidation,GCV)标准或无偏风险估计(Un-BiasesRiskEstimator,UBRE)标准指定GAM的光滑因子,进而解决光滑参数的估计问题。因而,GAM的选取可以依据GCV或UBREscore统计量的值,GCV和UBRE定义为:其中,D是模型的偏差,n是数据个数,s是尺度参数,Dof是模型的有效自由度。当s未知时,可采用GCVscore估计光滑参数𝝀,当s已知时,可采用UBREscore估计光滑参数𝝀。Mallows(1973)将UBRE称为Mallows’sCp,UBRE也可看作是有效赤池信息准则(AIC)的重新调整。建立合适的GAM的标准是使GCV/UBREscore(比例AIC)最小,或者说,模型的GCV/UBREscore越小,表明模型的估计结果越准确。所以,比较或选择最优的GLM和GAM的标准之一是AIC统计量值,AIC越小,表明模型的估计越准确,此外,模型的解释偏差或者ANOVA函数也是比较模型的常用方法。三、实证研究3.1数据来源及描述本文采用1977年瑞典汽车第三者责任保险的一组详细损失数据(数据来源:)。该数据有七个变量:年行驶里程数(分为5个等级,用K表示)、行驶地区(分为7个等级,为更准确拟合数据分布本文只采用前6个等级,用Z表示)、无赔款折扣等级(分为7个等级,用B表示)、车型(分为9个等级,用M表示)、保单年数、赔付次数和总赔付额,详细描述见表一。所有的被保险人被划分成了1887个类别,总的保单年数为2364086.33,经验数据的平均索赔频率为0.048,次均赔款为4956.56,平均纯保费为235.98。表1变量说明VariableDescriptionKilometresKilometrestravelledperyear1:10002:1000-150003:15000-200004:20000-250005:25000ZoneGeographicalzone1:Stockholm,Göteborg,Malmöwithsurroundings2:Otherlargecitieswithsurroundings3:SmallercitieswithsurroundingsinsouthernSweden4:RuralareasinsouthernSweden5:SmallercitieswithsurroundingsinnorthernSweden6:RuralareasinnorthernSwedenBonusNoclaimsbonus.Equaltothenumberofyears,plusone,sincelastclaimMake1-8representeightdifferentcommoncarmodels.Allothermodelsarecombinedinclass9InsuredNumberofinsuredinpolicy-yearsClaimsNumberofclaimsPaymentTotalvalueofpaymentsinSkr3.2分布选择在建模前,首先要确定响应变量Y的分布。为排除因忽略索赔次数和索赔强度之间可能存在相依关系而导致预测偏差的缺陷,本文直接对索赔额建模,采用Tweedie分布,但其前提必须满足,索赔次数服从poisson分布,每次索赔的赔付额服从gamma分布。索赔次数、索赔强度和索赔金额的拟合分布如下图所示,第一个图曲线是poisson分布对索赔次数的拟合值,第二个图中的曲线是gamma分布对索赔强度的拟合值,通过对图形的观察我们可以得到用poisson分布拟合索赔次数、gamma分布拟合索赔强度其拟合效果较好。最后一个是索赔额的直方图,在零点有很大的概率堆积,这与汽车保单损失情况符合。因此,保单累积赔付拟合Tweedie分布是合理的。图二分布拟合3.3模型建立在索赔额服从Tweedie分布的情况下,对索赔额数据建立广义线性模型,但考虑解释变量对响应变量函数的影响可能不全是线性的,例如区域变量,其对索赔额的影响大多情况下是非线性的,因此,为了更好刻画解释变量与响应变量之间的关系,另外再建立广义加法模型与之对比。3.3.1Tweedie分