Aprior算法的改进及其在保险企业CRM中的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Apriori算法的研究及其在保险企业CRM中的应用15:39:332/37汇报提纲论文工程背景和研究内容一二CRM及Apriori算法理论研究四徐州人寿CRM软件模型的实现模型评估与营销指导五三改进的Apriori算法15:39:333/37一、研究背景-论文工程背景保险企业客户数据密集保险企业必须以客户为中心数据库技术缺少对决策、分析、预测等高级功能的支持机制。15:39:334/37数据挖掘理论、CRM理论研究关联规则、Apriori算法研究徐州人寿保险企业CRM软件架构实现Aprior算法的改进模型评估与销售指导研究背景-论文研究内容15:39:335/37二、CRM及Apriori算法理论研究----CRM理论全称CustomerRelationshipManagement从商业角度看一种商业策略。通过完善客户服务,向客户提供最大利益的同时实现企业的价值。从信息角度看综合应用数据库、数据挖掘等技术,为企业的决策支持等提供自动化的解决方案。15:39:336/37•Aprori算法属于无监督学习算法,与C4.5、Kmeans、朴素贝叶斯、KNN、EM、PageRank、AdaBoost、SVM、CART等算法一起称为机器学习十大算法;•Apriori算法是一种挖掘关联规则的算法,用于挖掘其内含的、未知的却又实际存在的数据关系。15:39:337/37关联规则举例t1:牛肉、鸡肉、牛奶t2:牛肉、奶酪t3:奶酪、靴子t4:牛肉、鸡肉、奶酪t5:牛肉、鸡肉、衣服、奶酪、牛奶t6:鸡肉、衣服、牛奶t7:鸡肉、牛奶、衣服Aprori算法—求解关联规则的经典算法15:39:338/37•规则:牛肉—鸡肉•3/7:同时购买牛肉和鸡肉的顾客比例•3/4:购买牛肉的顾客当中也购买了鸡肉的顾客比例(支持度(support))(置信度(confidence))15:39:339/37对于规则:牛肉—鸡肉它的支持度为3/7,表示在所有顾客当中有3/7同时购买牛肉和鸡肉,其反应了同时购买牛肉和鸡肉的顾客在所有顾客当中的覆盖范围;它的置信度为3/4,表示在买了牛肉的顾客当中有3/4的人买了鸡肉,其反应了可预测的程度,即顾客买了牛肉的话有多大可能性买鸡肉。条件概率事件:“顾客买了牛肉之后有多大可能性买鸡肉”15:39:3310/37•关联规则的产生依赖于频繁项集(频繁出现的项)15:39:3311/37对Aprori算法思想的理解(1)算法的功能是用来寻找频繁项集的;(2)在寻找频繁项集的过程中,采用了逐层搜索的迭代方法,即要产生2阶频繁必须以1阶频繁项集为运算基础,要得到3阶频繁项集,必须有2阶频繁项集为运算基础,依次类推;15:39:3312/37对Aprori算法思想的理解(3)算法的运算步骤分为连接步和剪枝步。在算法的剪枝步骤,为了提高逐层迭代的效率,在生成候选项集的时候,使用Apriori性质(频繁项集的子集也是频繁项集,非频繁项集的子集也是非频繁项集),将不满足性质的候选项集从连接步得到的结果集中直接删除,从而大大减少了扫描数据库的次数,提高了算法的效率。15:39:3313/37对Aprori算法思想的理解(4)Apriori算法之所以被称为关联规则的经典算法,是因为算法通过连接和剪枝得到频繁项集后,再由频繁项集去寻找关联规则就比较容易了。a.对于L中的每一个频繁项集,产生的所有非空子集;b.对于的每个非空子集,如果则输出规则“”。(5)算法的运算结束条件是不能再得到频繁项集了。lll15:39:3314/37实验数据•徐州中国人寿保险企业的个人投保原始数据15:39:3315/37实验数据说明项集I:全体客户属性的集合加上购买险种的集合。比如,学历-文盲、学历-中学、学历-本科、学历-研究生、年收入-小于3万、年收入-大于3万小于5万,年收入-大于5万小于8万,年收入-大于8万小于10万,年收入-大于10万、购买险种-储蓄型、购买险种-投资型、购买险种-少儿型等构成了I。事务T:每一位客户的属性加上购买情况就是一个T,比如:张三、学历-本科、年收入大于10万、购买险种-少儿险就是一个事务。事务数据库D:50000个客户就构成了事务的集合D。15:39:3316/37实验界面15:39:3317/3715:39:3318/37思想:建立哈希表(是根据关键码值而直接进行访问的数据结构)来存放候选1项集,该哈希表的结构为:(项集,该项集所在事务列表,支持度计数);生成频繁k(k1)项集时只需扫描该哈希表而不用去扫描事务数据库了。三、改进的Apriori算法思想15:39:3419/37哈希表样例项事务编号支持度计数理财保险T3T4T73养老保险T2T5T6T8T95健康保险T1T3T6T7T95少儿保险T1T2T3T4T5T76意外保险T2T92定期寿险T1T3T5T6T7T8T9715:39:3420/37实验界面15:39:3421/3715:39:3422/37实验数据的预处理过程•徐州中国人寿保险企业的个人投保原始数据15:39:3423/37数据预处理原始数据基本情况:1、存储在SQLserver2005中。2、待挖掘数据来自客户表和保单表。3、一些字段为连续型数据,而Apriori算法处理的对象是离散型的数据,所以,必须将记录离散化。15:39:3424/37步骤1.数据导入导出两张表从保险公司数据库服务器上导出到一张Excel表中,然后在自己的SQLServer2005数据库服务器上新建了一个数据库Lastdatabase,并将这张Excel表导入到该数据库中。15:39:3425/3715:39:3426/37步骤2.消减维度首先利用SQL语句新建一张表lasttable,然后利用SQL语句将有关的列插入到该lasttable中。CreateTableLasttable(customeridintnotnullprimaryageintnotnull,edunvarchar(8)null,incomeyearintnotnull,occupnvarchar(10)notnull,ishaschildbitnotnull,healthnvarchar(10)notnull,insurancetypenvarchar(50)notnull,)Insertintolasttableselectcustomerid,age,edu,incomeyear,occup,ishaschild,health,insurancetypefromcustomer,baodanwherecustomer.customerid=baodan.customerid15:39:3427/37步骤3.忽略元组编写了delete语句,以Customerid为关键字删除这些元组。步骤4.概念分层15:39:3428/37•lasttable表中age和incomeyear为连续型数据,在这一步,将它们按照概念分层进行离散化。根据专业领域经验,将年龄分为(~30],(30~45],(45~60],(60~)4个组;年收入分为(~小于3万],(大于3万小于5万],(大于5万小于8万),(大于8万小于10万],(大于10万)4个组。•由于这两个字段的数据类型均为整型,为了便于在挖掘结果中更自然地呈现规则,本文将这两个字段最终处理为字符型,列值即为上文所提到的这种区间表示。•本文的处理思路是:先利用SQL语句的update语句,将连续型数据按经验值分割成段,然后再进行列数据类型的转化。Updatelasttablesetage=1whereage=30Updatelasttablesetage=2whereage=45andage30Updatelasttablesetage=3whereage=60andage45Updatelasttablesetage=4whereage61•Altertablelasttablealtercolumnagenvarchar(10)Updatelasttablesetage='[小于30]'whereage='1'Updatelasttablesetage='[30-45]'whereage='2'Updatelasttablesetage='[45-60]'whereage='3'Updatelasttablesetage='[大于60]'whereage='4'15:39:3429/37预处理后的结果15:39:3430/3715:39:3431/37四、徐州人寿CRM软件模型及决策支持模块的实现过程功能模块图主要功能介绍决策支持模块的实现12315:39:3432/37功能模块图15:39:3433/37主要功能介绍15:39:3434/37决策支持模块的界面15:39:3435/37五、模型评估与营销指导1.年收入小于3万的客户,购买储蓄类型保险的置信度高达89%。2.年龄在46-60岁之间的客户,有56%的客户会购买储蓄类型的保险3.年收入在10万以上的客户群体,购买投资类保险的比例为36%。4.学历为本科,有孩子的客户,80%会购买少儿险。5.年龄在20-30岁之间的客户,有32%的可能性会购买投资型保险。6.职业为个体经营的客户有45%会购买意外险1.对年龄较轻,收入较稳定的客户,可以推荐投资型保险。2.对于收入高,年收入在10万以上的客户,推荐购买投资型保险。3.对于学历较高且有孩子的客户,可以推荐购买少儿险。4.对于大于45岁或者年收入低于5万的客户,优先推荐其储蓄险。规则前件规则后件支持度置信度收入小于3万保险类型-储蓄型11%89%收入大于3万小于5万保险类型-储蓄型11%54%年龄[46-60],学历——本科保险类型-储蓄型11%56%年龄[20-30]保险类型-投资型11%32%收入大于10万保险类型-投资型12%36%收入大于10万,学历——本科保险类型-投资型12%48%是否有孩子——有,学历——本科保险类型-少儿险10%80%是否有孩子——有保险类型-储蓄型10%43%15:39:3436/37小结•1、选用合理的数据结构有助于算法效率的提升。•2、数据预处理可以选用SQLSERVER数据库管理系统。

1 / 36
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功