基于数据挖掘对垃圾短信识别模型的研究与应用摘要:本文基于运营商现有的平台,分析用户的通信行为,结合数据挖掘技术,提出一个新的垃圾短信识别模型。结合某省运营商短信运营数据对垃圾短信识别模型进行了实证研究,并从命中率和波动度两方面对模型进行验证,取得较好的效果。关键词:垃圾短信过滤技术;相关性分析;特征选择;logistic回归模型中图分类号:tn929.53文献标识码:a文章编号:1001-828x(2011)08-0180-01绪言目前通信行业所采用的垃圾短信过滤的方法主要[1]有:第一,黑名单和白名单监控技术,但是短信中心对黑白名单处理数量有上限要求;第二,基于关键字规则的过滤技术,但是这种技术不能灵活识别和更新关键字;第三,基于内容的过滤技术,可分为基于规则的过滤和基于概率统计的过滤,有学者[2][3]提从词频的角度提出了基于贝叶斯分类器的垃圾短信过滤系统,还有基于文本分类的垃圾短信过滤方法。但是随着垃圾短信治理活动的逐步开展,垃圾短信的手段越来越隐蔽了,如一人多号、以谐音字代替敏感字眼、以字符将敏感字眼隔开等。这给垃圾短信治理工作带来了重重困难,优化拦截识别模型已迫在眉睫。因此,本文提出融入客户行为研究和数据建模建立垃圾短信识别模型来取代目前的垃圾短信过滤技术,提高判断用户在发送垃圾短信的准确度和效率。一、垃圾短信识别模型1.垃圾短信识别模型简介垃圾短信识别模型是通过对用户的通信行为,如用户的消费信息、交往圈、话单信息等的分析,建立logistic回归模型预测其未来成为发送垃圾短信的用户的概率的模型。2.建模指标的抽取从黑名单和白名单中随机抽取一部分数据,形成建模样本组。在选定样本后,从数据仓库的全部客户数据中提取与该客户群相关的信息结合垃圾短信数据形成宽表[5]。并采用统计学的方法对指标进行分析。本文中对垃圾短信识别模型的基础变量的处理主要采用相关性分析[6]与特征选择分析[7]。3.模型的构建在垃圾短信识别模型,假定有二值变量y,它表示用户是“垃圾短信用户”与“正常用户”,y=1表示“垃圾用户”,y=0表示“正常用户”,现在就是要预测y=1的概率p。一般而言,p值越大,该用户是垃圾短信用户的可能性越高;反之,则愈小。logistic回归模型[7]:其中:p=p(y=1)是二值变量中y=1发生的概率,是需要预测的。是影响y=1发生的n个预测变量。是需要估计的模型参数。将采集的样本组以70%:30%的比例分为训练集和测试集,并根据训练集求出模型参数,根据上面的模型表达式,然后将测试集打入模型中求出预测概率p(y=1)的值。4.模型效果评估指标对短信识别效果的评估,主要从2个角度对模型识别效果进行评估。(1)命中率:即提取的用户中属于黑名单的用户占嫌疑黑名单用户的比率,反映垃圾短信识别的准确性。(2)波动度:即训练集的命中率与测试集命中率的差值,反映垃圾短信识别模型的稳定性。二、垃圾短信识别模型的应用本文以某省移动公司为例,进行了垃圾短信识别的实证分析。1.公司垃圾短信识别的现状和资源条件(1)公司垃圾短信识别现状。现在所采用的垃圾短信的技术主要有:第一,10086999不良信息举报平台。第二,boss系统日常监控。第三,网管中心拦截平台。但是这些技术将带来以下的风险有误拦现象,还有漏拦现象(2)资源条件。该公司拥有健全的数据仓库平台,相关的数据库软件,统计分析和数据挖掘工具,还有一定规模的外呼中心,能及时获得客户反馈数据。2.数据准备(1)数据指标的选取。为了实现模型数据获取的精细化,根据用户在网时长的不同和数据的可获取性原则,将模型分成两类来构建:一类是网龄大于等于2个月,以月数据为主,补充相关的天数据。因为网龄小月2个月的用户,没有完整的月数据,在建模的时候以天数据为主,因此将网龄小于2个月的用户作为另一类。经过经验,对于网龄大于等于的目标用户,初步圈定了46个基础指标,如品牌、短信费用、点对点短信发送量等。而网龄小于2的用户群,圈定了29个基础指标,如前三天内发送短信数量,日均短息发送条数,日均被叫通话次数等。(2)数据的预处理。经过对提取出来的变量的相关性检测,发现了部分变量存在明显的正相关现象,为了减少后期固化的数据量和提高建模的效率,剔除掉高相关性的指标,筛选后,网龄大于等于2的用户选取23个指标,而网龄小于2的用户选取17个指标。将相关性分析后形成的宽表进行特征选择分析,经过检验,网龄大于等于2个月所选取的指标有12个,包含入网时长、消费额、前三天内发送短信的集中时段、短信交往圈重合率等;而网龄小于2个月所选取指标4个,包含前三天内发送短信的集中时段、前三天内集中时段发送条数、前三天内高频时段个数、日均接收短信条数。3.模型的构建以网龄大于等于2个月的样本数据为例,将样本数据导入模型,然后将样本数据按30%:70%的比例进行分区,建立logistic回归模型,求出logistic回归模型的的估计参数模型参数,以及y=1的概率,具体的值如下图1所示:图1网龄大于等于2个月参数估计求出估计参数之后,代入logistic回归模型,求出预测概率p。根据模型的预测效果,对模型进行评估,通过计算模型预测的准确率还有波动度,垃圾短信模型识别的命中率为79%以上,并且经过对两个数据集的分析,模型的波动度小于0.3%,说明模型较为稳定。结论随着科技的发展,垃圾短信的内容变得越来越丰富、手段越来越智能,而本文所提出的垃圾短信识别模型就是从用户的行为出发,精准定位高风险的用户,准确圈定垃圾短信用户,采用统计学与数据挖掘相结合的方法,按用户在网时长精细化垃圾短信预测模型,通过“时迁预测”提高垃圾短信拦截率,完善垃圾短信治理系统。经实践检验,它有效减轻人工审核压力,节约了人工的成本。参考文献:[1]唐建松.浅析移动通信网垃圾短信的趋势和治理[j].邮电设计技术,2010.[2]邓维维,彭宏.移动环境下的垃圾短信过滤系统的研究[j].计算机应用,2007.[3]钱升华,等.文本分类综述及手机垃圾短信过滤方法的研[j].河北工业大学学报,2007.[4]fdez-riverolaf,iglesiasel.applyinglazylearningalgorithmstotackleconceptdriftinspamfiltering[j].expertsystemswithapplications,2007.[5]高惠旋.实用统计方法与sas系统[m].北京大学出版社,2001.[6]元昌安,等.数据挖掘原理与spssclementine应用宝典[m].电子工业出版社,2009.[7]胡滨.逻辑回归在个人信用评估模型上的运用[j].信息与电脑,2011.