运营管理基于聚类分析理论的地址数据标准化研究李峡,李远辉,郑仲,何燕萍(中国电信股份有限公司广州分公司网络资源中心广州510280)摘要:针对广州电信标准地址库地址数量庞大、重复较多导致的数据维护成本高昂、无法准确实现基于地址的应用等问题,通过关键字对6级、7级地址分组比对,去重去冗,再赋予地址资源坐标,实现地址纯净化和落图化,达到实现电信网络资源精准化、图形化营运的目的,新方法的成本仅为传统人工整理的1/4。关键词:地址;标准化;落图;精确运营doi:10.3969/j.issn.1000-0801.2014.Z1.0431引言截至2013年底,中国电信股份有限公司广州分公司(以下简称广州电信)标准地址库共有1500多万条数据,其中6级、7级地址近250万条,这些地址数据整理成10级标准地址后,仍然存在很多问题,影响着数据应用。这些地址中有很多重复或相似地址,给数据使用者带来了很大的疑惑和干扰,究竟哪些地址才是最接近实际现场的标准地址,哪些地址是重复地址需要合并,哪些地址有地理坐标能够实现定位?如“广州市海珠区广州大道南360号”、“广州市海珠区广州大道南360号电信大楼”、“广州市海珠区广州大道南360号广信连锁营业厅”这3条数据在地址库里各自独立存储,而实际上它们是同一地理位置的不同叫法。由于地址库存在同个地点多条地址表述的情况,如果按照地址数据进行网络资源投放,容易造成重复投资。如用户报装电话的时候,由于对同一地址的表述存在差别,而数据库对不同表述地名所关联的服务等级,甚至资费政策不同,容易导致用户误解而产生投诉。因此,本文提出的地址唯一性要求专指对于同一地理位置,针对一个地址多个叫法(既有“官方名”,又有“别名”的“一址多名”)的现象,明确多名之间的关联关系,将其作为同一个“地名组”实现唯一性管理。如果采用传统人工判断整理的方法,对广州电信地址库1500万条数据进行去重、标准化、添加别名和坐标等处理,大概需要投入37000多人日工时(按平均处理400条/人/日计算),相当于30人处理4年半,需投入成本900多万元(按250元/人/日计算)。为此,需要寻找一种提高清理重复地址工作效率的方法。本文的目的是在去除重复、冗余地址工作中,提升重复地址清理工作的效率(减少人工),提高地址与重复地址的匹配率,校验并处理清查结果中的异常数据,同时为开展基于地址的应用奠定良好基础。2研究方法本文的主要技术方法借鉴了数据挖掘聚类分析的思路,发现海量离散文本数据之间的规律,找出最相似的地址文本,以替代完全依靠人工识别的传统标准化整理方法。聚类分析又称群分析,是研究分类问题的一种统计分析方法,也是数据挖掘的一个重要算法。聚类分析由若干模式组成,模式是一个度量向量或多维空间中的一个点。聚类分析以相似性为基础,在同一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。在商业上,聚类可以帮助市场分析人员从消费者数据库中区分不同的消费群体,并且概括每一类消费者的消费模式或消费习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具,以发现数据库中分布的一些深层信息,并且概括每一类的特点,或者把注意力放在某一个特运营管理206电信科学2014年第Z1期定的类上以做进一步分析。此外,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤[1]。由聚类算法理论及其应用得到两点启发:一是可以通过对海量6级、7级地址提取关键字的方法,对地址进行聚组(分组)匹配分析,成功聚组的即可判定为重复地址,保留其中一条作为主地址,其余作为别名地址;二是可以通过提取资源设备中的坐标属性以及资源设备的安装地址和服务区地址,并将资源的坐标赋予地址,即可实现地址的定位。通过这两点就可实现地址的纯净化和落图化。3技术路线和主要步骤3.1地址数据标准化的技术路线地址数据标准化的思路和技术路线主要包括7个步骤,包括:提取地址库所有6级、7级点地址;计算点地址下挂资源数;提取点地址关键字;根据关键字进行分组,并将下挂资源数最多的地址设为基准地址;根据关键字对剩余地址进行模糊匹配,匹配成功的即重复地址;计算每条地址坐标,实现地址落图;批量合并7~10级重复地址,如图1所示,相关说明如下。(1)点地址点地址是指能定位到唯一、具体的一栋建筑物门牌的地址,如有独立门牌的单体楼、小区里的一个楼栋(可以有独立门牌,也可以是独立门牌+栋)。(2)基准地址当一个点地址存在多种描述时,选择使用最广泛的描述作为该点地址的基准地址。引入基准地址业务是为了排除重复的电信地址,并将相应的资源迁移到基准地址上面。(3)基准地址关键字基准地址关键字能唯一、简洁地表述一个独立建筑物的若干信息,是同一独立建筑物所有重复地址的最大公约数。通过关键字能准确、完整地将所有同一独立建筑物的重复地址找出来,其中每一种组合都可以唯一定位一个独立建筑物,关键字组包括:路+街+号;小区,街+号,栋;别名。3.2主要步骤(1)提取地址库所有6级、7级点地址由于点地址能表征一个独立的建筑物,因此提取地址库6级、7级点地址(号、栋),可得到建筑物对应10级标准地址在二维空间的关键描述。点地址提取规则介绍如下。·如果第6级地址为<未知>,不取第6级地址也不取第7级地址。·如果第6级地址无子地址,取第6级地址。·如果第6级地址有子地址,并且全部为<未知>,取第6级地址。·如果第6级地址有子地址,而且第7级地址中含有非<未知>的7级地址,取第7级地址(包括未知值的7级地址,空值用<未知>代替)。(2)计算点地址下挂资源数通过计算点地址下挂的资源数(包括光资源数和铜资源数)确定基准地址。在成功聚组在一组的点地址中,下挂资源数最多的地址将定为基准地址,因为这从侧面表征了该地址描述使用的频率最高。计算每条地址及其下挂的7~10级地址关联的资源数量,分别统计关联DP与OTB和OBD的数量。如果是6级或7级地址,则把下挂资源数量(光资源包括OBD和OTB,铜资源包括DP)统计出来。(3)提取点地址关键字为了寻找重复地址,需要提取地址的关键字,再通过关键字对地址进行聚组匹配,成功匹配的地址聚为一组,初步判定为重复地址。从原地址库中提取关键字,见表1。由于不同的地址类型适用于不同的匹配规则,原始地址需要根据关键字分为20类,如图2所示。每一类的匹配规则在地址库匹配的结果都可认为是精确匹配结果。图1地址标准化技术路线207运营管理图2原始5~7级地址分类关键字组1关键字组2人为关键字字段1字段2字段3字段4字段5字段6字段7字段8镇、街道路、村、大道、国道街、里、弄、巷、大队、社号小区名小区街号建筑物、栋唯一表征本地址的关键字表1原地址库关键字208电信科学2014年第Z1期图3实现地址标准化和落图化当地址库地址不规范时,需要进行标注,并转人工处理。如6级地址为空、6级地址出现“栋、座、房、层、路、街”等。(4)根据关键字进行分组,并将下挂资源数最多的地址设为基准地址将关键字进行分组,并将下挂资源数最多的点地址设为基准地址,参考Oracle数据库脚本如下。selecta1.地址IDas基准地址ID,a1.关键字,a1.下挂资源数fromtable1(6级、7级地址下带资源数表)a1,(select关键字,max(资源数)最大资源数fromtable1(6级、7级地址下带资源数表)groupby关键字)a2wherea1.关键字=a2.关键字anda2.最大资源数=a1.下挂资源数(5)根据关键字对剩余地址进行模糊匹配,匹配成功的即重复地址根据基准地址的关键字,对剩余地址进行模糊匹配,成功匹配的剩余地址即基准地址对应的重复地址。其中,剩余地址应先进行标准地址文本化转化,即将标准地址每一级拼装,得到地址的文本描述,与基准地址匹配时采用文本匹配。为了加快匹配速度,且避免不同行政区域相似地址发生匹配,关键字匹配通过分片区方式进行,如天河区、海珠区、白云区等。匹配成功的重复地址添加其基准地址ID即可。(6)计算每条地址坐标地址坐标通过关联资源设备坐标间接获得,误差在可接受范围内,具体过程如下。·如果该地址是设施的安装地址,优先取该设施的X、Y坐标作为地址坐标。·如果该地址不是设施的安装地址,而是设施的服务区,则取该设施的X、Y坐标为地址坐标。·如果地址只关联了一个资源,取该资源的坐标;如果地址关联了多个资源,随机取一个坐标,优先取光资源的坐标作为地址坐标。(7)批量合并7~10级重复地址确定了6级、7级基准点地址及重复点地址后,其余7~10级地址(栋、梯、层、房)可通过类似方法对同级同地址名合并,进行去重和补充入库处理,得到相对完整和纯净的标准地址库。4实验结果通过对广州电信地址库249万条6级、7级点地址进行比对后,确定近30万条点地址为重复地址,占比约12%,涉及父子地址约180万条,并得到基本纯净且带有坐标的近220万条基准点地址,如图3所示。其中,6级、7级地址聚组匹配成本仅为传统人工整理成本的26%,预计1500万条地址聚组匹配成本仅为传统人工整理成本的18%,大大节约了人工成本,提高了地址清理效率,聚组匹配与人工匹配成本对比见表2。通过将带坐标的点地址精确落入广州电信13000多209运营管理表2聚组匹配与人工匹配成本对比序号地址级别数量/条人工清理效率/(条/人/日)人工整理工时/(人/日)所需成本/元聚组匹配效率/(条/人/日)聚组匹配所需工时/(人/日)聚组匹配成本/元聚组与人工整理成本比值16级地址2217934250887222179341038332083000026.43%27级地址1228793333369092251738级地址11784404002946736525预计3607预计3320预计830000预计13.53%49级地址306995150061401534976510级地址7727888500154563863944合计15423006371049275896166000017.90%个营销网格中并进行确认,为实现基于建筑物地址的网格精确营销、资源精确投放、代理商薪金结算等精确运营,带来专业化、自动化、智能化和集约化等重大改变和提升。5存在问题和改进建议(1)存在的问题关键字相同但关键字所在级别不同的地址无法直接合并,需要人工进行判断确认。(2)改进建议关键字匹配时,如果再对点地址所关联资源的相似度或重合度进行判断评估,可以降低关键字的严谨性,匹配出更多重复地址,从而提高匹配率。6结束语传统人工整理地址库数据的方法存在成本高、耗时长的缺点。本文采用聚类分析方法,对地址库数据进行关键字聚组匹配分析,去重去冗并赋予地址资源坐标,基本实现了地址数据的纯净化和落图化,满足了电信网络精确营运对地址数据的要求。相比传统人工整理方法,聚类分析方法所需资金和时间成本大幅降低。参考文献1百度百科.聚类算法.http://baike.baidu.com/link?url=-DUu7U4pXAEDQNBv-2x1eoR_3D2rOLrIeA9h7U4sBWYi5jVAAHu7SsIZzUqxkVE5,2014[作者简介]李峡,男,中国电信股份有限公司广州分公司网络资源中心工程师,主要研究方向为接入型网络资源配置、分析、地址管理及应用等。李远辉,男,中国电信股份有限公司广州分公司网络资源中心副总经理,主要研究方向为网络资源管理、分析、地址管理及应用等。郑仲,男,中国电信股份有限公司广州分公司网络资源中心号线室经理,主要研究方向为接入型网络资源配置、分析、地址管理及应用等。何燕萍,女,中国电信股份有限公司广州分公司网络资源中心工程师,主要研究方向为接入型网络资源配置、分析、地址管理及应用等。(收稿日期:2014-08-20)210