基于大数据的电信信息化系统建设的探讨[摘要]信息时代的到来,伴随着移动联网等技术的更新换代,我国电信企业的发展进入了高效化发展时代,不同于电信运营商的初期发展阶段,云计算、物联网、智能终端等新技术及新应用的不断革新,国内市场逐渐趋于饱和,所以目前电信运营商正步入质量发展阶段,立足于数字化社会的发展,为提高流量收益以及业务效益,电信信息化系统的建设正在加快,电信运营商客户行为数据、网络运维数据以及信令数据等等海量信息中蕴含的价值越来越高,基于数据挖掘及分析构建电信信息化系统,实现客户消费、接触行为等,进行智能化业务推荐以及建立客户离网模型,对高危用户进行有针对性的挽留活动都成为信息化系统功能框架基础。[关键词]:大数据;电信信息化;系统建设引言基于大数据建设信息化系统,是利用电信数据分析及挖掘的需求,通过Hadoop系统的建设设计电信业务功能,以统一、标准及可视化的基础实现数据信息价值的挖掘以及业务推荐。移动互联网的发展一方面带动了我国电信运营商的流量收益,另一方面对电信运行商的业务体系以及工作系统形成冲击,在挑战与机遇的双重背景下,电信运行商典型实现信息化系统的构建,转变传统业务推荐以及服务方式,针对客户的行为消费以及数据分析,实现业务的智能化服务,并实现客户的个性化客户视图,实现人工与智能化的业务并行,提高电信运行商的工作效率以及发展水平。并且通过客户离网模型的构建,实现业务服务的智能化以及全面化,实现电信企业的效益的最大化。一、基于大数据的信息化建设1大数据技术的特点大数据的定义是数量规模庞大到用目前主流软件工具在合理时间内,挖掘,管理,处理并整合成能够利于企业决策发展的资讯。很多企业,平台所产生的数据中十分具有价值,但需要进行挖掘,由于信息还具有时效性,所以目前大数据的处理很收重视,但企业与平台等很难在合理时间内对大数据进行整合处理,近年来由于资源发展迅速,为大数据处理提供了便利。大数据技术有5V1C的特点,即Varietv(多样化)。Volume(海量),Velocitv(快速),Vitality(灵活),价值(value),Complexity(复杂)。多样化指的大数据有多种数据类型,一般有网络日志,社交媒体,互联网搜索等,不同的数据类型处理与分析方式大不相同;海量指的是大数据的产生是极为庞大的,基本是成“J”型;快速指的是数据具有时效性,如不能快速处理就会失去价值;灵活指的是大数据的处理分析必须能够适应业务频率的快速改变;价值指的是大数据蒸锅整合处理后能够对未来趋势及模式提供分析价值;复杂指的是大数据分析处理的复杂性,不仅难度高所采用的处理方式与工具也不同。2大数据信息化系统的构建大数据信息系统的构建,是以数据中心构建为核心,实现数据仓库体系的统一规划,根据不同区域级别的信息区数据,将整个区域的信息网络进行整合,新城同意而全局数据构建全局数据网络,形成信息数据平台。大数据信息系统构建中,是以集成为主,将设备以及设施基层,实现数据信息的渠道的多样化以及统一化,将多个用户产生的数据,通过不同数据挖掘工具挖掘,例如Python实现各个平台数据的收集以及传输等等,以EAI平台及各种功能为主,例如网络服务、数据集成与处理转换工具,这对不同区域级别的访问针对性服务借口进行安全优化以及数据传输渠道构建,确保信息平台的安全性以及数据多样化集成。系统的建设主要是根据企业的需求为主,不同企业的信息化规范以及体系不同,因此其系统结构以及系统技术应用差别较大,目前Hadoop的数据建模平台是主要形式,结合不同技术的应用,实现信息系统化体系的全方位落实。3电信企业基于大数据的信息化系统建设电信的大数据平台是以Hadoop为基础,结合Hive开发应用平台,以电信行业的业务系统核心设计信息化系统的架构以及技术层面。目前电信行业的业务系统在移动互联网发展下不断地创新,呈现出新业务形态以及数据类型,尤其是微信、微博、qq等快速的发展加快了电信行业的数据量增长,虽然非结构化语言记录、音频、图片和视频等数据等等在运行商中得到储存于管理,但是处理这些数据挖掘出其商业潜在价值处于革新状况[1]。因此电信大数据信息化系统的构建。以Hadoop为基础,结合Hive实现信息系统建设,将其产生的有用数据结果反馈到业务系统,例如电信BSS系统,以Hive和Hadoop关系以及平台架构完善系统服务数据中心,实现与信息化平台数据库的对接,将Hive建立在Hadoop上的数据仓库基础上,利用Hive的系列工具实现数据提取转化与加载(ETL),通过与业务系统现有的数据管理系统以及储存系统的对接,将储存、查询以及分析结果储存在Hadoop中,利用SQL用户查询数据,处理内建中难以完成的复杂数据分析,将数据分析结果通过Hadoop可视化数据平台反馈给BSS业务系统。以Hadoop为基础,结合Hive开发应用平台,实现与电信业务各大系统的联合,形成信息系统的设计方案,比对起现有以Hadoop的数据建模、Hadoopdesigner系统模型为主的大数据信息系统具有更强得实用性,推动电信业务的发展。二、基于大数据的电信信息化系统建设1利用分区以及数据管理实现用户类型划分利用Hive的超大数据集设计的计算/扩展能力——basedonHadoop、支持SQLlike查询语言、统一的元数据管理等优势实现大数据信息系统的建设,针对大数据平台数据的非关系型,首要就是利用Hive通过分区以及数据管理,对数据结构、类型、信息价值等等进行挖掘与处理,尤其是电信的大数据平台现有数据类型——MBOSS基础数据、DPI、无线侧CDR话单、计费话单、客户受理订单、消费数据、手机位置更新数据、其他外部数据,根据不同的用户标签以及分析标准实现数据的归类与整理,针对各种数据的分析结果反馈不用的标签,例如话费消费数据,制定不同的标准,例如在29——70以内是一般消费群众,70——120以内属于中等消费,120以上则是高消费人群,流量套餐在超过10000M的校园网套餐是大学生,大1000M以上流量用在购物软件中为购物达人,根据用户多方面的数据进行各类标签的制定,并将标签与消费结构等数据共同构成用户数据库,针对不同的消费人群进行相似性划分,例如具有相同流量消费趋向以及同一个地区话费缴纳等等,从地域、消费类型、职业等等入手综合性完善对用户的评价,按照统一、规范的标准给出各类标签,从而将混乱的数据进行统一化,以用户自身消费数据以及服务需求为主,完善用户数据中心,将非关系型的数据以人和服务为连接进行科学、统一的划分,便于营业员提取以及个性化服务提供,形成元数据管理中心后集成为数据中心,导入到Hadoop可视化数据平台中,形成信息系统的数据中心。2业务系统对大数据平台数据应用的要求BSS系统是电信运行商的业务系统,电信业务信息系统关系主要有以下四个要求:一决策分析指导,以用户数据为主,以成熟的经营分析技术,根据提供的资源以及决策需要提高企业的数据资源利用能力,实现企业的科学化的决策以及整体运行效率;二客户关系管理,客户关系管理是实现智能业务推荐的重要需求,以实时信息为基础指导企业运营的优化,对客户服务需求以及服务产品的个性化设计,从用户以及相关产品进行关联性的分析,推荐符合系统分析的业务,以此增加新客户以及提高客户的忠诚度,降低客户流失率;三精准营销推荐,这是实现智能化营销的直接行为,精准营销的关键点在于“精准”二字,根据客户关系管理,以汇聚用户业务使用数据为主,以整体化及个性化的双角度分析每一个用户的消费能力以及交往圈等等,根据用户的使用记录以及行为数据,以渠道接触点、应用接触点以及服务接触点等等为主,智能化筛选用户的界面功能衔接点,引导客户消费以及提供智能化服务。3电信业务系统应用大数据平台数据BSS系统应用大数据平台的数据,首要是明确算法以及技术对接对象。根据业务系统对数据应用的要求,最后所有数据分析结果都要在可视化数据平台中展现,针对目前大数据系统中的数据挖掘工具而言,是以Hive为主,用HDFS进行存储,利用MapReduce进行计算。利用Hadoop储存数据,以Hive构建数据模型,由Hive完成查询语句的解释、优化、生成查询计划,从而实现将查询计划转变为MapReduce任务在Hadoop中执行,以UTF-8编码为统一标准实现数据传输以及转化。因此数据分析主要是通过Hive,创建一个制定名字的表,如果处理中发现具有相同名字的表,利用IFNOTEXIST选项来忽略异常,采用LIKE允许用户复制现有的表结构但不复制数据,然后构建分区表,将分区单独存在一个目录下,根据CLUSTEREDBY操作操作列,放置在一个bucket中,利用SORTBY对数据进行排序,将各个分区的名字转变为不同的标签类型,例如网购达人、上班族、医生、老师、费用敏感型、大学生、老年人等等,根据标签评价标准利用算法进行分类。例如DPI记录进行标签判定,DPI记录的表现类型主要是网页、终端、APP等,以APP标签为例,首先根据不同的终端,电脑是建立热点,手机的连接热点使用APP,利用Wireshark抓取手机使用app产生的数据包,通过分析,提取app相应的规则,整理规则录入app标签,通过管理员审核,规则一小时可生效通过查询Hive中的表,打上所属的标签。所属标签打上之后就可以通过元数据管理的用户信息资料中通过可视化平台,看到用户的基本资料以及标签,业务员或者是自动服务终端,根据这些标签通过Hadoop数据中心与BSS、OSS、MSS、客服系统等等系统接口的对接,将Hive对用户数据的分析结果通过储存在Hadoop中,便于BSS系统、OSS、MSS、客服系统通过在Hadoop的大数据平台中调取数据,查阅到用用户标签以及数据信息,自动性实现用户数据库与用户消费和服务行为的对接,确保能够快速锁定用户的消费系统。Hadoop的大数据可视化平台主要是以Python的可视化数据分析平台为主,在Hadoop基础上,利用Hive对用户数据的分析的处理,将数据中心的数据以Python技术语法简洁,数据获取较为快速、兼容性较强,支持跨平台服务等优势,实现数据的跨平台及系统应用,确保电信的多个信息化子系统能够通过Python可视化平台实现对数据的跨平台使用。Python可视化数据分析平台采用Mysql-python、Numpy等第三方模块撰写配置算法,以B/S平台技术构建系统平台,HTML、CSS、JS展示网络,采用Django技术完成后台处理,实现高效的可视化数据展示以及数据分析,根据K-means算法对文件中的维数制作成图表,并匹配上结果图和文字说明,以便于用户能够通过图表直接得到大致的数据分析结果,也可以对数据文件进行降维处理,输入原始数据后就可以根据用户需求选择要降的维数,采用PCA算法就能够完成所需的降维处理并且保留原始数据主要成分,根据原始诗句结果图以及相应的降维结果图实现可视化。这样一来通过Hive内建算法以及Python外建算法,就可以实现用户数据得整体规划、标签从属以及数据跨平台使用等要求,满足电信业务系统对数据以及数据价值的快速、高效运用。不仅是标签,客户到厅(营业厅)、在线办理业务、拨打客服热线、或者营销人员主动外呼客户时,有针对性的营销的时候,根据Hadoop架构中Hive的MapReduce进行用户数据类型以及从属情况计算,根据电信企业自身的经营规范以及业务系统的划分,将用户数据集成为表,根据各个分布的标签名称完善用户个人数据库,然后根据Python可视化数据分析平台设计实现个性化客户视图的展现,从Python的数据分析优势入手,根据可视化数据分析的需求,实现在线数据分析,满足营业员对客户数据的利用需求,根据目前海量数据中的数据分析功能需求——探索性数据、数据预处理和挖掘建模,将复杂混乱的客户初步数据进行处理,尽可能少的设置数据分析因素,以各种数学形式,例如作图、制表、方程拟合等方式对数据的结构以及规律进行探索,利用均值、标准差、变异系数等数据特征将初步数据的规律及结构反馈给业务员;掘建模则是利用决策树、K-means、PCA