邮电设计技术/2016/08——————————收稿日期:2016-07-130引言移动互联网的快速发展促进了信息和数据呈爆发式增长,数据工作者们重新审视数据和信息的价值并引入了大数据分析工具和手段,挖掘更多的潜能和应用。运营商作为国家信息基础设施的担当者,掌握了当下最全面、最完整和深度的网络及用户数据,亟待开发。移动终端则作为用户和网络的双重镜像,为大数据分析及挖掘提供了最便捷的入口。移动终端通过签约服务及各类应用占据着移动互联的最重要入口,可汲取大量的行为及使用数据,同时作为重要网元又是数据内容及信息的制造者,因此终端是移动互联时代的信息集中营,针对终端进行深度挖掘及分析,能够达到事半功倍的效果。终端大数据应运而生。1运营商的终端大数据什么是终端大数据,简单说就是从终端获取海量的用户、业务、网络及终端的行为及运行数据,再将大数据的工具、思路及方法与终端研究深度结合,挖掘终端方面更多的潜力和应用。终端大数据不等于终端+大数据,终端大数据绝不仅仅是围绕终端的属性、特征、占比、分布等进行统计及指数发布。终端大数据是以终端的入口特征为电信运营商的终端大数据分析及应用关键词:大数据;移动终端;数据挖掘;运营商;应用doi:10.16463/j.cnki.issn1007-3043.2016.08.009中图分类号:TN929.5文献标识码:A文章编号:1007-3043(2016)08-0041-06摘要:移动终端是电信运营商大数据体系中的基本单位,无论是运营商内部市场营销、网络建设规划以及对外数据服务都是围绕着移动终端展开的。运营商想要在大数据时代摆脱传统业务模式的困境实现转型升级就必须考虑对终端进行更加深入的数据挖掘和应用。基于移动终端的特点,提出了终端大数据的概念。同时对运营商终端大数据分析及应用进行了尝试,并讨论了运营商终端大数据的典型内外应用及未来趋势。Abstract:Mobileterminalequipmentisthebasicunitinthebigdatasystemoftelecomoperators.Theoperationofinternalmarketing,networkconstructionplanningandexternaldataservicesarebasedonthemobileterminal.Inordertogetridoftheplightoftraditionalservicesmodeandachieve,thetransformationandupgrading,telecomoperatorsmustconsiderthedataminingandapplicationofmobileterminal.Itputsforwardtheconceptofterminalbigdataandpresentssomeattemptsondataanaly-sisandmining,aswellasthetypicaluseandtrendforterminalbigdata.Keywords:Bigdata;Mobileterminal;Datamining;Operator;Application宋春涛,张帆,曹振(中国联通网络技术研究院,北京100048)SongChuntao,ZhangFan,CaoZhen(ChinaUnicomNetworkTechnologyResearchInstitute,Beijing100048,China)BigDataAssistedAnalysisandImplementationofMobileTerminalforMobileOperators本期关注MonthlyFocus宋春涛,张帆,曹振电信运营商的终端大数据分析及应用412016/08/DTPT牵引,将终端及与其相关的用户、应用、位置信息、网络质量等进行深度关联及挖掘,挖掘更多内在关联特征及偏好,并开发对运营商内部及行业的潜力应用。移动运营商具备先天的数据优势,相比于BAT等互联网公司其数据具备覆盖全面性,相比于第三方评测公司,其数据具备统计完备性,相比于终端公司则具备更多更合理的数据采集便利,因此运营商的终端大数据着眼点不应在互联网应用、第三方评测及终端公司相似的分析及应用方向,而应基于运营商数据特征,结合实际内外部痛点和需求,走出运营商自己的终端大数据之路。2终端大数据典型方向终端大数据必须以应用为导向,在新的移动互联背景下,除了要解决内部应用,还要向外部寻求更多突破。2.1运营商内部典型应用终端大数据应用首先应为运营商内部服务,主要是网络技术升级及部署策略的支撑以及网络问题排查及解决等。2.1.1网络技术升级及部署应用通过获取全网用户所持终端情况及LBS信息,可以针对全网用户的各类终端能力进行统计,如LTE-FDDBANDIII的终端占比[1],基于此数据可知在目前是否具备部署LTE的前提条件(见图1)。同时,基于用户的时空分布数据,可以从地理维度上统计某类终端的总体分布情况,高占比区域是技术升级和部署的首选之地,能够对新技术的部署提供精准的数据支撑(见图2)。终端能力占比及分布的大数据分析工作已经在3G时代的HSPA+部署、U900部署以及LTE初期部署中发挥了巨大作用,为移动网络技术升级规划及部署提供了直接的量化支撑,未来也仍将继续发挥重要的指导作用。2.1.2网络问题解决应用运营商可以从网络运行分析、网络优化工作、客服投诉、测试等工作中采集并积累各类终端问题,总结形成终端问题库,再借助于终端大数据进行回溯及测试等,通过关联分析实现问题定界并提出针对性解决方案[2-3](见表1)。运营商针对网络运行中发现的终端问题的梳理、汇总及解决具有重大价值,其中既包括有效的大数据分析方法及工具,同时也包括总结沉淀的问题及解决表1移动终端问题及解决方案库主要内容及示例图2某城市LTE-FDDBANDIII终端地理化分布图图1某城市现网LTE终端分类能力占比统计品牌型号软件版本业务状态问题分类问题来源问题定位问题定界原因定界解决方案苹果、华为、小米等iPhone6Splus、HuaweiMate8、MI5等iOS9.2.1、EMUI4.0、MIUI7等语音业务、空闲态、数据业务、并发业务FR失败、无法接通、3G/4G互操作失败、上不了网、无法驻留、CSFB时延大、数据业务掉线、语音掉话、FDD/TDD互操作失败、驻留时延大等用户投诉、终端测试、指标统计等CSFB问题、3G/4G互操作问题、保持类问题、接入类问题、FDD/TDD互操作问题等网络侧问题、用户操作问题、终端侧问题等网络侧配置问题、用户操作问题、终端侧系统版本问题、终端侧与APP兼容问题等网元设备修改参数及配置、设备厂家版本补丁升级、修改终端本地配置、协调友商修改参数配置等0.5~1(23)0.2~0.5(2516)0.15~0.2(3386)0.1~0.15(3945)0~0.1(3653)LTE-FDDBANDⅢ终端用户分布图(%)(a)现网LTE终端占比(2015年第3季度)301004020百分比/%32.626.828.24.45.822.4支持LTE支持LTEFDD支持LTETDD仅支持LTEFDD仅支持LTETDD同时支持LTETDD/FDD010050百分比/%98.294.040.999.1099.644.22L2100L900010050百分比/%L1800支持TD-SCDMA支持GSM支持WCDMA(b)L1800/L2100/L900终端占比(c)仅支持LTETDD终端占比本期关注MonthlyFocus宋春涛,张帆,曹振电信运营商的终端大数据分析及应用42邮电设计技术/2016/08方案。这些问题及解决方案按其问题定界分发至相关专业及产业链条,能够促进终端技术和产业优化的良好循环。2.1.3终端预测应用以终端为牵引的用户、业务、网络及终端数据以内在网状关联存在,引入数据挖掘算法可以获取单维之上的更多深度聚类和关联结果。这些挖掘算法和结果在对外应用中有着非常广的应用场景。本文介绍一个用户终端使用变迁研究的案例:即根据约36万用户的2015年度12个月的手机使用行为,预测它们2016年1—3月内是否会换机。通过问题建模、业务逻辑分析、特征工程、模型选择、模型及参数调优获得非常理想的结果并将其应用在运营商的终端营销中。终端使用变迁预测内容及过程如图3所示。预测结果得分为0.89,结果非常理想。终端预测只是数据挖掘在运营商内部应用的一图3用户终端变迁预测算法及流程图图4产业链各环节终端测试内容及特征说明图DecisionTreeClassifier(class_weight=None,criterion='entropy',max_depth=12,max_features=None,max_leaf_nodes=None,min_samples_leaf=1,min_samples_split=3,min_weight_fraction_leaf=0.0,presort=False,random_state=None,splitter='best')·利用GridSearchCV调参,选取最优参数·基于Scikitlearn中的train_test_split,自行划分测试集和验证集;·决策树:clf=tree.DecisionTreeClassifier(criterion='entropy',max_depth=12,min_samples_split=3),fit(X,y)·基于SGD的逻辑回归:clf=SGDClassifier(alpha=0.0001,loss='log',n_iter=100).fit(X,y)·SVM:clf=LinearSVC().fit(X,y)·基于Scikit-learn,选取不同的分类模型进行训练·引入虚拟变量(DummyVariables):对多值离散特征,分别引入虚拟变量(注意防止多重共线性)·连续特征离散化:对话务量、短信次数、所持终端价格、距今时间等连续特征进行离散化处理·逻辑特征数值化:对网络类型、性别、上月换机情况等非数值特征,进行数值化处理网络类型、性别、年龄、ARPU、流量、话务量、短信次数、上月换机情况、上次换机距今时间、所持终端价格、所持终端上市距今时间通过业务分析,确立以下特征:·原始数据的关联处理和数据特征选取等初步准备工作,在Oracle中进行。·基于Anaconda科学计算环境,使用Scikit-learn库进行特征工程、模型训练、交叉验证和参数调优工作。最终模型交叉验证模型训练特征工程特征选取建模过程概述个示例,藉此可以进行围绕终端的更多挖掘并在市场营销、客户服务等方面获得更多应用。2.2运营商外部典型应用2.2.1终端评测应用移动终端从产品设计阶段到上市的几个过程中均伴随着评测过程,但各环节的评测重点及手段则有所差异(见图4)。移动终端评测的传统模式具有单品检测、非统计终端大数据大数据评测:入网使用环节中,运营商权威介入,全量采集,从功能及性能分析对全部在网终端的性能分析及评价。运营商完成全品牌、全型号、全用户采样上市销售第三方评测:上市之后由第三方进行的性能检测第三方完成单品抽检产品设计仿真测试:设计环节的仿真及模拟测试方法评测厂家自主完成入网申请入网检测:权威部门的必要性入网许可检测许可部门完成送检方式产品生产生产质检:生产环节针对产品的合格性检测厂家自主完成自检方式本期关注MonthlyFocus宋春涛,张帆,曹振电信运营商的终端大数据分析及应用432016/08/DTPT性、偶然性、测试性、内场测试等诸多弊端,而基于运营商现网的大数据分析则能够摒弃上述各类弊端,从现网直接提取数据并进行分析,具备现网统计、全采样、客观性、深度性、外场补充等重要优势。作为运营商的终端评测,不应过多关注终端配置、操作系统易用性、用户体验及口碑等方面,而应将重点放在移动终端的移动通信能力评测。笔者及团队从2014年开始重点针对