电信用户流失预警案例星环科技孙国库|2018年7月目录CONTENTS星环科技业务需求1数据需求2技术路线3实现步骤4总结5业务需求1chapterü成本控制ü流失预测星环科技成本控制业务需求Ø成本控制为有关数据表明,发展一位新用户的所需花费的成本是挽留一位老用户所需花费成本的大约4-5倍。因此,如何科学而合理地制定有效的经营方案和服务策略,最大程度地降低用户的流失率,尤其是优质用户和各类大用户,变得尤为突出。成本星环科技流失预测业务需求Ø流失预测预测用户在未来期间的用户的流失趋势,并有针对性地为用户提供相应的服务和挽留措施,已经成为降低企业用户离网率的重点。优惠套餐赠送话费流量人工客服数据需求2chapterü原始数据ü数据处理需求星环科技原始数据数据需求星环科技原始数据数据需求用户年龄:(int)eg:18入网时间:(string)eg:“13-4-12下午10:27”通话数:(double)eg:9.0平均套餐消费:(double)eg:65.0流失指标:(double)eg:0.029Ø流失指标是连续值,越大则表示用户流失的可能性越大。星环科技数据处理需求数据需求Ø关心结果:是否流失。(二值化、设置角色)Ø数据转换:入网日期-入网至今的天数。(自定义算子)Ø数据预处理:选择属性、字符串索引。星环科技数据处理需求数据需求技术路线3chapterüSophonü选择模型ü自定义算子ü模型评估星环科技Sophon平台简介Sophon人工智能平台GrapheneTensorflowInceptorGuardianSecurity&AccessControlTranswarpOperatingSystem(EmbeddedEdition)BasedonDocker&KubernetesTranswarpManagerInstall、Monitor、ManagementSophonWeb深度学习算法库DeepLearningAlgorithmsLibrary强化学习ReinforcementLearningTranswarpHubbleAbstractionLayer机器学习算法库MachineLearningAlgorithmsLibrary统计算法库StatisticsAlgorithmsLibrary迁移学习TransferLearning智能建模AutoModeling特征工程FeatureEngineering计算机视觉ComputerVision自然语言处理NaturalLanguageProcessing预测性维护PredictiveMaintenance时序分析SequenceAnalysis实时监控IoTRealtimeMonitoring精准营销TargetMarketing智能风控RiskAnalysis用户画像UserProfiling流失预警ChurnAnalysis异常识别FraudDetection交叉营销CrossSelling智能问答IntelligentQ&A以图搜图ImageSearch目标追踪MovingObjectTrack视频识别VideoRecognition图像分类ImageClassification文字识别OCR主题分析TopicExtraction语义搜索SemanticAnalysis情感分析SentimentAnalysisCoreMethodology,Frameworks&AlgorithmLibrariesUsageScenarios,TemplatesandExampleModelsTranswarpProprietaryApacheProjects星环科技选择模型技术路线Ø随机森林模型2、在分裂一个节点时,随机选取m个影响客户流失的几个特征,mM,从这m个属性中采用某种策略选择最佳属性作为当前节点的分裂属性l经过数据预处理后:假设有M个特征最终影响客户是否流失。共有N个训练样本。1、又放回的随机选取N个客户流失信息训练样本。3、每颗判定是否流失的决策树的每个节点分裂都按照2步骤进行,直到不能分裂为止,返回第一步,循环。4、每颗决策树都这样建立,便得到随机森林。星环科技选择模型技术路线星环科技自定义算子技术路线#coding:utf-8frompyspark.sql.functionsimportudffrompyspark.sql.typesimportIntegerTypeimportdatetimesc=entry.sc#SparkContextspark=entry.spark#SparkSessioninput_in=entry.get_df(in)#获取in输入的端口defdateTransform(s):d=s.split()[0].split(-)date=datetime.date(int(d[0])+2000,int(d[1]),int(d[2]))date0=datetime.date(2018,6,20)return(date0-date).daysdateUdf=udf(dateTransform,IntegerType())param_column=params[column]#获取参数columnout=input_in.withColumn(days,dateUdf(param_column))entry.put_df(out,out)#添加输入端口out,请在第二个参数中填入希望输出的内容星环科技自定义算子-界面技术路线星环科技模型评估技术路线Ø验证与评估算子•二分类(流失、不流失)性能评估•指明正标签的值(二值化后的流失指标label)•选择评估指标•混淆矩阵•准确率召回率曲线(precision_recall_curve)•ROC曲线星环科技模型评估技术路线星环科技模型评估技术路线实现步骤4chapterü实践操作星环科技实践操作Ø实现步骤:1.数据预处理2.训练测试样本切分3.输入训练数据训练模型4.输入测试数据得出预测结果Ø实践操作(视频)总结5chapter星环科技总结总结Q&A星环科技