大数据社会对证券公司的挑战与机遇——毛义彬:某证券公司架构师29

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据社会对证券公司的挑战与机遇•资深项目经理毛义彬SACC2013主要内容五、大数据的应用四、大数据的支撑三、大数据社会:Ready?二、大数据的特性一、迎接大数据社会SACC2013一、迎接大数据社会中国古典计数体系:1、《孙子算经》中记载:“凡大数之法,万万曰亿,万万亿曰兆,万万兆曰京,万万京曰垓(gāi),万万垓曰秭(zǐ),万万秭曰穰,万万穰曰沟,万万沟曰涧,万万涧曰正,万万正曰载。”2、由小到大依次为一、十、百、千、万、亿、兆、京、垓、秭、穰、沟、涧、正、载、极、……;3、万以下是十进制,万以后则为万进制,即万万为亿,万亿为兆、万兆为京、万京为垓,……;SACC2013一、迎接大数据社会1、2008年新产生数字信息的比特数:3,892,179,868,480,350,000,000用中文表示为38垓9217京9868兆4803亿5千万约等于39垓(音gāi)也可计作38.9217986848035万亿亿,约等于39万亿亿。2、SACC2013一、迎接大数据社会3、Sysomos表示,在史蒂夫·乔布斯(SteveJobs)辞世之后的13个小时内,Twitter用户发布的与乔布斯相关的信息多达250万条。4、亚洲社交媒体的传播特性:分享——导致更多的信息传播SACC2013二、大数据的特性IDC表示,首先必须成本低廉特征,其次是满足多样性(variety)、容量(volume)和速度(velocity)这三个标准中的两个。1、Variety2、Volume3、VelocitySACC2013二、大数据的特性1、互联网与Wiki2、WikIT:指互联网技术的应用发展到今天,人们通过这个开放的环境进行协作,通过娱乐、交流和交易,形成的一种新型的关系,这样一种新型关系所潜在的巨大的社会价值我们所忽略,而去挖掘这样里的金矿,就是维基-IT(WikIT)的内涵。——进入的是维基-IT时代。WikIT-er3、例证:web1.0招聘与facebook应用从解决商业信息的不对称性到协同合作共赢模式4、3Q大战——自觉与不知觉的开放SACC2013二、大数据的特性1、改变了IT的生态环境Appstore:全民参与;prosumer2、激活终端客户和partner共赢,倒逼商业模式的变更云计算;3、开放、有序产生价值SACC2013三、大数据社会:Ready?什么是数据中心:数据中心是企业的业务系统与数据资源进行集中、集成、共享、分析的场地、工具、流程等的有机组合。1、从应用层面看,包括业务系统、基于数据仓库的分析系统;2、从数据层面看,包括操作型数据和分析型数据以及数据与数据的集成/整合流程;3、从基础设施层面看,包括服务器、网络、存储和整体IT运行维护服务。SACC2013数据中心逻辑图(MPP架构)EDW交易数据清算数据营销数据财务数据其它数据非结构化数据交易数据清算数据营销数据财务数据其它数据规整数据ODSETL呼叫中心营销平台财务系统门户网站管理平台商业智能工具元数据管理和质量管理其它系统数据服务平台DATASTAGEETLDATASTAGEETLSACC2013并行数据流引擎MPP核心技术QueryPlanner及优化器(SQL)并行数据流引擎交易管理器及日志文件ODBCJDBCetc数据库存储外部存储MapReduce代码(Python、Perl等)•利用原生MapReduce模型实现,比传统快数十倍•全部SQL逻辑都可以并行执行•并行技术加载和导出数据•并行数据备份和恢复SACC2013MasterandSegmentNodeMasterSegmentSegmentSegmentSegment…MasterMasterNode•建立与客户端的连接和管理•SQL的解析并形成执行计划•执行计划向Segment的分发•收集Segment的执行结果•Master不存储应用业务数据,只存储数据字典SegmentNode•业务数据的存储和存取•用户查询SQL的执行SACC2013四、大数据的支撑SACC2013四、大数据的支撑SACC2013三、建设过程:开发过程SACC2013SACC2013四、大数据应用探索1、公众舆论与对冲基金2、数据中心及数据挖掘的应用SACC2013构建细分模型的一般过程18Cross-IndustryStandardProcessforDataMining跨行业数据挖掘标准过程(CRISP)CRISP-DM数据挖掘方法论用层次过程模型描述。包括四个抽象任务集合:阶段(phase)一般任务(generictask)具体任务(specializedtask)过程实例(processinstance)第一层称为阶段,每个阶段包括若干个第二层的一般任务。第二层称为一般任务,是因为计划把它设计得足够全面以涵盖所有可能的数据挖掘情况。“完全”意指涵盖数据挖掘的整个过程和所有可能的数据挖掘应用。“稳定”意指模型对于不可预见的发展比如新的建模技术也有效。第三层称为具体任务层,描述一般任务层的活动如何在某一具体环境中实施。第四层称为过程实例,是有关一次实际数据挖掘项目应用的活动、决策和结果的记录。数据挖掘一般过程方法论SACC2013使用CRISP的一个例子19寻找潜在理财产品购买客户?商业理解数据理解数据准备建模评价部署截止数据日期,南京市信用卡用户141万,已经购买理财产品客户23933户,挖掘潜在的理财产品购买客户,分析理财业务……确认实体关系,设计数据挖掘宽表,进行基础的数据探索任务,撰写数据质量报告与数据探索报告。准备数据集、检查数据逻辑正确性、删除数据项、增加构造数据项、合并数据、格式化数据选择建模技术、设定假定命题、测试模型、参数调整、技术性模型评估依据商业知识评价模型、依据商业活动结果评价模型、核查模型稳定性、估计模型稳定周期在合适的环境上部署模型,在稳定周期内循环使用BusinessunderstandingDataunderstandingDatapreparationModelingEvaluationDeploymentCRISP-DMSACC2013客户细分简介20客户细分的历史与发展:客户细分是20世纪50年代中期由美国学者温德尔史密斯提出,其理论依据在于顾客需求的异质性和企业需要在有限资源的基础上进行有效地市场竞争。发展至今,指企业在明确的战略业务模式和特定的市场中,根据客户的属性,行为,需求,偏好、价值等因素对客户进行分类,并提供有针对性的产品,服务和销售模式。客户细分的价值:业务人员的经验加上科学的细分方法使得细分结果更有效。提供极大灵活性,快速建立市场细分模型。确保企业及时的了解用户行为的变化情况。为企业的策略制定提供数据支持。为企业决策人员提供支持和帮助。•需要更详尽的了解用户群的构成情况;•需要更细致的了解不同用户群之间的差异情况;•需要更详细的了解用户群的消费行为和喜好;•需要更快速的了解用户行为的变化情况;在快速发展业务的同时,是否需要更好的了解您的客户?SACC2013客户细分模型21细分类型具备的意义战略细分面向大市场,企业高层,定制市场战略等价值细分面向业务部门,制定营销倾向性策略等行为细分面向分析部门,了解客户行为特征、例如交易行为等交叉细分基于产品线的细分,以及细分子模型的组合I.Notonlyamodel;II.Thelogicthinkingmethod;III.Thestartingpointoftheanalysis;如何对待“CustomerSegmentation”如何实践“CustomerSegmentation”SS1较成熟客户SS2传统长途偏好者SS3典型家庭用户SS4可能流失客户SS5预付费用户SSH高端客户SSB宽带客户提供了理解客户的新思路6.52%7.63%5.56%9.24%9.80%12.04%12.45%9.13%13.22%14.43%(客户群1)电信精英(6.52%)话务,数据,ARPU都最高,入网年限较长(客户群3)拇指数据(5.56%)数据用量很高,高漫游,晚间话务高,Do较多(相对1X),外地联系为主;(客户群5)亲密谈伴(9.80%)ARPU居中,电话聚集度很高,圈子较小,本地为主,e家融合比例较高(客户群4)本地外交家(9.24%)本地,联系广泛,特别是被叫号码多,集中在白天(客户群8)低值语音(9.13%)低价值,本地语音为主,老年多较多(客户群6)电信备机(12.04%)低价值,呼出为主,呼出对象唯一,且多为长途(客户群7)长途数据(12.45%)中值,数据用量相对较高,长途占比高,总体MOU低(客户群2)话唠(7.63%)语音极高,短信,数据用量少,且短信发送对象单一(客户群9)低值低端(13.22%)ARPU较低,通讯行为单调(客户群10)沉默(14.43%)语音沉默、短信沉默、数据沉默(零次户)SACC2013行为细分的目的:发现客户交易模式类型22账户状态有效性判断账户类型账户生命周期投资时间账户价值交易习惯投资偏好投资收益价值属性资产峰值资产均值交易量佣金贡献成本周转率市场关注度仓位平均持股市值平均持股时间单笔交易均值日均成交量偏好股票偏好品种下单渠道是否申购本期绝对收益本期相对收益今年绝对收益今年相对收益投资能力账户状态中的变量用于圈定客户,其他变量可以用于数据分析或数据挖掘,同时区别对待连续变量与离散变量的使用方法;使用原始变量分析经过计算后的变量之间是否存在共线性、相关性等因素,尽量获取独立性较强的变量进行依赖性分析;扩充交易习惯类别的变量,获取原变量并按月汇总,进行衍生变量设计(比例型、业务组合型);此处建议不要考虑风险类字段,而将风险作为独立的题目进行设计;建议使用3个月数据进行行为细分建模,使用6个月或12个月数据进行战略细分建模,针对时间范围内数据进行汇总SACC2013AlpineMiner中的聚类算法23k-means算法接受输入量k,然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心,而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类,然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值),不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。K-Means支持9中距离计算函数方法SACC2013信用卡客户细分工作流程24明确业务和数据基础探索数据及确定建模变量构建模型及技术性评估业务建议及后评估、常态化业务需求分析数据源分析探索性数据分析(EDA)调试模型模型评估提出业务建议及营销建议后评估及常态化12345671234567获取客户的需求,并探讨想要的分析方向及分析重点及确立分析题目对当前数据现状进行分析、诊断,确定具备分析工作能够展开的基本数据基础数据质量检查、探索数据(业务统计)、变量探索、变量降维等工作确定算法、参数,调试模型;模型比较针对不同类型的模型使用不同参数进行评估LIFT、GINI等;模型解读,以业务能够理解的方式向业务人员解释成果结合业务发展方向、EDA中的业务统计分析,以及当前模型结论给出相应的业务建议,操作建议;给出特定的营销活动策划建议;收集模型测试数据,评估当前稳定性;提出常态化建设的意见、方法、运维思路;SACC2013AlpineModelKeyPoint(exceptDerivativevariables)信用卡客户细分建模过程25使用算法:K-mean距离函数:先用Euclidean,如果结果不如预期适尝试使用Manhattan方法(必须规范化数据)聚类个数:7个初始中心

1 / 29
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功