Transwarp Data Mining 数据挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

DataMiningonTranswarpDataHub星环信息科技(上海)有限公司Transwarp(Shanghai)Inc.pub@transwarp.io微信:transwarp-sh微博:星环科技1TRANSWARP©20142TRANSWARP©2014现有大数据量上的数据挖掘分析受单机硬件限制,分析数据量有限大数据量上,分析速度较慢通过Mapreduce,做全量数据分析Mapreduce计算框架,迭代计算效率低下原始数据集取样采样数据集分析传统数据挖掘分析ClusterMapReduce结合Hadoop的大数据分析MahoutRHadoop3TRANSWARP©2014TranswarpR在大数据量上的分析采用Inceptor作为计算引擎,利于迭代式分析计算支持SQL抽取转换Hyperbase或Inceptor中数据支持直接从HDFS中读取数据丰富的并行算法库,包括聚类、分类、预测等算法丰富的并行化算子支持R中串行算法并行化执行支持返回结果写入HDFS统一通过YARN进行计算资源调度并行算法库内存列式表(index,filters)内存列式表(index,filters)TranswarpInceptor内存计算引擎(SparkVariant)TranswarpHDFSTranswarpHyperbase(HBaseVariant)SQLtextFile(DirectfromHDFS)TranswarpYARN4TRANSWARP©2014TranswarpROnInceptor……ExecutorExecutorExecutorInceptorContextExecutorSpark集群…………Func,Data,EnvFunc,Data,EnvFunc,Data,EnvFunc,Data,Env5TRANSWARP©2014多种数据接入方式TranswarpHDFSTranswarpHyperbasesql2RDDMethodtextFileMethodTranswarpInceptorlistorvectorinRparallelizeMethod6TRANSWARP©2014数据清洗转换DataSet1DataSet2DataSetN……FinalDataSetSQL…ReplaceJoinUnionColumnSelect7TRANSWARP©2014数据分析准备DataSetStatistics…Min/Max/STDNormallizationHistogramBoxplot8TRANSWARP©2014并行统计算法算法描述txMax/txMin/txAverage/txSTD对数据进行预处理时最基本的统计方法,分别用来计算数据的最大值、最小值、平均值以及方差。txNormallization归一化方法是一种简化计算的方式,通过将原始数据转换到某个范围内如(0,1),可以避免不同指标因取值范围的不同,对结果造成的偏差。txScreeningtxScreening方法可以将缺损值或者异常值选出并剔除,能够保证数据的有效性。txRangeSizetxRangeSize方法用来统计等于任意值或属于某个区间内的数据总量。txboxplot箱线图是一种描述数据分布的统计图,利用它可以从视觉的角度来观察变量值的分布情况。箱线图主要表示变量值的中位数、四分之一位数、四分之三位数等统计量。txPercentiletxPercentile用来计算处于某个分位数上的值,如给定参数0.5,则返回中位数。txHistogram直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。txBinning通过指定区间数,txBinning方法可以返回对数据进行均匀分布后的每个区间的取值。9TRANSWARP©2014并行机器学习算法算法描述逻辑回归当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等,常用于做分类。朴素贝叶斯分类算法,常用于做文本分类。该分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。该模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单实用。支持向量机支持向量机(SupportVectorMachine)是一种监督式学习的方法,可广泛地应用于统计分类以及回归分析,具有较高的鲁棒性。聚类算法K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。线性回归线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。推荐算法基于内容的推荐方法,根据用户过去的浏览记录来向用户推荐用户没有接触过的推荐项。频繁项集频繁项挖掘,频繁项集挖掘是关联规则挖掘中的首要的子任务。它主要用于挖掘集合中经常一起共现的元素,如经常被一起购买的商品等。关联分析关联规则分析,根据挖掘出的频繁项集,进一步挖掘如商品间或消费间的关联规则10TRANSWARP©2014串行算法的并行化……Partition…Partition…Partition………SpecifiedDimension该维度中每个不同的元素对应的所有记录11TRANSWARP©2014R语言并行算法示例初始化通过SQL语句,数据重组转换,支持PL/SQL将SQL语句执行的结果转换成RDD供后续处理RHDFS运行transwarp版本的k-means算法绘制图表示例一:商圈挖掘12TRANSWARP©2014POS机全国分布:江浙沪一带,商户最为密集;北京天津一带,聚集的区域没有江浙沪大;其他南方地区;商圈聚类模型分析与选择13TRANSWARP©2014商圈聚类需求本质上发掘密度程度较高的区域,而传统意义上的机器学习算法的聚类算法(如Kmeans)是将距离相近的点归并成一类,这两个概念存在一定差距。Kmeans等聚类算法只是将区域内的点聚成一类,并不能反映哪个区域密度更高。密度估计算法能够分析对区域的密度与聚集程度;Kmeans的效果密度估计的效果商圈的动态选择14TRANSWARP©2014level水平:0.95level水平:0.967level水平:0.986level水平:0.995商圈的挖掘15TRANSWARP©2014方法1:内部细分方法2:差集再挖掘最终效果展示16TRANSWARP©2014ID名称1五角场2浦东建材市场3金沙江路中环路口4漕河泾5中山公园6徐家汇7静安寺-南京路-人民广场8虹莘路9金沙江路祁连山路10陆家嘴11大柏树12娄山关路13新世界14长寿路示例二:持卡人画像分析&交易预测17TRANSWARP©2014商店、商户分店交易流水表终端、应用、商圈表银联BMS基础数据交易流水汇总持卡人画像持卡人交易预测持卡人画像表交易预测表/文件将持卡人、商户、分店、终端、商圈汇总交易流水宽表TDHInceptorSQLTDHInceptorSQLTranswarpRTranswarpRTranswarpR持卡人画像描述体系18TRANSWARP©2014图:持卡人画像描述体系(可扩展、自定义)持卡人画像分析效果展示19TRANSWARP©2014持卡人交易行为分析20TRANSWARP©2014用户的消费行为分析:•非常复杂、经济学模型也很难刻画;•很多消费行为具有随机性或偶然性;•也有一部分消费行为具备一定的规律;•挖掘出持卡人行为的强规则(即周期性发生的交易行为),在该规律下推算预测该用户在下面一段时间内很大概率会发生的消费行为DEMO21TRANSWARP©201422TRANSWARP©2014银行大数据平台应用构建以用户为中心,以融合为手段,以大数据为基础,践行数据驱动运营流程和商业模式变革,寻求新的业务和服务创新。聚合的数据平台寻求效益深度洞察用户融合数据以用户为中心以大数据为基础数据驱动运营流程和商业模式信用卡信贷借记卡APP互联网域第三方平台域精准营销为用户推荐个性化的金融产品精准广告投放,广告价值分析基于用户消费模型的线上线下营销价值转化客户体验关怀体系,当用户刷卡超过80%时,提醒客户超支优化服务入口、一致的服务体验价值挖掘客户统一视图:客户价值模型、客户兴趣模型、产品和市场计划微博数据挖掘、营销分析风险监控用户流式分析、企业舆情监控、信贷风险分析、欺诈告警决策支持交互式分析、实时挖掘交互式分析一直是BI应用的重点,但是传统关系型数据库对临时的实时性要求高的交互式分析无法快速响应,查询效率低,临时性报表需求,快速响应占报表需求的比重越来越高。数据存储和分析能力的一站式平台,支持R等多种统计分析函数,并行计算,冲破传统数据仓库的限制。为用户数据千万和亿级别的账单数据的关联汇总,模式比较固定,字段的变动要求比较高,输出的结果级往往很大,传统数据库无法灵活支撑。银行交互时分析典型场景基于内存的统计分析能力,效率成百倍提升提供交互式的数据操作接口,BI工具实时获取分析反馈的分析结果。传统数据库-数据仓库-BI工具数据多次拷贝效率低通过一站式平台解决所有问题内存分析R集成一站平台渠道个性化营销7点8点9点11点12点13点14点17点18点19点21点22点23点手机闹钟叫醒看看天气马桶上看新闻坐地铁去上班地铁里听音乐、看小说查看天气,准备去银行办理业务登陆行用卡APP银行推送新的理财产品下楼吃早点坐地铁去银行到达指定银行预约取号办理业务用手机看一眼股市行情排队等待额时候,APP提示还有5分钟收到业务开通提醒返回公司上班收到快递的午餐,pos机刷卡手机上淘宝订餐还款机还款无法识别用嘀嘀打车预约出租车,微信支付通过电话和客户沟通到家浏览银行微信订阅号,查询一天消费信息iPad上看一部电影睡觉线下(Offline)线上(Online)小强•智能终端普及和移动网络发展,深刻影响着人们的生活,生活方式逐步由线下转到线上,管道上承载越来越多的生活信息。通过支付宝进行信用卡还款支付宝提示还款成功下班•通过用户线上线下渠道信息的获取和挖掘,进行实时的营销推送,能够极大程度的增加与用户之间的业务触点•个性化的实时营销推送:1、基于消息和信令,例如拨打VIP热线、位置变更;2、网络行为、例如访问淘宝、餐饮合作网站3、业务受理时间,网厅或者营业厅开通、退订业务;4、生命周期变更、例如合约到期、被归纳到易流失人群;5、消费行为,刷卡或者手机二维码支付。收到刷卡成功短信Kafka数据流权限管控26TRANSWARP©2014KerberosServerProducerProducerProducerProducerBroker1Topic1/partition1/partition3Topic2/partition1…Broker3Topic1/partition2/partition3…Broker2Topic1/partition1/partition2Topic2/partition1…ConsumerConsumerZookeeperClusterPermissionsServerauthsessionkeyloginsessionkeylogin•在Topic级别支持权限控制READ–从Topic抓取数据WRITE–向Topic中生产数据DELETE–删除TopicCREATE–创建TopicTRANSWARP©2014金融业数据挖掘与实时流处理相结合HyperbaseRealtimedatabase刷卡消费行为挖掘网银消费行为挖掘个人/企业数据挖掘…….StreamingClusterInceptorKafka分布式消

1 / 29
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功