从“被虐”到“落地”—— 明略大数据产品演进实践明略数据刘诚忠 2015.4目录WHY大数据落地被虐实例如何应对案例分享我们是谁• 成立仅一年,66人 • 大数据平台,挖掘平台,数据工厂 • 国美,苏宁,北京台,银联,地税,邮储银行… 提供全行业的大数据整体解决方案,重点覆盖政府、金融、通信和零售四大支柱产业 北京明略软件系统有限公司 理想和现实期望到达大数据的核心价值在于:挖掘隐藏在大数据背后的知识 目录WHY大数据落地被虐实例如何应对案例分享信心爆棚的进击• Hadoop • HBase • Spark • Storm • Impala • ML 很快感受到森森的恶意丰富的数据源权力的游戏性能更要命的问题——大数据??问题定义整合 多源,异构,实时 保护 权限,集群,统一 分析 模型,效率,定制 交互 可视化,实时响应 目录WHY大数据落地被虐实例如何应对案例分享明略总体思路核心产品组件大数据集群 INCR 让传统应用系统的数据实时整合进数据平台 LogM 日志实时采集、处理和整合 Acre Cell级别的数据访问权限管理 NoahArk 集中管理,监控和运维您的系统 Data One & SQL One 全链路数据整合、存储管理、查询计算、处理分析的大数据作业平台 Data Insight 全界面操作的快速建模和数据挖掘工具 CharmiBoard 自由定制的跨平台数据可视化工具 数据整合 数据安全 系统安全 数据分析挖掘 明略Data ONEData One Interface 帮助企业实现数据治理的一站式大数据工作台 抽象设计,帮助业务方关注需求任务,不纠结底层技术 异构数据源混合查询的SQL引擎(专利申请中),可JOIN传统数据库,NoSQL,Hadoop数据 用户界面 Data One Core Services APIs MiningLamp SQL One 数据作业 数据管理 数据整合 • 数据管理 管理平台中所有文件、结构化和非结构化数据 • 数据整合 依据分析场景,通过人机交互将异构的数据打通整合 • 数据作业 实现不同复杂程度的数据处理和分析 • 人机交互 全界面操作,提供大量数据作业模板SQL接口 Query Optimizer 多引擎适配 多数据源适配 Data ONE系统架构明略Acre业务查询平台 ETL LDAP 用户 角色 操作 用户组 资源 WEB UI Query Parse Check Append Where Claus Request n 用户 n 角色 n Operator n Resource Required n 用户 n 角色 n Operator n Resource 权限判定 权限Provider • 支持Hive,Impala,MySQL多数据接口的统一授权管理(专利申请中) • 精确到cell级别的ACL/RBAC混合权限管理,超过市场同类产品(Cloudera列权限功能开发中) Acre——系统架构明略Data Insight带有调参反馈机制的可视化数据挖掘平台,为企业数据科学家打造的建模利器 集成所有主流数据挖掘算法 可视化快速建立数据挖掘模型 大大降低数据挖掘的交互复杂度 以反欺诈和征信为代表的垂直解决方案 • Decision Tree • Logistic Regression • Support Vector Machine • Multinomial Naive Bayes • Regression Tree • Linear Regression • Lasso Regression • Ridge Regression • K-Means • … DI——系统架构DI——DSL支持• DataInsight⾃自定义了简单的脚本语⾔言,⽤用来处理⼀一些较为复杂的数据变换 • ⺫⽬目前DSL⽀支持以下功能,基本满⾜足常⻅见的数据转换需求。 – 数据过滤 – GroupBy – 常⽤用数学函数 – 类型转换函数 – 字符串操作 – Map操作 – 统计函数 DI——算法列表分类算法 聚类算法 回归算法 推荐算法 • SVM • LogisJc Regression • NaJve Bayes • Decision Tree • Random Forest • K-‐means • DBScan • Lasso Regression • Ridge Regression • Linear Regression • Gradient Boosted Regression • Regression Tree • Item based CF • User based CF • AlternaJng Least Squares 特征变换 自然语言处理 频繁模式 数理统计 • PCA • LDA • Word2Vec • FPGrowth • BIDE • CorrelaJon Analysis • DistribuJon StaJsJcs 基于Spark的并行化算法 新一代BIOLAPCUBE?新一代BI• 一站式的意义——DATA GRAVITY • 要考虑到复杂分析可能——OLMP • 分布式的痛永远在单点——最大限度去中心化 新一代BIDATASTAXStratiohYp://velvia.github.io/presentaJons/cassandra-‐spark-‐olap-‐2014/index.html#/25/2新一代BI• GDELT dataset, 117 million rows, 57 columns, ~50GB • Spark 1.0.2, AWS 8 x c3.xlarge, cached in memory • Adhoc : 0.49 • TOP K: 1.51 • TOP Group By: 2.69 hYp://velvia.github.io/presentaJons/cassandra-‐spark-‐olap-‐2014/index.html#/25/2目录WHY大数据落地被虐实例如何应对案例分享案例——商圈聚类• 通过商户的地理坐标,将全国所有城市中的商户聚集成商圈 • 使⽤用DBScan算法进⾏行商圈聚类 • 成功的将全国300个城市中的商户聚集成商圈,发现了很多⼈人⼯工未能标注的商圈。 案例——消费预测• 通过⽤用户的⾏行为数据,对⽤用户未来消费⾏行为进⾏行预测 • 使⽤用基于概率转移矩阵的⾃自定义算法对⽤用户消费⾏行为进⾏行预测 • 预测结果包括: – 消费的商户 – 消费次数 – 消费平均⾦金额 – 消费时间属性 总结大数据技术正在从互联网公司往传统行业飞速扩展,技术应用程度有gap但已经不大应用更实时,更敏捷,更偏决策导向,IT层在变薄变轻,IT人需要重新定位数据互联互通将成为全行业刚需,权限审计和行业规范是目前障碍技术的进步并未逾越工具范畴,帮助人决策 @明略数据 明略数据