Oracle电信行业大数据解决方案刘建忠资深技术顾问议题•大数据的挑战与机遇•大数据技术与Oracle大数据解决方案•电信行业大数据应用大数据的挑战与机遇什么是大数据?4V数据量Volume速度Velocity多样性Variety价值Value社交博客智能计量101100101001001001101010101011100101010100100101淘宝网的指标体系除了自己分析运营的淘数据之外,为卖家提供了丰富的指标应用工具,主要是淘宝量子恒道统计,淘宝魔方等二十多种分析工具,通过这些工具为卖家更好的管理自己的店铺和优化店铺经营阿里金融:如何融资(挑战传统金融模式)阿里金融相继开发出阿里信用贷款、淘宝(天猫)信用贷款,淘宝(天猫)订单贷款等微贷产品,均为纯信用贷款,不需要小微企业提交任何担保或抵押。面向小微企业、个人创业者:•发放信贷最主要的因素是成本和风险,阿里金融通过对数据的搜集和整合,解决了这两大难题。•通过对商家往来的交易、信用、客户评价、访问行为等数据的分析,了解可能需要的资金量并可以测算他们可能的还款时间,从而降低放贷风险。•通过数据的运算来评核企业的信用,不仅降低了申请贷款的门槛,也极大简化了申请贷款的流程,使其有了完全在互联网上作业的可能性数据魔方:卖什么以行业商品为分类,提供行业内商品热卖排名等信息,分析行业内商品销售趋势帮助商家:•何种商品上架--借鉴行业商品在淘宝的销售信息,确定在何时上架什么类型的商品,为制定商品价格、优惠活动时长做出参考•指导生产和销售:买家喜欢搜索的品牌、产品和特征,企业可预先洞悉即将热销的商品指导生产和销售•确定客户目标--帮助商家分析买家的性别年龄、地域分布、客单价、购买频次以及购买时段等数据,便于企业精准营销•知己知彼--帮助商家确定自己在淘宝的位置,查看竞争对手的销售概况,从而帮助商家进行店铺销售定位62012年7月,阿里巴巴在管理层设置了“首席数据官(CDO)”一职,负责推进“数据分享平台”,落实“将阿里集团变成一家真正意义上的数据公司”战略。大数据带来高价值行业案例商业价值银行/金融•贷款、保险、发卡等多业务线数据集成分析、市场评估•新产品风险评估•股票等投资组合趋势分析•增加市场份额•提升客户忠诚度•提高整体收入•降低金融风险医疗•共享电子病历及医疗记录,帮助快速诊断•改善诊疗质量•加快诊疗速度制造/高科技•产品故障、失效综合分析•专利记录检索•智能设备全球定位,位置服务•优化产品设计、制造•降低保修成本•加快问题解决能源•勘探、钻井等传感器阵列数据集中分析•降低工程事故风险•优化勘探过程互联网/Web2.0•在线广告投放•商品评分、排名•社交网络自动匹配•搜索结果优化•提升网络用户忠诚度•改善社交网络体验•向目标用户提供有针对性的商品与服务政府/公用事业•智能城市信息网络集成•天气、地理、水电煤等公共数据收集、研究•公共安全信息集中处理、智能分析•更好地对外提供公共服务•舆情分析•准确预判安全威胁媒体/娱乐•收视率统计、热点信息统计、分析•创造更多联合、交叉销售商机•准确评估广告效用零售•基于用户位置信息的精确促销•社交网络购买行为分析•促进客户购买热情•顺应客户购买行为习惯7大数据的商业价值8应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)•纵轴契合度:表示该用户的IT应用特点与大数据特性的契合程度;•横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;•注:该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值HighMidLowLowMidHigh优先关注行业用户应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高适当关注行业用户两个维度暂时都不具备优势,可适当给予关注互联网(电子商务)契合度流通零售制造大数据行业应用分析大数据为什么重要?•视频和图像•文档•社交数据•机器生成数据大数据分析传统商务智能分析决策基于交易型数据决策基于所有的数据时间业务价值大数据:挑战与机遇利用大数据提升业务价值→数据量大→高速度→高度多样化→低价值密度大数据现在→分布式→高度可伸缩性→基于廉价开放式平台→高可用性→深度分析明天挑战大数据技术大数据技术与Oracle大数据解决方案Oracle面向大数据的集成解决方案捕获OracleNoSQL数据库HDFS企业应用组织Hadoop(MapReduce)OracleBigDataConnectorOracleDataIntegrator决策分析应用分析数据库中的分析数据仓库分布式,批处理,大量数据,延时分布式,实时,小数据,快速读写大数据技术Hadoop管理/监视Hadoop分布式文件系统(HDFS)MapReduce采用冗余存储的分布式文件系统Map/Reduce编程范式高度可伸缩的数据处理能力针对大数据量、低密度数据的经济高效的模型一个很“酷”的名字(来自DougCutting)NoSQL•快速涌现的新数据库技术•Not-only-SQL或non-SQL•分布式(云)存储•大数据量(Terabyte–Petabyte)•没有标准–122+(nosql-database.org)–特性各异–没有统一的查询语言•大部分开源•公共数据模型–键值–文档–列存储–图形NoSQLvsRDBMSOracleNoSQL数据库NoSQL驱动程序应用程序NoSQL驱动程序应用程序节点东部节点西部节点中部节点…节点…读取删除读取更新特性▪键值对数据库▪水平扩展▪高可用性▪弹性配置▪管理简单▪透明负载平衡▪商业级软件和支持Oracle大数据连接器实现Hadoop与Oracle数据库和Oracle数据库云服务器的优化集成•OracleLoaderforHadoop•OracleSQLConnectorforHadoopDistributedFileSystem(HDFS)•OracleDataIntegratorApplicationAdapterforHadoop•OracleRConnectorforHadoop•不需要大数据机—可为非Oracle硬件上运行的Hadoop颁发许可•软件部分•OracleLinux•OracleJDK•ClouderaHadoopDistribution•ClouderaManager•Open-sourceRdistribution•OracleNoSQLDatabaseCommunityEdition•OracleBigDataConnector•OracleSQLConnectorforHDFS•OracleLoaderforHadoop•ODIAdapterforHadoop•OracleRConenctorforHadoop•硬件部分•18台SunX3-2Lx86PC服务器•每台2C*8核E52660,总288核•每台64GB内存,总1152G•每台12块3TBSAS盘,总648T•网络部分•40GbInfiniBand•10Gb以太网RawStorage:648TCoreCount:288核MemCount:1152GOracle大数据机–BigDataAppliance•数据库集群–8台数据库服务器–128核(每台16核)–2TB内存(每台256GB)–OracleDatabase11g•存储网格–14台存储服务器–100TB/504TB裸容量–22.4TBFlashstorage(每节点1.6TB)–ExadataStorageServerSoftware•InfiniBand网络–内部网络互联(40Gb/sec)Oracle数据库云服务器–Exadata内存中分析软件Essbase适用于Exalytics的TimesTen自适应内存工具1TBRAM40个处理内核高速联网内存中分析硬件OracleBIFoundationSuiteOracle商务智能云服务器–Exalytics该内容仅供参考,不构成对任何特性或功能的开发、发布和时间安排的承诺。Oracle完整的大数据平台Oracle数据库云服务器获取组织分析和可视化流Oracle商务智能云服务器Oracle大数据机OracleBigDataConnectorsEndecaInformationDiscovery电信行业大数据应用OLTPapps:客户信息、订购信息、清帐单、CDR传统渠道:服务请求、接触信息、交互轨迹网络:信令、上网日志(上网时段、时长、频率等)、位置信息(家庭、工作场所、移动轨迹、常去地点)、终端信息、网管、传感器(车联网、物联网)业务平台:业务订购(音乐、游戏、阅读、动漫等)、业务日志、用户生成内容、合作伙伴外部:互联网社区、社会化网络、竞争对手、潜在客户分散在电信网络与IT系统中的海量信息是构建分析竞争型企业的基础,运营商在用户数据方面拥有天然的竞争优势。电信企业需要从更多的数据中发现价值经分辅助主要来源实现方式用户数业务量稳定性新增维挽Up-sellCross-Sell粘性满意度流失预警、存量市场保有、联通客户经理策反、…增量市场挖掘、竞争对手策反、…话务量提升营销、客户价值提升、产品叠加销售、…新产品交叉营销、潜在客户识别、…终端捆绑、家庭/集团客户、…客户体验管理、余额提醒和帐单推送、投诉分层分级管理、…当前经分所能提供的帮助25大数据更快的时间准确的地点真实的人物具体的事件大数据所能提供的帮助26OLTPapps:客户信息、订购信息、清帐单、CDR传统渠道:服务请求、接触信息、交互轨迹网络:信令、上网日志(上网时段、时长、频率等)、位置信息(家庭、工作场所、移动轨迹、常去地点)、终端信息、网管、传感器(车联网、物联网)业务平台:业务订购(音乐、游戏、阅读、动漫等)、业务日志、用户生成内容、合作伙伴外部:互联网社区、社会化网络、竞争对手、潜在客户大数据主要来源实现方式用户数业务量稳定性新增维挽Up-sellCross-Sell粘性满意度机会点更快的时间准确的地点真实的人物具体的事件经分结合大数据所能提供的帮助27FinanceCRMBillingOracleDataIntegrator•OracleCommunicationsDataModel•DataMarts•DataWarehouse•OperationalDataStore(ODS)StructuredDataUnstructuredData服务开通综合业务数据和大数据,实现深度分析事务数据管理安全、治理高级分析可视发现DBMS(OLTP)主数据和参考数据结构化数据仓库文本分析和搜索报告和信息板实时机器生成社交媒体文本、图像、视频、音频NoSQL非结构化半结构化报警数据库中的分析EPMBI管理软件基于消息ETL/ELTCDCODS流(OEP引擎)获取组织分析决策Hadoop(MapReduce)专业的硬件HDFS数据内存中分析RDBMS集群大数据集群高速网络文件集成大数据的企业信息技术架构大数据应用–客户360度视图客户联系信息:联系人、电话、传真、Email、地址等客户评价信息:贡献度、服务等级、信用度、积分、红名单、黑名单等客户其他信息:……客户基本信息:姓名、年龄、性别、证件、职业、行业等客户群信息:企业、家庭、个人、营销群等数据来源▪营业系统▪计费系统▪客户关系管理▪客服系统▪……经营分析系统上网日志系统将机器识别的log文件整理、汇总、挖掘成多个维度诠释每个独立用户音乐下载上网活跃度:高晚8点上海终端:HTCandroid男性28岁游戏迷每月80M流量行为特征:下载、浏览、搜索、邮件等终端属性特征:手机品牌、型号等应用偏好特征:通讯、音乐、游戏、阅读等内容喜好特征:军事、体育、音乐、游戏等基础属性特征:年龄、性别、上网时间等客户360度视图–上网日志分析客户特征客户交往图谱•核心圈:具备两两通信关系的一组通话圈体•通过对历史的话单、短信、彩信、139邮件、微博等通信行为的挖掘和分析,发现客户的通信指纹和客户交往群划分(