从大数据到大智慧:Oracle大数据解决方案贺辉群David.He@oracle.comBigDataTeamofCenterofExcellencePrincipalSalesConsultantIndustrySolutionManagerforBigData&Internet什么是大数据?具有4V特性的数据称为大数据•巨大的数据量Volume•集中储存/集中计算已经无法处理巨大的数据量VOLUMEVELOCITYVARIETYSOCIALBLOGSMARTMETERVALUE1011001010010010011010101010111001010101001001013亿+用户,高峰期一天上亿条微博中型城市每月数十亿智能电表数据2015年全球移动终端产生的数据量6300PB•多结构化数据Variety•文本/图片/视频/文档等•增长速度很快Velocity•海量数据的及时有效分析•用户基数庞大/设备数量众多/实时海量/数据指数级别增长•价值密度低Value•单条数据并无太多价值,但庞大的数据量蕴含巨大财富传统DW难以处理大数据•大数据的4V特点:Volume,Variety,Velocity,Value•传统DW系统不适用于大数据的分析•数据量过于庞大•绝大部分大数据是垃圾•存储成本昂贵•大数据的多样化格式•需要革新性的技术手段•海量数据“经济方案”------经济便宜的X86服务器•海量数据“分而治之”------批量分布式并行计算Hadoop•海量数据“灵活多变”------实时分布式高吞吐高并发数据存取处理NoSQL•海量数据“跨越鸿沟”------大数据超高速装载进数据库OLTPDataWarehouseOracleBigDataSolution非结构化半结构化数据结构化数据ODIAdapterforHadoopOracleLoaderforHadoopOracleDirectConnectorforHDFSOracleRConenctorforHadoop软硬一体优化集成的Oracle大数据综合解决方案OracleBigDataApplianceOracleExadataInfiniBand捕获组织分析InfiniBandOracleExalytics决策决策分析获取组织OracleNoSQL数据库HDFSRDBMSOracle面向大数据的集成解决方案体系新数据的产生来源当今的挑战新数据前景医疗保健昂贵的门诊远程病人监护预防保健、降低住院率制造人员支持产品传感器自动化诊断与支持基于位置的服务基于家庭邮政编码实时位置数据基于地理位置的广告、交通、本地搜索公用事业复杂的配电网详细的使用统计数据提高可用性,降低成本,分级计量计划零售同一规模适合所有市场营销社交媒体舆情分析与分割两组特性面向批处理实时处理要使用的数据提供服务批量存储快速访问特定记录一次写入,无限读取读取、写入、删除、更新最佳选择Hadoop分布式文件系统(HDFS)OracleNoSQL数据库文件系统数据库并行扫描索引存储无固有结构简单的数据结构大量写入大量随机读写Hadoop架构管理/监视Hadoop分布式文件系统(HDFS)MapReduce分布式文件系统Map/Reduce编程范式高度可伸缩的数据处理能力HDFS概述将数据分布在集群上多个副本通过添加节点实现扩展HDFS概述优点缺点大文件低延迟一次写入大量小文件实现流式访问文件更新HDFS用例•点击流存储和分析–持续时间超过X分钟的Web会话数–浏览频率最高/最低的页面–按钟点和源位置进行会话时间分组•舆情分析–多少个评论包含单词或词组•关系发现–哪些项目看似在时间或相近性方面相关–X和Y有多少次相近OracleNoSQL数据库节点东部节点西部节点中部NoSQL驱动程序应用程序NoSQL驱动程序应用程序读取删除读取更新分布式键值对数据库简单编程模型可伸缩的吞吐量商业软件和支持易于管理OracleNoSQL数据库•驱动程序链接到每个应用程序中•数据节点保持最新•存储节点跨多个数据中心•自动处理存储节点故障–优雅降级–自动发现•无单点故障企业拓扑OracleNoSQL数据库主要特性•简单数据模型—键值对(主键+次键模式)•简单操作—读取/插入/更新/删除•事务范围—主键内的记录、单一API调用•无序扫描所有数据(非事务)简单数据模型用户ID地址订阅电子邮件ID电话号码到期日主键:次键:值:字符串字节数组OracleNoSQL数据库主要特性•按操作逐个指定,应用程序设置默认值•可配置的持久性策略同步策略+副本确认策略•可配置的一致性策略ACID事务OracleNoSQL数据库用例•数据捕获–传感器数据捕获(即信息家电、智能电网、地球科学、生物医学科学)–统计信息和网络捕获(QOS网络管理)–Web应用(一路点击式捕获)–针对移动设备的备份服务•数据服务–NoSQL数据共享(地球科学、生物医学)–可伸缩的身份验证–实时通信(MMS、SMS、路由)–社交网络、个性化OracleNoSQL数据库的独特优势•与Oracle体系无缝集成•商业级•可伸缩•简单编程模型•易于管理获取大数据•最佳的数据存放处–HDFS–NoSQL–关系数据库•通过分析发现价值Oracle面向大数据的集成解决方案体系决策分析OracleNoSQL数据库HDFSRDBMS获取组织OracleDataIntegratorOracleLoaderForHadoopHadoop(MapReduce)OracleDirectConnectorHadoop架构管理/监视Hadoop分布式文件系统(HDFS)MapReduce分布式文件系统Map/Reduce编程范式高度可伸缩的数据处理能力简单的MapReduce示例REDUCESHUFFLE/SORTREDUCEREDUCEMAPMAPMAPMAPMAP使用Map/Reduce扫描所有数据SHUFFLE/SORTSHUFFLE/SORTMAPMAPMAPMAPSHUFFLE/SORTREDUCEREDUCESHUFFLE/SORTSHUFFLE/SORTREDUCEREDUCEREDUCE输入2输入1输出2输出1MAPMAPMAPMAPMAPREDUCEREDUCEREDUCEMAPMAPMAPMAPMAPMAPREDUCEREDUCEMAPMAPMAPMAPMAPREDUCEREDUCEREDUCEOracleLoaderforHadoop使用集群MapReduce工作流的最后阶段分区表和未分区表在线和离线加载SHUFFLE/SORTSHUFFLE/SORTREDUCEREDUCEREDUCEMAPMAPMAPMAPMAPMAPREDUCEREDUCEORACLELOADERFORHADOOPOracleDirectConnectorforHDFS从Oracle数据库直接访问对HDFS的SQL访问外部表视图数据查询或导入DCH外部表DCHDCHSQL查询InfiniBandHDFS客户端HDFSOracle数据库从Oracle数据库访问Hadoop数据OracleLoaderforHadoop用例特性通过JDBC在线加载最简单的未分区表用例通过直接路径在线加载分区表的快速在线加载通过datapump文件离线加载外部表的最快加载方法数据库服务器上的加载较少OracleDirectConnectorforHDFS从Oracle数据库对HDFS进行SQL访问数据留在HDFS上从数据库并行访问与OracleLoaderforHadoop联用访问由OLH创建的文件或导入Oracle表开发MapReduce所需的技能JavaHadoop框架并行算法OracleDataIntegrator简化MapReduce自动生成MapReduce代码管理进程加载到数据仓库OracleLoaderforHadoopOracleDataIntegrator•软件部分•OracleLinux/OracleJDK•ClouderaHadoopDistribution•ClouderaManager•Open-sourceRdistribution•OracleNoSQLDatabaseCommunityEdition***•OracleBigDataConnector***•ODIAdapterforHadoop•OracleLoaderforHadoop•OracleDirectConnectorforHDFS•OracleRConenctorforHadoop•硬件部分•18SunX4270M2服务器•每台2CPUs*6核•每台48GB内存(可扩展)•12*3TB磁盘空间•40GbInfiniBand•10Gb以太网RawStorage:648TCoreCount:216核***NotincludeinBDA,salesasseparatedproduct.***NoSupportforfreeNoSQLCE.NoSQLEEneedslicense.BigDataAppliance组织大数据•通过Hadoop组织大数据•简化开发•简化部署•通过分析发现价值决策分析OracleNoSQL数据库HDFSRDBMS获取组织OracleDataIntegratorOracleLoaderForHadoopHadoop(MapReduce)OracleDirectConnectorOracle面向大数据的集成解决方案体系数据库内分析数据仓库Oracle数据库强大分析平台新增OracleAdvancedAnalytics2英里统计数据挖掘文本图形空间语义ExadataStorageLayerSmartScanEHCCFlashOracle大数据增强Exadata数据分析能力XMLRelationalOLAPSpatialDataLayerRDFMediaOpenSourceAnalyticsHadoopExternalDataWeblogsXML/TextMediaSocialDataNoSQLDBOracleRDataMiningTextAnalyticsandSearchSpatialAnalyticsSQLAnalyticsOracleMapReduceParallelProcessingEngineOracleExadataMassiveScalabilityEverythingParallelDeepAnalyticsReal-TimePrivateCloudSecureOracleBI&AnalyticsBigDataApplianceOracle数据库云服务器•最快的数据仓库和OLTP•性价比最高的数据仓库和OLTP•优化的硬件(根据机架)•处理器:最多328个Intel内核,4432GBDRAM•网络:880Gb/秒吞吐量•存储:5.3TB闪存,最多504TB磁盘•软件突破•Exadata智能存储网格•智能闪存缓存•混合列压缩•并行横向扩展的数据库和存储•从四分之一机架到8个全机架的伸缩性数据仓库、事务处理、数据库整合R统计编程语言开源语言和环境用于统计计算和统计绘图能够轻松制作出版级高质量图表高度可扩展OracleREnterprise更快可伸缩高度安全在数据库中运行模型可处理大型数据集发挥OracleDatabase11g和Exadata的强大能力代码相同,而速度更快OracleAdvanceAnalyticsROracleRConnectorforHadoop实现对Hadoop的本地R访问ORE客户端主机R引擎Hadoop集群软件R引擎MapReduce节点HDFSOracle大数据机Oracle数据库云服务器R引擎OREORCHORCH本地RMapReduce本地RHDFS访问分析大数据•满足企业级多层次需求•强大的大数据分析平台•支持在数据库和大数据中R分析决策分析OracleNoSQL数据库HDFSRDBMS获取组织OracleDataIntegratorOracleLoade