提供创新性技术,发挥富有洞察力的影响2Rich简介•RoltaInternational董事会顾问•TUSC前总裁•500强企业(增长速度最快的500家私营公司)•在美国设有10个办事处;总部设在芝加哥•Oracle技术&应用高级合作伙伴•RoltaTUSC前总裁、RoltaEICTInternational前总裁•著有以下著作(3本Oracle畅销书—十多年来排名第一的Oracle调优书籍):•OraclePerformingTips&Techniques(CoversOracle7&8i)•Oracle9iPerformanceTips&Techniques•OracleDatabase10gPerformanceTips&Techniques•OracleDatabase11gPerformanceTips&Techniques•Oracle国际用户组前主席•Oracle中西部用户组现任主席•入选芝加哥企业家名人堂—1998年•入选安永年度企业家和世界名人堂—2001年•IOUG顶级演说家—1991、1994、1997、2001、2006和2007年•12次荣获MOUG顶级演说家称号•国家三人组成功人士奖—2006年•Oracle认证大师和OracleACE总监•普渡大学杰出电子与计算机工程师—2007年议题Oracle趋势现状技术发展未来规划Oracle趋势了解OracleExadataX-3:内存数据库4TDRAM/22T闪存6Oracle首创的技术—创新!1979年,第一个商用关系型数据库管理系统1983年,第一个32位的RDBMS1984年,第一个具备读取一致性的数据库1987年,第一个客户端-服务器模式的数据库1994年,首次商业评估和多层安全性数据库评估1995年,第一个64位的RDBMS1996年,首次突破30,000TPC-C1997年,第一个Web数据库1998年,第一个具备原生Java支持并且突破100,000TPC-C的数据库1998年,第一个Linux上的商用RDBMS2000年,第一个支持XML语言的RDBMS2001年,第一个实现中间层数据库缓存的数据库2001年,第一个带有RealApplicationClusters集群支持的RDBMS2004年,第一个真正的网格数据库2005年,第一款免费的Oracle数据库(10g快捷版)2006年,Oracle首次为Linux平台提供支持2007年,发布Oracle11g!2008年,发布OracleExadata(Oracle收购BEA)2009年,Oracle收购Sun—Java、MySQL、Solaris、硬件和OpenOffice2010年,Oracle发布MySQLCluster7.1、Exadata、Exalogic2011年,OracleX2-2、ODA、Exalytics、SuperCluster、大数据、云和社交网络2012年,OracleX3-2、Oracle12cOEM、可插拔数据库和X3-82013年,发布Oracle12c!发布OracleExadataX3-8,收购AcmePacket!风险和利润效率和利用率可靠性和完整性合规性企业面临的挑战和分析需求文化和态度计划和执行参与度和支持信息和沟通我不关注我不知道您没有告诉我这是他们的问题制定决策很困难数据不可靠报告不可追溯没有访问权限老板不喜欢我不知道我为什么会这样做我们知道并且已经掌握的知识我们知道并且尚未掌握的知识我们不知道并且尚未掌握的知识云计算、移动计算、社交媒体和大数据分析推动产生新的计算模式。该模式进而引发业务转型以提升效率,促进法规遵从,提升整体业务可持续性,以及以客户为中心。加深认识:大数据革命收集、存储和分析数据的能力在信息技术带来的影响中始终占有重要一席。在这个数字化程度日益提高的时代,您所做的每件事都会有一个电子记录。随着企业积聚的数据越来越多并达到数百TB,他们纷纷寻求更加尖端的软件工具对数据进行挖掘和分析,从而帮助企业更好地了解市场和客户,甚至是帮助企业对未来作出预测。8•您如何收集和存储数据?•您如何传输数据?•您如何分析数据?•您如何从数据获益?大数据为何重要?张加万天津大学软件学院技术趋势:GartnerHypeCycle2012Gartner发布的2012技术趋势数据量增大—数据量大小变得重要……近年来,全球的数据量迅速增长。2000年:800TB(1012)2006年:160EB(1018)2009年:500EB(仅互联网)2012年:2.7ZB(1021)2020年:35ZB?一天中生成的数据?Twitter:7TBFacebook:10TB以上大数据:创新、竞争力和生产率的下一个前沿McKinseyGlobalInstitute,2011年2.8x1020位的内存空间—JohnvonNeumann(《ComputerandtheBrain》,哈佛大学讲稿,发表于半个世纪前)从各种在线来源整理所得的数据数据量有多少……•2004年每月的互联网流量超过1E;2010年每月的互联网流量为21E。•2012年,每天创建的数据达到2.5E(大约等于1Z(1000E)/年)•2012年6月—Facebook的Hadoop集群的数据量达到100P•Facebook:每天处理的数据量达到500T—每小时扫描的Hive数据量达到210T•单个Jet引擎—20T/小时(此速率与Facebook相同!)•Gmail拥有4.5亿用户•沃尔玛—100万笔客户交易/小时(相当于2.5P的数据库)•大型强子对撞机一年产生的数据量达13P•业务数据每1.2年翻一番•19%的市值达10亿美元的公司拥有超过1P的数据(2013年将达到31%)•2011年—Oracle率先发布EB级磁带库•之前对人类基因组进行解码需10年;现在只需一周!IOUG调查*—2012年9月*大数据带来巨大的挑战与机遇:2012年IOUG大数据战略调查(IOUG=IndependentOracleUsersGroup,独立的Oracle用户组)大数据预测未来天气*Venturebeat.com*EarthRisk公司的系统基于:820亿次计算60年的数据什么是大数据和大数据分析?•大数据是指规模超出常用软件工具在容许时间内捕获、管理和处理能力的数据集。•大数据分析是指可处理传统分析方法因数据量过大、数据类型过于多样、速度变化过快等原因无法分析处理的数据。16每个组织都将使用大数据17大数据涵盖以下领域:社交媒体、传感器数据、生物学、交通数据、RFID数据、环境数据、航空、无线网络、安防与视频数据、零售、医疗、工程系统、搜索数据、摄影、呼叫记录和CRM/ERP数据等。IOUG调查—2012年9月IOUG调查—2012年9月大数据的特点大数据的主题•适用于大数据量的软硬件技术•专注于Web2.0技术•数据库横向扩展•关系型&分布式数据分析•分布式文件系统•实时分析大数据的领域•数字营销优化•数据探索和发现•欺诈检测与防范•社交网络和关系分析•机器生成的数据分析•数据保留财务电信媒体生命科学零售政府大数据提供商在最开始的阶段……我们是如何实现的?•LarryPage和SergeyBrin编写BigFile;GFS(GoogleFileSystem)得自于此,接着,MapReduce将工作映射到集群的多工作节点,然后对分布式处理结果做聚合(用于生成Google的WWW索引)•Apache推出了Hadoop(Facebook、Yahoo、AmazonEC2和S3均采用此框架),此开源版框架采用HDFS和MapReduce—在同一工作节点对分布处理后的作业做批处理,—速度不算超快(秒钟比毫秒),也不适合于交互式分析(不支持更新,只支持叠加)•Google则推出了BigTable(支持压缩的高性能数据存储),GoogleMaps、GoogleReader、GoogleEarth、YouTube和Gmail均采用该存储系统•Apache添加了NoSQL数据库:Cassandra和HBase•多个系统开始采用NoSQL,这其中也包括Oracle的NoSQL(BerkeleyDB)。大数据基础知识•我们的目标是组织数据而不移动数据!—HadoopHDFS和MapReduce(访问PB级数据的低成本方式)。HDFS能够存储任何类型的数据或结构,但MapReduce只与键值对配合工作•获取并存储数据—NoSQL(简单的键值对存储)—AmazonDynamoDB(托管)、ApacheCassandra、HBase、BigTable、MongoDB、OracleNoSQL(分布式键值),或者仅使用原始的HDFS/GFS和MapReduce(这些架构大多都具备最终一致性!)•分析数据—GoogleDremel、ApacheHive数据仓库、Oracle数据分析工具(OBIEE)•54%正在使用大数据的公司表示:“项目至关重要!”多种NoSQL数据库—最终一致性大数据工具革命……GoogleFileSystem(GFS)GoogleMapReduceApache/Hadoop世界Hadoop文件系统(HDFS)MapReduceHbaseHypertable(百度使用)GoogleBigTableApacheHive(DWHSE)ZooKeeper与Pig(协作)(操作HDFS)Cassandra(基于DynamoDB[Amazon]和BigTable)审视Hadoop生态系统的另一种方法*这张精彩的幻灯片节选自ClouderaHadoop演示文稿,作者是ToddLipconYahoo!将Hadoop扩展至4000个节点•4000个节点—100个机架(每个机架40个节点)•32T的RAM=8G/节点x4000个节点•超过30,000个核心的CPU处理能力•16PB的裸容量,千兆以太网IOUG调查—2012年9月IOUG调查—2012年9月注意:未来3年,“NotUsingHadoop”所占的比例为56%2012年的NoSQL趋势Hadoop扩展至企业级Microsoft加入Hadoop大军(与Yahoo!分拆出的Hortonworks建立合作伙伴关系在WindowsServer和Azure中采用Hadoop,有到MSSQL的连接器)基于NoSQL的解决方案安全问题阻碍了NoSQL的发展Oracle以更大的力度投入NoSQL竞争(大数据机)“随着客户寻求方法应对新的以及不断发展的数据源(如Web、传感器、社交网络、和移动应用)引发的数据激增,Oracle开始通过提供高可用、可靠和可伸缩的NoSQL数据库环境,帮助客户发现和挖掘这些数据的价值。”—Oracle高级副总裁AndrewMendelsohn内存数据网格与NoSQL的集成成就了Facebook和Twitter的成功案例2012年1月26日发布于DataVersityNoSQL数据库—超过120种下一代数据架构32所有数据都有所不同!数据领域特征(Oracle信息架构框架)IOUG调查—2012年9月IOUG调查—2012年9月开源项目框架查询/数据流数据访问协作/工作流统计工具实时分析两面性各个领域保持一致以下描述模型和预测模型有助于获得对数据的有益的了解交流已获得的认识(可视化)分析具有各种各样的形式和规模:零售业销售分析金融服务分析风险分析与信用分析人才分析营销分析行为分析集合分析欺诈分析定价分析电信供应链分析运输分析以上跨职能分析有助于推动组织战略交流已获得的认识(可视化)石油与天然气炼油石油化工冶金电力化工预定义的职能KPI、知识数据模型、目标、警报多维绩效分析、预测分析、预测设计正确的战略、沟通、协作、记分卡、促进行动工程师、主管、操作员直属经理、职能经理职能专员/战略分析师高管基于实时运营数据和业务数据以及现场图的智能分析解决方案Oracle数据库具备分析功能!!分析功能说