版权所有©2013,Oracle和/或其关联公司。保留所有权利。1Exadata技术深入剖析:架构和内部机制刘建军Exadata资深顾问版权所有©2013,Oracle和/或其关联公司。保留所有权利。2统一的Exadata平台为各种工作负载提供有效支撑单一的优化数据库运行平台…•数据仓库•OLTP•数据库云在OLTP为主的系统中同时支持运行分析查询和并行数据仓库查询在数据仓库中同时提供快速响应的交互式查询能力,系统的可用性和安全性达到OLTP系统级别版权所有©2013,Oracle和/或其关联公司。保留所有权利。3在各行业领先的企业中已经部署了数千台PB级容量的数据仓库套装软件:SAP,E-businessSuite,PeopleSoft,Siebel,JDE兼管报告类应用在线金融交易应用电子商务网站从其他平台整合上百个数据库半数是数据仓库类应用,半数是OLTP或混合负载应用版权所有©2013,Oracle和/或其关联公司。保留所有权利。4Exadata发展演进•推出ExadataV1•V2服务器•40GbInfiniBand•PCI闪存卡•X2-2服务器•X2-864核服务器•智能闪存缓存•存储索引•列压缩•智能扫描•InfiniBand横向扩展•硬件DB加密•自动服务请求•数据挖掘分流•存储扩展机架•X2-8CPU刷新•2TBDRAM/节点•智能闪存日志20082009201020112012•X3-216核服务器•X3-880核服务器•写回闪存缓存业界领先的水平扩展硬件架构独一无二的软硬件集成版权所有©2013,Oracle和/或其关联公司。保留所有权利。5Exadata硬件版权所有©2013,Oracle和/或其关联公司。保留所有权利。6Exadata架构采用企业标准的计算和存储服务器构建的完整的数据库平台可扩展的数据库服务器•2-插槽或8-插槽至强数据库服务器•Oracle数据库,ASM,RAC;Linux或Solaris•标准的以太网接入到客户数据中心可扩展的智能存储服务器•2-插槽存储服务器,Exadata存储软件•每个机架高达500TB磁盘容量•每个机架56个PCI闪存卡InfiniBand网络•统一的内部互联网络(40Gb/sec)版权所有©2013,Oracle和/或其关联公司。保留所有权利。7Exadata存储服务器硬件(SunServerX3-2L)安装的软件:•OracleExadataStorageServerSoftware•OracleLinux–UnbreakableEnterpriseKernel(UEK)•2个六核Intel®Xeon®2.0GHzE5-2630LCPU•64GBDRAM(8x8GB)•4x400GBF40FlashPCIe卡•12个3.5”磁盘驱动器(600GBSAS或3TBSAS)•双端口InfiniBandQDR(40Gb/s)HCA•磁盘控制器SAS2HBA(有512MBBBWC)•冗余电源、风扇•ILOM版权所有©2013,Oracle和/或其关联公司。保留所有权利。8存储服务器内新的F40PCI闪存卡4倍容量,更好的性能•eMLC(企业级Multi-levelCell)和以往一样,Oracle保证flash的寿命。任何失效的闪存卡都根据售后支持合同更换。•读和写延时减少了40%以上X2-2F20卡X3-2F40卡提高容量*96GB400GB4X数据扫描速度1GB/s1.4GB/s1.4X版权所有©2013,Oracle和/或其关联公司。保留所有权利。9数据库机的型号•X3-2和X3-8–两种型号的数据库机•差别是数据库服务器节点的个数和大小•X3-2采用较小的2-插槽的SunX3-2服务器•X3-8采用较大的8-插槽的SunX3-8服务器版权所有©2013,Oracle和/或其关联公司。保留所有权利。10X3-2数据库服务器(SunServerX3-2)•2个八核Intel®Xeon®2.9GHzE5-2690CPU•128GB(可扩展至256GBDRAM)•板载4个1GbE/10GbEBase-TEthernet•2个10GbESFP+PCIe以太网卡•双端口InfiniBandQDR(40Gb/s)HCA•4个2.5”300GB磁盘驱动器•磁盘控制器HBA(有512MBBBWC)•冗余电源、冗余风扇•ILOM安装的软件:•OracleDatabase11.2•OracleUEKLinuxorSolaris11版权所有©2013,Oracle和/或其关联公司。保留所有权利。11X3-8数据库服务器(SunServerX2-8)Copyright©2010,OracleCorporationand/oritsaffiliates•8个十核Intel®Xeon®2.4GHzE7-8870CPU•2TB(128x16GB)•4个双端口10GbEPCIe端口•4个双端口InfiniBandQDR(40Gb/s)Express模块•8个2.5”300GB磁盘驱动器•磁盘控制器HBA(有512MBBBWC)•冗余电源、冗余风扇•ILOM安装的软件:•OracleDatabase11.2•OracleUEKLinux版权所有©2013,Oracle和/或其关联公司。保留所有权利。12InfiniBand网络•统一的infiniband网络•存储网络•RAC互联•外部联接(可选)•高性能,低延时网络•每个连接80Gb/s的带宽(单向40Gb/s)•零拷贝零损失数据报协议(ZDPRDSv3)•和SAN类似的效率(Zerocopy,bufferreservation)•Linux开源,低CPU开销(传输3GB/s,CPU开销仅2%)版权所有©2013,Oracle和/或其关联公司。保留所有权利。13ExadataX3-2andX3-8硬件小结X3-8全配X3-2全配数据库服务器2SunServerX2-88SunServerX3-2总核数160(2.40GHz)128(2.9GHz)总内存4096GB1024GB(max2048GB)InfiniBand交换机3Exadata存储服务器14SunServerX3-2L总核数168总闪存容量22.4TB总存储裸容量100TBor504TBSQL扫描磁盘数据的带宽25GB/secor18GB/secSQL扫描闪存卡数据的带宽100GB/sSQL访问闪存卡IOPS(8k1.5MillionReads,1MillionWrites版权所有©2013,Oracle和/或其关联公司。保留所有权利。14ExadataX3-21/8配最低成本的Exadata配置–16数据库CPU核,54TB磁盘,2.4TB闪存–所有其它Exadata特有的高可用性配置给低负载系统,开发系统,测试系统,灾备系统提供Exadata的极限性能硬件和X3-21/4配一样–2个数据库服务器,3个存储节点–一半的CPU核,磁盘,闪存被禁用–一半的数据库和Exadata软件许可升级到1/4配只需要通过软件的命令比2010年产1/4配,2008年产半配还快成本最低版权所有©2013,Oracle和/或其关联公司。保留所有权利。15支持从小配置起步逐步扩展现场升级独有的架构决定了Exadata以最低成本提供最高性能平台半配满配四分之一配八分之一配版权所有©2013,Oracle和/或其关联公司。保留所有权利。16仅需要增加网线扩展到8机架完全的带宽和冗余扩展超过8个机架需要增加infiniband交换机版权所有©2013,Oracle和/或其关联公司。保留所有权利。17Exadata硬件–高冗余设计无单点故障在机架层面有两个冗余的电源分配单元每一个数据库服务器,存储服务器,infiniband交换机都有热插拔的电源热插拔的磁盘,风扇RAC提供数据库节点失效保护ASM提供存储服务器失效保护Infiniband网络高度冗余–单个交换机或某个连接中断,不影响吸能版权所有©2013,Oracle和/或其关联公司。保留所有权利。18无缝升级和扩展单个数据库机可以使用不同代的服务器数据库和集群可以跨多代硬件新的软件可以运行在老的硬件上V22010年部署一个1/4配X2-22011年1/4配升级到半配X3-22012年半配升级到满配升级例子版权所有©2013,Oracle和/或其关联公司。保留所有权利。19硬件平台能力演进V1CPU(Cores)内存(GB)网络带宽(Gb/s)V2X2X36464961282X256115220488X82418440057682418440050X2008200920102012存储(TB)闪存(TB)1683365045043X5.35.322.44X0版权所有©2013,Oracle和/或其关联公司。保留所有权利。20Exadata软件版权所有©2013,Oracle和/或其关联公司。保留所有权利。22WritebackFlashCache存储单元存储单元Infiniband硬盘闪存数据库节点版权所有©2013,Oracle和/或其关联公司。保留所有权利。23WritebackFlashCache存储单元存储单元Infiniband数据库节点磁盘不是一对一的镜像版权所有©2013,Oracle和/或其关联公司。保留所有权利。24WritebackFlashCache存储单元存储单元Infiniband数据库节点分配单元(4MB)是镜像的暂时忽略变长的区图中的块为8k版权所有©2013,Oracle和/或其关联公司。保留所有权利。25WritebackFlashCache存储单元存储单元Infiniband数据库节点存储单元移动绿块到闪存磁盘上的数据块”过旧”新的IO请求由闪存提供服务更新蓝块和黄块绿块,蓝块和黄块存储到了闪存数据库备份从闪存读取绿块,蓝块,和黄块。从磁盘读取黑块起动数据库备份更新绿块不需要任何新的备份策略版权所有©2013,Oracle和/或其关联公司。保留所有权利。26WritebackFlashCache存储单元存储单元Infiniband数据库节点更新绿块,读蓝块绿块在两个存储单元的闪存中更新蓝块从主存储单元的闪存中读取如果一个数据块是活动状态,它可能在闪存中存放几个月甚至几年版权所有©2013,Oracle和/或其关联公司。保留所有权利。27WritebackFlashCache存储单元存储单元Infiniband数据库节点读蓝块,并大量读取其它的数据块,但不读黄块和绿块黄块和绿块被送回到两个存储单元的磁盘仅主拷贝存放在闪存,智能地利用闪存空间蓝块仅次拷贝写回磁盘版权所有©2013,Oracle和/或其关联公司。保留所有权利。28WritebackFlashCache–闪存失效时的读操作存储单元存储单元Infiniband数据库节点从有失效闪存的存储单元上读取黑块磁盘仍然正常在线(v$asm_disk)黑块从存储的磁盘上读取从有失效闪存的存储单元上读取黄块报特殊的IO错误,IO重定向到次拷贝存储单元,从闪存读取次拷贝对应用完全透明版权所有©2013,Oracle和/或其关联公司。保留所有权利。29WritebackFlashCache–重新同步存储单元存储单元Infiniband数据库节点ASM仅更新”过旧”的数据块存储单元请求重新同步重新同步在alert.log中有日志记录数据更新后,重新建立起冗余数据写的量仅和失效的闪存的量相关,和磁盘大小没有关系GI的版本要求为11.2.0.3BP9或以上完全自动和透明不需要任何人为干涉滚动升级存储能意识到重新同步版权所有©2013,Oracle和/或其关联公司。保留所有权利。30WritebackflashcacheFlashcachevsFlashTiering智能闪存的读和写–备份,数据泵到处等仍旧不会”污染”闪存–Cache数据的机制和以前的版本没有改变从数据库AWR报告中找”freebufferwaits”性能比较常