b分布式计算基础高科技福音的传播者为什么要分布式计算•什么是分布式计算•分布式计算理论基础•分布式计算体系架构•分布式计算最佳实践系统•分布式系统应用Agenda电子商务移动互联网合规:2014年9月16日:银监会《关于应用安全可控信息技术加强银行业网络安全和信息化建设的指导意见》39号文到2019年安全可控信息技术银行业总体达到75%2015年1月29日:工信部《原材料工业两化深度融合推进计划》2015年1月13日:人民银行《关于推动移动金融技术创新健康发展的指导意见》2015年4月01日:国家标准《信息安全技术云计算服务安全能力要求》国家安全战略2014年2月27日:习大大没有网络安全就没有国家安全《中央网络安全和信息化领导小组工作规则》《中央网络安全和信息化领导小组2014年重点工作》•为什么要分布式计算什么是分布式计算•分布式计算理论基础•分布式计算体系架构•分布式计算最佳实践系统•分布式系统应用分布式计算1.P2P计算:多是内容分布系统,如SETI@home,Folding@home癌症药物P2P计算项目,CDN2.云计算和网格计算:SaaS/PaaS/IaaSVS.并行计算3.传感器网络和物联网:ArduinoVS.RFID/M2M工业4.0分布式计算优缺点:1.资源共享:可共享系统中的硬件、软件和数据等信息资源2.高性价比:相对于IOE的高性价比3.应用分布性:多数应用本身就是分布式的如ATM应用4.高可靠性:现代分布式系统高度容错机制5.可扩展性:横向扩展即可提高系统的性能6.高度灵活性:兼容不同硬件厂商不同配置机器而获得高性能计算7.缺点:架构、容错机制相对复杂,工程量巨大,Bug定位较难云计算生产领域的默认范畴云计算平台VS.IDC云计算平台VS.IOEAgenda•为什么要分布式计算•什么是分布式计算分布式计算理论基础•分布式计算体系架构•分布式计算最佳实践系统•分布式系统应用分布式计算理论历史分布式计算是计算机科学一个分支,主要研究分布式系统。最早形态80年代末Intel公司,近20年随Internet发展到高潮。分布式系统的CAP理论一致性(C):所有数据备份在同一时刻是否同样的值可用性(A):集群中一部分节点故障不影响集群整体响应读写请求分区容忍性(P):分区是对通信的时限可靠性。系统如果不能在时限内达成数据一致性,必须就当前操作在C和A之间做出选择分布式系统的BASE理论BASE模型反ACID(AtomicityConsistencyIsolationDurability)模型牺牲高一致性,获得可用性或可靠性基本可用(BasicallyAvailable):支持分区失败软状态(Softstate):状态可以有一段时间不同步,异步最终数据一致(Eventuallyconsistent):而不是时时高一致分布式系统的Paxos一致性算法分布式系统如何就某个值(决议)达成一致经典算法CAP理论②一个Acceptor出现故障①结点全部正常Paxos一致性算法云计算Google三大论文GFS-TheGoogleFileSystemGoogle分布式文件系统,BigTable/MapReduce是GFS的两个应用GoogleBigTable/Megastore的底层存储,分布式存储基石MapReduce一个大作业拆分为多个小作业的框架分布式计算作业调度执行系统框架BigTable分布式的结构化数据存储系统被设计用来处理海量数据,分布在数千台普通服务器上的PB级的数据数据存储分为两部分,SSTable存储于GFS,最近更新存储于Memtable选择了(CP)不支持事务,只保证对单条记录的原子性大型具有海量PV、数据的系统,分布式服务可以通过简单增加节点进行扩展,但底层的海量数据因其单点和需要保持一致性,成为大型系统的瓶颈Web索引、GoogleEarth、GoogleFinance•GFS中所存储的文件通常较大(GB级),采用64MB数据块作为基本存储单元•Google业务逻辑特点决定了GFS中的文件读多写少,写主要是追加操作,基本不存在随机写操作•GFS的负载主要是对大文件的流式处理,客户端缓存无意义•Chunck64MB数据块降低了元数据的数量,因此系统可使用单元数据服务器结构GFS架构MapReduce框架•简单vs.复杂并行计算模式简单,编程容易。与MPI、OpenMP相比门槛低为用户屏蔽数据通信、并发、同步、一致性等问题•专用vs.通用适用于大规模数据处理,如搜索引擎、用户日志分析等•计算与存储方式紧密结合利于提高系统扩展性BigTable数据结构BigTableTablet存储和访问Agenda•为什么要分布式计算•什么是分布式计算•分布式计算理论基础分布式计算体系架构•分布式计算最佳实践系统•分布式系统应用云计算通用架构Agenda•为什么要分布式计算•什么是分布式计算•分布式计算理论基础•分布式计算体系架构分布式计算最佳实践系统•分布式系统应用Hadoop系统层次图Hadoop和GoogleCloudHadoopHDFS架构HadoopMapReduce架构TFS原理图片服务和TFSAgenda•为什么要分布式计算•什么是分布式计算•分布式计算理论基础•分布式计算体系架构•分布式计算最佳实践系统分布式系统应用阿里云平台