大数据平台初探

limithuman
1 ℃
2020-07-11

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

大数据平台初探阿里数据交换平台强琦提纲•大数据与云计算的关系•平台的场景与技术构成•阿里巴巴数据交换平台及其关键技术•大数据下的技术与商业初探大数据与云计算的关系•大数据–定义：Volume，Variety，Velocity，Value–应用领域：政府，科技，企业，社会。。。–生态：受众，开发者，平台，数据供给–风险：开放与控制，个性化与隐私，。。。–数据场景：见后–技术：云计算，数据仓库，数据开发，数据挖掘，。。。见后关系中心数据生命周期轴描述云计算用户&计算计算周期纵向强调计算能力，数据是操作对象;具备工具性；数据私有。大数据数据数据本身横向数据作用到计算；具备可运营性，使数据可分享，可加；管理数据是重头。大数据的数据场景时效要求(对平台要求)吞吐成本要求服务备注数据服务毫秒，秒极高低数据展示各KV们，Hbase们，…业务(数据)毫秒，秒高高业务支撑OLTP(DB)数据应用毫秒，秒高（重）/中（轻）高Ad-hoc多场景(待深度分析)数据分析浅层(秒)，深层(分钟)小中在线/离线计算用来支撑数据决策深度分析小时，天高低离线计算(MR,MPI,BSP,STREAMING)数据挖掘数据决策过程小高决策平台(算法平台)云端sas工具服务毫秒，秒高高分词，地理服务等同步模式或触发器服务(ifttt)场景的技术说明•数据服务–不同场景（写，读比例）–LSM-Tree•业务–OLTP，关联，事务–DB•数据应用–全内存，成本敏感，compact，只读数据集•数据分析–落地，以吞吐降成本，列存储，inprocess计算，dremel，impala•深度分析–规模取胜，重在吞吐，容错机制(MR,BSP)，错峰超卖，hive（开发成本）•备：场景决定技术方案，不同方案服务（云）化挑战不同，high点不同。（yarn?）技术•数据传输–数据库日志，业务系统日志，埋点，批量同步方案，队列•存储–块，小，大，流，kv，事务，本地计算，统一的接入层•计算–BSP（MR，HAMA）,MPI,Streaming,OLTP,OLAP,AD-HOC(real-timecomputing)，统一的接入层•展现–分析可视化，数据可视化技术•开发平台–调度，元数据管理，数据建模，IDE•市场–应用市场，数据市场，市场机制•数据管理–预警，质量监控，元数据，逻辑，ODS，生命周期•开放–安全，审计，计量，监控•=1-1BU465T&ct=120827#h-d2e182数据交换平台及其关键技术阿里腾讯百度FacebookGoogleAmazon数据规模★★★★★★★★★★★★★★结构化★★★★★★★★★★★★关联性★★★★★★★★★★商业价值★★★★★★★★★★★★★数据交换平台•交换–只有平台–只有数据–有进有出–做加法，甚至乘法–数据作为资产的数据银行(存款者，客户，金融服务，银行)–开放数据交换平台•打通、整合集团数据•个性化服务•构建统一的大数据开发平台AlibabaMap信用金融社会化物流管理SASS数据交换平台淘宝天猫一淘阿里云CNZZ金融关键技术•ODPS–开放–服务化–离线数据分析服务（MR,MPI,DT…）•ODS–开放与共享–源头数据质量监控–元数据管理实时时效要求(对平台要求)吞吐成本要求服务备注数据服务毫秒，秒极高低数据展示各KV们，Hbase们，…业务(数据)毫秒，秒高高业务支撑OLTP(DB)数据应用毫秒，秒高（重）/中（轻）高Ad-hoc多场景(待深度分析)数据分析浅层(秒)，深层(分钟)小中在线/离线计算用来支撑数据决策实时特点•Ad-hoccomputing：计算不可枚举，计算在query时发生。在线实时。这里的实时侧重query的实时计算。（数据的实时计算）•Streamcomputing：计算可枚举，计算在数据发生变化时发生。离线实时。这里的实时侧重实时数据的处理。（实时数据的计算）•ContinuousComputing：计算可加（增量），大数据集的在线复杂实时计算。整体。•实时数据的实时计算实时•数据服务–重数据存储，轻计算（coprocessor）•业务(数据)–OLTP(DB),增删改查，事务，范式•数据应用–Memory,ssd；只读场景；复杂计算；SQL解析、成本优化器、计算引擎、存储引擎。。。实时•深度分析–MR。以吞吐见长，简单有效的容错机制，使其可以得以线性扩展，使错峰超卖成为可能性，以规模取胜，数据传递以跨进程方式(数据)。•浅度分析–数据只读（非oltp，所以可对数据结构做紧凑的设计，以对特定的查询优化）；–吞吐要求不高。（这类应用面向的是运营）；–时效性要求在秒到分钟级；in-process的计算；列存储–数据量巨大（要求低成本存储方案）；–非原始数据ODS。一般为加工过的宽表。–Dremel&impalaGaruda•RTOLAP(RealtimeOLAP)–Real-TimeObjects/Cube/Dimension•在线数据分析–访问量低/半结构化/无需定义/低成本•在线数据应用–高并发/预定义/高成本初始化/低成本复用Garuda•['ɡɑ:rudɑ:]•印度神话迦楼罗•中国神话大鹏•最重的动物+最快的速度•大鹏一日同风起•扶摇直上九万里—李白场景•实时计算定义：–针对只读数据进行即时数据的获取和计算–基于选择和基于扫描的结果集(候选集与全集比例)•相关：•RTOLAP(RealtimeOLAP)•GridComputing•In-memorydatabase特性Fixed/FreeSchema（列存储）Partition/TableGroup全索引本地计算迭代计算大表Join缓存资源管理调度可用性滚动升级Partition/TableGroup•Parition•List•Range•Hash•TableGroup•Join•PartitionGroupGarudaDBxTableGroupxTablexPartitionx选择计算列/索引列(倒置)•计算列@memory•索引列@disk索引•Hash•B+Tree•Skiplist•Bitmap倒排压缩•String？•PForDelta(11%)Indexarray(abstract)treeT,int[]SSDskiplistT,int[]SSDhashmapT,int[]SSDuniqueT,intmemory本地计算5.4本地计算•mergeNode：SQL解析路由分发结果缓存合并迭代计算•LocalnodeSQL解析索引查找计算•带宽？结果（MN）Lcn1Lcn3Lcn2Lcn4Lcn5缓存5.6缓存•本地节点缓存：LIRSEvictedFactor：ObjectType/ObjectSizeObjectDomainMemorySSDSATA数据主键索引高频小索引低频大索引高频索引缓存区资源层调度•动态规划算法•Monitor服务器分布式锁（主/备）•可运维•参数：–可用内存、可用磁盘（Buffer阈值）–每个表占用的内存、磁盘–最小可用实例数–最小Failover机器数–每个分区最小可用份数–每个表最多保留分区数–表组信息–虚拟机组–滚动升级–整理上线–….T4虚拟机Group1Group2可用性5.8可用性FailoverRotate资源虚拟化(T4)Heartbeat双机房任务分布式锁任务持久化任务跟踪JobID执行时间监控集群FailOver导入下线OLDMaterialityformless持久化盘古上线重点•夯实基础–存储引擎性能，成本，稳定性，运维•架构梳理–分布式调度、SQL解析、成本优化器、计算引擎–存储引擎：Memory行存储引擎、长周期引擎、检索引擎、列存储引擎等–离线build&load•业务功能Streamcomputing特点–流（stream）:由业务产生的有向（渠道）无界的数据流。•不可控：到达时机，相关数据顺序，质量（残缺），onlyonce，规模，上游不可控（业务改变，渠道）•时效性要求：容错方案，体系架构–处理粒度最小：对架构影响决定性–处理算子对全局状态影响不同：有状态，无状态；幂等，顺序相关（偏序，全序）–（多）输出性质不同：action，state(大多数节点为commit点，少数为commit点)业务•淘宝双11直播间–100亿数据–多张大表join–时序–准确与效率–消重–可运营•移动三个层次•SQL–CREATESTREAMstream_name–CREATEDIMTABLEdim_name–CREATECACHETABLEASSELECT[ALL|[col1[udf(col2),…+++fromDIMTABLEWHEREconditionsWITH(cache_parameter=value*,……+)–CREATERESULTTABLEresult_name–CREATETMPTABLEtmp_tablename–SELECT[*|expression][[AS]output_name][,...][FROMfrom_item*alias+with*window(…)+**left|fullouter]join...]onjoin_condition][WHEREcondition][GROUPBY[group_expr[,...]]|][[UNIONALL]select][TOPNbyexpression[ASC|DESC]*,……++With(select_parameter=value*,……+)–UDF，UDAF，UDTF三个层次•语义层–Localfunction(udf,udtf,udaf)–Shuffle–Aggregate–Merge•sourceCode–复用组件（存储层）–Join，topk。。。持续计算批量实时冲击VolumeVelocity资源有利累积分摊业务有利覆盖增量延迟高低成本高高容错相对简单复杂现有资源多少计算简单复杂持续计算•ContinuousComputing：计算可加（增量），大数据集的在线复杂实时计算。实时数据的实时计算。目标•一个开发IDE，一个入口•限制–可加性(误差可控)–局部无复杂操作–局部节点无舍弃操作–幂等，非幂等要同步。–同构数据•场景–Compact数据集–（近似）增量计算–Readonly–高性能存储计算大数据下的技术与商业初探DataAppDataServiceDataPlatform互联网基础服务数据层互联网业务Redshift已有Data-App等待接入数据交换平台淘宝魔方淘宝指数个性化金融DATAAPP+和仲