云计算PaaS技术与应用黄志兰中国电信广州研究院2020年2月23日提纲PaaS概述PaaS核心技术相关实践PaaS概述定义面向互联网应用开发者,把端到端的分布式软件开发、测试、部署、运行环境以及应用程序托管当作服务,通过互联网提供给用户特点网络化的分布式开发平台,以Web服务方式提供给用户开发、测试、运行环境在云端,用户共享云平台海量存储、超大规模计算能力,开发环境维护工作由服务提供商解决集成帐户认证、数据库、消息队列等配套基础服务,提高开发效率Java、Python等高级编程语言,易于应用程序开发者使用服务形态通过互联网提供服务,按需提供,按量计费GoogleAppEngineMicrosoftAsureAmazonHadoopSalesforceForce.comThecloudPaaS发展商业推动SaaS企业为提高用户粘着度,把支撑应用开发的平台发布出来,供软件开发上自行开发、自由定制需求推动高校等科研机构需要临时性的超大规模计算能力大型系统面临严峻的扩展性问题Google等公司拥有超大规模服务器集群,需要把海量存储和大规模计算资源提供出来技术推动把多台机器虚拟成一台超级机器的分布式技术日趋成熟和稳定PaaS是一场互联网应用软件开发革命,体现了互联网低成本、高效率和规模化应用的特性,能够帮助应用程序开发人员快速定制、开发满足特定需求的互联网应用,从而大大提高工作效率和执行力。提纲PaaS概述PaaS核心技术相关实践PaaS核心技术分布式技术:把多台机器虚拟成一台性能极强的超级计算机分布式存储、分布式计算、分布式数据库、同步机制、负载分担、任务调度分布式软件开发、测试、运行工具编程环境SDK、编程接口、代码库、测试工具、运行工具运营管理系统用户管理、计费认证、资源监控、应用管理分布式技术分布式存储、分布式计算、分布式数据库、同步机制运营管理系统开发环境、编程接口、编程模型、代码库服务器集群用户管理、计费认证、资源监控、程序管理多合一(Google)分布式分布式解决的问题分布式问题由来已久,把多台机器合并成一台机器是梦寐以求的目标编写程序,需要考虑任务怎么分解,怎么汇总结果分发程序,需要把程序拷贝到不同的机器上,逐一启动程序收集结果,需要把每部分程序的结果收集起来,并进行汇总显示结果,需要通过统一的界面把结果输出给用户自动分发程序自动启动程序自动收集结果.java.java.java.java.java.java.java.java虚拟超级计算机云计算分布式计算模型分布式计算是由来已久的问题计算模型:操作(CPU)+数据(内存/硬盘)并行方法:传统分布式系统试图解决任何CPU访问任何数据CPU内存硬盘CPU内存硬盘CPU内存硬盘CPU内存硬盘CPU内存硬盘CPU内存硬盘CPU内存硬盘CPU内存硬盘中间件承担多机之间的“总线”结束输入开发者必须将程序逻辑转换成分布式平台的逻辑CPU内存硬盘CPU内存硬盘CPU内存硬盘CPU内存硬盘CPU内存硬盘CPU内存硬盘CPU内存硬盘CPU内存硬盘借助网络,Hadoop实现了多机之间的“总线”结束输入MapMapMapMapReduce应用逻辑转换逻辑分布执行分布式文件系统分布式文件系统为提供海量存储空间提供了极大的便利NameNode负责文件目录管理DataNode负责真实的数据存储分布式数据库数据库关系模型不再是PaaS解决的问题提纲PaaS概述PaaS核心技术相关实践中国电信与云计算PaaS需求分析内部需求分析–传统电信系统多用小型机集群,面临扩展性问题,扩容成本高–海量数据分析处理困难:用户数据、计费数据、网管数据外部需求分析–互联网信息应用:大规模数据存储和处理需求、快速开发能力–移动互联网应用:瘦客户端应用开发需求–科研单位大规模并行计算需求–外部对电信能力的开放需求应对策略打造大规模分布式处理平台–运用分布式技术构建新型大规模集群,解决大型系统的扩展性–为OSS/BSS等电信运营系统提供大量的存储空间和并行计算能力–为号百等信息应用、移动互联网、物联网应用提供超大服务器集群支撑建设电信能力开放平台相关工作-技术研究及基础平台建设技术研究各种技术研究报告中国电信云计算白皮书云计算技术手册规范编写IaaS服务技术要求及相关设备规范平台搭建数百CPU核的云平台,域名ctcloud.cn部署虚拟化平台及分布式计算平台试点应用网络流量矩阵分析,IPv4/IPv6协议转换,餐饮搜索,热点播报,行业资讯平台建设:大规模分布式服务引擎电信系统典型架构•小型机集群•规模数百台•关系型数据•结构化数据为核心•传统数据处理为主•成本很高•容量可规划互联网系统典型架构•X86集群•规模数万台•自有数据库•非结构化数据为核心•数据挖掘、机器学习•成本相对较低•容量可预见性低随着数据规模的增长以及互联网应用在电信行业的发展,需要引入新的架构解决扩展性和建设成本问题分布式服务引擎-定位•建设一个满足多个应用对底层大规模数据智能处理需求的平台出发点:节约投资,提高效率,推动创新•电信运营数据:位置数据、用户行为数据、流量数据等•互联网数据:网页数据、图像数据、视频数据能力定位:面向亿兆级数据规模•提供海量数据存储、数据挖掘、统计分析、数据查询等服务•为业务平台、互联网/物联网应用提供基本服务组件系统定位:电信应用的核,互联网应用基本组件•服务接口层次化,满足不同应用需求设计定位:抽象公共基础服务,简化应用开发分布式服务引擎-架构关系型/分布式数据库查询引擎特征提取数据获取分布式数据库分布式文件系统分布式计算硬件平台分布式平台统计分析分类聚类预测关联分析基础能力层(数据挖掘、分析)内容分类信息检索位置服务可视处理文本处理图表服务服务能力层(信息收集、处理)ONS系统EPC查询流量分析可视检索餐饮搜索行为分析应用层热点播报行业资讯配置调度监控接入………………应用1:移动互联网网络加速网络加速融合了IPv4/IPv6互通、内容加速及重排等功能,是极富有价值的应用移动用户云计算软件平台(内容过滤,页面重排)自动分布HTTP请求内部云计算平台(加速云)IPv6互联网IPv4互联网移动用户宽带用户云计算硬件平台应用2:网络流量分析•应用云计算集群技术实现现有系统难以实现的任务系统目标•基本的数据统计、地域分布、应用分布、流量矩阵•实时全网异常流量检测处理任务•各种统计任务的MapReduce并行化计算•应用主成份分析检测网络状态异常核心技术•全网Netflow流量每天数十TB•每秒数十万FlowRecord纪录数据规模应用3:可视化搜索•利用云计算技术解决可视化搜索对计算和存储的高强度需求•运用可视化搜索技术推动3G创新应用研发系统目标•快速检索:LocalitySensitiveHashing•底层特征:Color、Texture、GIST、SIFT•检索模型:Bagofvisualwordswithglobalcontext核心技术•目标索引数千万张图片,数十T的存储需求•海量的数百维的高维特征向量,计算和存储高度密集•快速检索面临极大挑战,普通K近邻算法基本不可行数据规模应用4:美食搜索指南应用5:热点播报系统谢谢!