ODPS介绍

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

阿里云ODPS简介阿里云·互联网云计算·产品王乐珩自我介绍王乐珩(wangleheng.net)目前在阿里云,任云计算业务线产品经理,主要负责数据分析领域。此前在计算所生物信息组,任pFind蛋白质搜索引擎的架构师和程序经理。什么是ODPS(一)阿里云开放数据处理服务(OpenDataProcessingService,简称ODPS)是构建在飞天系统上的大规模分布式数据处理服务。ODPS以RESTAPI的形式,支持用户提交类SQL的查询语言,对海量数据进行处理。在API之上,还提供SDK开发包和命令行工具,Aliyun.com上还有一个Web演示界面。什么是ODPS(二)与传统数据仓库工具相比ODPS有以下优势:•处理能力强大:后面提到的“应用案例一”和“应用案例二”和“应用案例五”的客户都曾经购买使用过传统数据仓库技术解决方案,但是都无法适应剧烈膨胀的数据规模。•成本低廉,伸缩灵活:由于云计算的业务特点,用户可以根据自己的实际需求租用相应的计算能力。同时节省昂贵的运营费用。后面提到的“应用案例四”和“应用案例五”的客户的支出,是与其网站业务量,以及产品线复杂程度一起增长的。什么是ODPS(三)与HIVE、BigQuery相比ODPS有以下特点:•企业级特征:定制化ETL、窗口函数、存储过程、作业调度、M\R、UDF等。•项目支撑:项目空间和帐号授权机制(Project/User/Role/ACL)。Quota和Priority的管理。•WebService:RESTfulAPI、多语言SDK、事件订阅。ODPS与RDS、OTS的区别(一)阿里云关系型数据库服务(RelationalDatabaseService,简称RDS)是构建在弹性计算系统上的商用关系型数据库服务。RDS适合较小数据规模的常规OLTP(onlinetransactionalprocessing)应用。如果用户的需求是把现有关系数据库服务(例如MySQL和SQLServer)迁移到云平台上,主要重视兼容性,可以选择RDS。ODPS与RDS、OTS的区别(二)阿里云开放结构化数据服务(OpenTableService,简称OTS)是构建在飞天系统之上的海量结构化和半结构化数据存储与实时查询的服务。OTS服务的特点是大规模、低延时、强一致,其适用场景是对数据规模和实时性要求高的应用。ODPS与RDS、OTS的区别(三)ODPS重点面向数据量大(TB级别)且实时性要求不高的OLAP(On-LineAnalyticalProcessing),适用于构建数据仓库、海量数据统计、数据挖掘、数据商业智能等应用。OTS和ODPS可以配合使用,前者支撑大规模并发的日常访问(例如铁路售票前台系统),然后每隔24小时就把交易数据推入ODPS支撑的数据仓库,利用后者进行进一步的业务分析。在线计算与离线计算•在线计算(Online)–数据稀疏,一般情况半结构化–存取少量数据(单条或一个range)–响应实时,低延迟–每天响应请求次数达数千万–7*24小时服务•离线计算(Offline)–数据稠密,对数据结构化无要求–一经存储,不会改变–批量作业处理,几十分钟/作业,甚至数天–每天扫描数据可达数千亿条在线计算的技术特点•注重随机存取性能•注重取值区间(Range)的性能•文件块(Block)容量较小•索引(Index)较多,主键(Key)不易太大•需要一个主节点控制•各节点需要有守护进程•各节点内存占用较多离线计算的技术特点•注重顺序存取性能•尽量减少不必扫描的数据,减少I/O•文件块(Block)一般较大•可以不用或少量索引(Index)•需要作业调度•除了像join这种操作,否则内存占用量不高ODPS架构系统模型•帐号(Account)•项目(Project)•表(Table)•查询(Query)和查询任务(QueryTask)•导入导出任务(Import/ExportTask)•MapReduce任务(M/RTask)•UDF任务(UDFTask)•作业(Job)和作业实例(JobInstance)应用案例(一)阿里金融的信用评估系统会自动分析小微企业的数据,例如企业通过支付宝进行的支付数据,最终算出信用评估和放贷额度。截止2011年底,阿里金融对近30万家小微企业进行信用评估。累计投放96800家,投放贷款154亿,坏账率为交易额的0.76%。阿里金融的数据仓库基于ODPS服务。阿里金融的实时业务墙阿里金融的数据仓库业务模型基于阿里云ODPS平台阿里金融的数据模型任务(局部)每个模型任务都是面向海量数据的大规模运算任务。应用案例(二)淘宝共享数据平台搭建全淘宝共享的分布式数据处理平台,整合,分析,挖掘全淘宝的商业数据,提供多样性的数据产品。阿里云和淘宝进行合作,ODPS服务对数据共享业务提供部分关键功能的支撑。淘宝数据盛典(部分)《淘宝数据盛典》统计总结了各地淘宝用户的特征信息。()淘宝指数(部分)输入关键字,依据主站搜索、后台成交明细、用户注册信息以及过去12个月的购物数据返回趋势图。还会依据性别比例、年龄、地域、买家等级进行分类。淘宝在云端IDE界面“在云端”界面提供给内部产品经理,以便查询所有淘宝、支付宝的点击、交易数据。应用案例(三)CNZZ是国内站长使用最多的网站流量系统,为个人站长提供安全,可靠,公正的第三方网站访问免费统计。目前CNZZ每天新增9亿条访问日志的数据记录,约2T数据,其底层使用ODPS进行数据统计分析。CNZZ数据报告界面CNZZ利用ODPS存储和分析海量的原始访问记录数据。应用案例(四)某电子商务创业网站,租用ODPS服务对现有用户购买日志和业务数据进行数据挖掘。用户的离线计算任务除了定时更新网站上的热榜排行等统计栏目,更重要的是计算各个商品服务类目的推荐信息(例如“购买该产品的用户还购买了……”),大大提高了访问用户转化率。应用案例(五)“御泥坊@网聚宝@马克威@阿里云”生态环境是一个很有趣的案例。御泥坊网聚宝马克威ECODPS御泥坊是淘宝皇冠卖家。御泥坊租用阿里云弹性计算服务。御泥坊委托网聚宝对其销售数据进行分析,进行精细客户营销。网聚宝是一站式会员管理,并在云市场出售产品服务服务商。网聚宝租用阿里云弹性计算和ODPS服务。同时,网聚宝租用马克威数学算法和建模服务。天律马克威是专业统计分析和数据挖掘服务。天律在阿里云租用弹性计算和ODPS服务,并在云市场出售马克威产品服务。实例:用ODPS干什么?网聚宝得到御泥坊的授权,通过淘宝API获取其客户、商品和订单的数据。客户的商务分析人员登录网聚宝的平台,进行数据查询分析。实例:用ODPS干什么?网站运营中一个简单的例子:筛选出最近六个月累计购买三次或以上的客户,且该客户购买过商品A,但是尚未购买过商品B或C,同时客户留的联系方式是QQ邮箱。实例:用ODPS干什么?比较大的淘宝卖家,每月有上百万条数据记录。普通的关系型数据库(例如MYSQL),其性能无法支撑前面这个运营需求例子里的复杂条件的联合查询。OTS不支持复杂逻辑多表联查。也就是说,RDS、OTS均无法满足需求。而ODPS很适合这个场景。回过头来总结业务特点•ODPS是开发数据仓库的平台工具。•数据仓库的传统市场是电信和银行,传统解决方案很昂贵。•互联网运营团队越来越依赖于大数据分析工具。•云计算是技术创新也是业务创新。•对于网络行业,业务数据天然在网上,导入ODPS更容易。•对于传统行业,前期可能需要VM、RDS和OTS等兄弟产品开路,逐步引导用户使用ODPS。电子商务需求旺盛(一)如果你问陈年,凡客诚品的短板是什么,这位CEO会告诉你,是对数据的分析和应用能力。陈年说,凡客越来越像是一家数学公司,需要对大量的订单和用户信息进行分析,进而更好地指导生产工作,减少高库存。这个经验总结,是凡客用血的代价换来的。整个2011年,凡客全面扩张,不断试错,结果是屡屡犯错。凡客的库存积压究竟有多严重?有数据称,截至去年三季度末时,凡客的总库存量高达14.45亿元,且凡客在商品品类方面的扩展,加速了库存的积压。电子商务需求旺盛(二)参考:与数据分析有关的云服务•Splunk•Pentaho•Jaspersoft•SumoLogic•Connotate•Inrix•Tableau•MetaMarkets•DataSift•Datameer•GridGain•Appistry•Locu•clearstorydata•factual•infochimps谢谢

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功