soa指导大数据分析管理手册

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SOA指导大数据分析管理手册SOA指导大数据分析管理手册近一年来,大数据的热潮席卷全球,我们无时无刻不在听着关于大数据的事情。大数据时代带来更理性、更可靠的决策,但究竟是什么魔力让大数据这一概念得到全球各国的普遍关注?如此巨大量的数据如何进行管理,分析,找到价值所在?SOA又能帮助大数据做一些什么?SOA管理大数据自从大数据出现以来,大数据的管理,问题一直是让企业头疼的一件事。那们让我们来看看如何应用SOA技术实现对大数据的管理,并通过预测分析技术从大数据中得到实时结果。™应用SOA技术管理大数据和云数据™预测分析技术可以从大数据中得到实时结果™采用模式法实现大数据设计™BPM带给大数据运动大价值™大数据灵活项目的及时雨:敏捷软件开发TTSOA技术专题之“SOA指导大数据分析管理手册”Page2of48大数据技能大数据价值虽大,但要从中提取出一些有用的,有价值的结果,也是一个艰巨的任务。那么面对大数据的分析,挖掘,大数据团队都要掌握哪些技能?这个技能清单将会很长很长,你准备好进行学习了吗?™大数据技能:Hadoop/Pig/Cassandra™大数据平台:Hadoop轻盈起舞™大数据”分析:内存数据网格为之增加特性大数据案例在这个大数据的淘金年代,在这个人人都说大数据的时代,人人都想从大数据中捞的到“好处”的时代,是否有哪一家真的做到了,真正成功管理了大数据,并从大数据中真正的捞到的金子?这里,我们看看Craigslist网站的大数据解决方案。™Craigslist网站的大数据和NoSQL解决方案™NoSQL/MySQL和MongoDB协调解决大数据问题™大数据和分布式系统如何解决扩展性问题TTSOA技术专题之“SOA指导大数据分析管理手册”Page3of48应用SOA技术管理大数据和云数据我们需要的是以数据为中心的SOA还是以SOA为中心的数据?答案取决于如何处理的SOA-数据关系的三个不同模型来管理大数据、云数据和数据层次结构。在越来越多的虚拟资源中,将这些模型之间所有类型的数据进行最优拟合是SOA所面临的巨大挑战之一。本文详细介绍了每个SOA模型管理数据的优点、选择和选项。SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物理层次结构模型和架构组件模型。DaaS数据存取的模型描述了数据是如何提供给SOA组件的。物理模型描述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器上的。最后,架构模型描述了数据、数据管理服务和SOA组件之间的关系。SOA和数据企业的例子也许以极限情况为开始是理解SOA数据问题的最好方式:一个企业的数据需求完全可以由关系数据库管理系统(RDBMS)中的条款来表示。这样一个企业可能会直接采用数据库设备或者将专用的数据库服务器和现有的查询服务连接到SOA组件(查询即服务,或QaaS)上。这种设计理念五年前或者更早之前已经被人们所接受。该设计之所以成功是因为它平衡了上述三个模型之间的关系。QaaS服务模型不是机械地连接到存储器上;而是通过一个单一的架构——RDBMS(关系型数据库管理系统)。数据去重和完整性便于管理单一的架构。TTSOA技术专题之“SOA指导大数据分析管理手册”Page4of48通过大数据的例子可以更好地理解为什么这个简单的方法却不能在更大的范围内处理数据。多数的大数据是非关系型的、非交易型的、非结构化的甚至是未更新的数据。由于缺乏数据结构因此将其抽象成一个查询服务并非易事,由于数据有多个来源和形式因此很少按序存储,并且定义基础数据的完整性和去重过程是有一些规则的。当作为大数据引入到SOA的应用程序中时,关键是要定义三种模型中的最后一种模型,SOA数据关系中的架构模型。有两种选择:水平方向和垂直方向。SOA和各类数据模型在水平集成数据模型中,数据收集隐蔽于一套抽象的数据服务器,该服务器有一个或多个接口连接到应用程序上,也提供所有的完整性和数据管理功能。组件虽不能直接访问数据,但作为一种即服务形式,就像他们在简单情况下的企业,其数据的要求是纯粹的RDBMS模型。应用程序组件基本上脱离了RDBMS与大数据之间数据管理的差异。尽管由于上述原因这种方法不能创建简单的RDBMS查询模型,但是它至少复制了我们上面提到的简单的RDBMS模型。垂直集成的数据模型以更多应用程序特定的方式连接到数据服务上,该方式使得客户关系管理、企业资源规划或动态数据认证的应用程序数据很大程度在服务水平上相互分离,这种分离直接涉及到数据基础设施。在某些情况下,这些应用程序或许有可以直接访问存储/数据服务的SOA组件。为了提供更多统一的数据完整性和管理,管理服务器可以作为SOA组件来操作各种数据库系统,以数据库特定的方式执行常见的任务,如去重和完整性检查。这种方法更容易适应于遗留应用和数据TTSOA技术专题之“SOA指导大数据分析管理手册”Page5of48结构,但它在问数据何访方式上会破坏SOA即服务原则,也可能产生数据管理的一致性问题。SOA和水平数据模型毫无疑问水平模型更符合SOA原则,因为它更彻底地从SOA组件中抽象出了数据服务。不过,为了使其有效,有必要对非关系型数据库进行抽象定义和处理低效率与抽象有关的流程——SOA架构师知道除非小心的避免此类事情否则这将会成为不可逾越的障碍。水平的SOA数据策略已经开始应用于适用大数据的抽象数据。解决这个问题最常见的方法是MapReduce,可以应用于Hadoop形式的云构架。Hadoop以及类似的方法可以分发、管理和访问数据,然后集中查询这一分布式信息的相关结果。实际上,SOA组件应将MapReduce和类似数据分析功能作为一种查询功能应用。处理水平数据库的效率问题效率问题较为复杂。因为水平数据库模型可能是通过类似大多数SOA流程的信息服务总线来完成的,一个重要的步骤是要确保与该编排相关的开销额度保持在最低程度。这可以帮助减少与SOA相关的数据访问开销,但它不能克服存储系统本身的问题。因为这些存储系统已经通过水平模型脱离了SOA组件,很容易被忽略与延TTSOA技术专题之“SOA指导大数据分析管理手册”Page6of48迟和数据传输量相关的问题,特别地,如果数据库是云分布的,那么使用他们就会产生可变的网络延迟。上述问题的一个解决方案是现代分层存储模式。数据库不是磁盘,而是一组相互连接的高速缓存点,其存储于本地内存中,也可能转向固态硬盘,然后到本地磁盘,最后到云存储。缓存算法处理这些缓存点之间的活动,从而来平衡存储成本(同时也是平衡同步地更新成本)和性能。对于大数据,它也是经常可以创建适用于大多数分析的汇总数据。例如一个计算不同地点车辆数量的交通遥测应用。这中方法可以产生大量的数据,但是如果汇总数据最后一分钟还存储在内存中,最后一小时存储在闪存中,最后一天存在磁盘上,那么控制应用程序所需的实际时间可以通过快速访问资源得到满足,然而假设分析时我们可以使用一些更便宜、更慢的应用程序是会怎样。SOA都是抽象的,但当抽象隐藏了底层影响性能和响应时间的复杂性时,这种抽象的危险程度会提高。数据访问也是这样的,因此,SOA架构师需要认真地考虑抽象与性能之间的平衡关系,并为其特定的业务需求优化它。(作者:AlanEarls译者:邹雅玲来源:TechTarget中国)原文链接:技术专题之“SOA指导大数据分析管理手册”Page7of48采用模式法实现大数据设计设计模式已经成为一种简化软件应用程序开发的方法。随着组织开始利用新资源和新数据类型解决设计应用程序的问题,设计模式可以降低大数据的的复杂性,提升集成性能以及用新型和较大规模的数据形式提高工作成效。DerickJose是Flutura决策科学与分析的大数据方案总监,他说:“设计模式提出了解决重复问题的模板和指导框架。该模式是由ErichGamma、RichardHelm、RalphJohnson和JohnVlissides在其名为《DesignPatterns:ElementsofReusableObject-OrientedSoftware》的书中提出的,在大数据世界中,我们需要设计模式模板来解决一些重复出现的问题。”最佳的设计模式取决于项目的目标,因此存在几种不同类型的大数据技术,Jose说:-混搭半结构式数据(例如,医疗记录和呼叫中心记录)和结构化数据(例如,携带病菌的患者)的设计模式。-设计模式可以在高速事件流中查找事件序列信号。(例如,什么顺序警示了防火墙意识到网络漏洞?又是什么顺序使病人陷入逆境?)-设计模式可在实时操作系统中识别信号。TTSOA技术专题之“SOA指导大数据分析管理手册”Page8of48-设计模式用于匹配客户行为档案的云数据服务(例如,谷歌分析)。Jose解释说它有助于认真考虑大数据项目的结构。作为一个周围多层次的信息价值链,其输入的数据是为了改善复杂的日志文件、非结构化的数据、模式检测和运行或输出数据。每层结构中,都需要编写模式应对重复发生的挑战。密切关注管理、风险管理及合规性组织需要进行战略性思考在有机会利用新数据源的同时将负债和风险降到最小。DaveBeulke是一名数据库顾问和培训师,同时也是北首都地区(DAMA-NCR)数据管理协会的会长。他说:“人们还没有充分考虑到大数据治理和归档策略。安全、治理和归档是大数据管理涉及的重要事件。”最佳实践类似于那些传统的数据库,主要专注于定义不同部门人的角色和职责。数据访问需求的增长所带来的扩展问题是现今面临的一个严峻挑战。新的数据来源是传统数据库的10倍或1000倍。Beulke说,尤其针对归档如果没有一个完善的策略,组织在数据保存、隐私和其他传统数据管理方面会产生问题。他还补充道:“不能因为它是大数据而忽略数据安全性和数据治理需求。在处理医疗数据,监测数据和其他类型(PII)的个人身份信息时这种管理就特别重要。”最好的设计模式实际上是取决于组织如何利用业务数据来服务大数据应用程序。一些组织仅仅利用社会影响,一旦他们扫描了整个信息,就会把它扔掉。还有其他TTSOA技术专题之“SOA指导大数据分析管理手册”Page9of48的大数据应用程序,如卫生保健或监视,关于时间方面的信息他们需要更多的设计模式。例如,一些制造、工程企业要检测机器和监控生产环境(例如,此车的发动机每分钟转数(RPM)是多少,或者当监控农场设备时其铲速频率高了多少?)。他们从平均故障时间和其他方面分析和监测数据。Beulke问道:“这种情况下,目前的挑战是,如果你得到所有的数据,发动机的转数与两年前相比有怎么样的改进。”在决定收集新的信息时需要进行一个审查流程。Beulke解释说:“审查中你要判断发动机的转数是否正常。你想要保持这个转速吗?或者你只是需要一个特别的数据,例如何时发动机的转数超标。当发生以上情况时,我们需要对业务影响程度进行分析。在未来10年,该分析有助于解决问题吗?或者你不需要担心这类异常问题?”为得到准确的业务及相关数据内容,组织应该实施标准化管理和安全审查。有一些事情并不需要额外的审查,例如推特。Beulke说:“你仅仅专注于顾客情绪、公众喜好和那些并不重要的安全问题。”NoSQL点亮了社交应用程序,其优势在于可以后台处理数据。该程序趋势分析功能很好,但使用重复功能时,就会出现管理和安全问题。按照目前的开发标准和数据库平台,该程序已经符合标准。Beulke指出:“很多人都采用了开源Hadoop或其他的NoSQL平台,在某些方面,这却会诱使问题的发生。”TTSOA技术专题之“SOA指导大数据分析管理手册”Page10of48原因是工作人员不清楚关于NoSQL数据库的知识。没有适当的程序来处理这些问题。Beulke解释说:“许多组织甚至不需要NoSQL。通过传统关系型或平面文件系统,他们能够达到他们正努力的目标。”另一方面的问题是NoSQL数据库的运行速度不一定快。这是一个人们认为理所当然的假设。Beulke说:“Oracle和DB2已经在其

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功