海量数据解决方案

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

海量数据解决方案海量数据导致存储成本、维护管理成本不断增加大型企业都面临着业务和IT投入的压力,与以往相比,系统的性能/价格比更加受关注。GIGA研究表明,ROI(投资回报率)越来越受到重视。海量数据使得企业因为保存大量在线数据以及数据膨胀而需要在存储硬件上大量投资,虽然存储设备的成本在下降,但存储的总体成本却在不断增加,并且正在成为最大的一笔IT开支之一。另一方面,海量数据使DBA陷入持续的数据库管理维护工作当中。海量数据缺乏快速备份与灾难恢复机制传统的数据库备份技术,如通常采用的磁带备份方式,不能运用于海量数据,因为磁带备份将使备份时间增加,需要几小时-几天,不仅影响了生产,而且增加了备份的难度,使得备份/恢复变得缓慢而且不可靠,几乎无法在固定的时间窗口完成备份工作。另外,第三方备份软件隐含的成本代价如成本开销、复杂度、昂贵的实施等也是企业需要考虑的。因此海量数据安全显得异常重要,只有通过引入有效的备份、方便高效的备份恢复技术,才能满足海量数据安全的需要。Sybase提供对VLDS的最大支持专注于信息管理和信息移动技术的企业级软件公司Sybase,致力于为客户提供管理企业内部各种复杂海量数据源的解决方案。其一系列的解决方案帮助数据密集型行业对来自于固定或移动数据源的结构化或非结构化的海量数据进行查询和分析,使企业能够更好的管理数据资产并将其转化为切实可用的信息。世界领先的VLDS引擎-SybasEIQSybaseIQ采用了成熟的压缩算法,与传统的RDBMS解决方案相比,数据存储量可以减少60~80%。这也就减少了物理存储需求和人员配备成本。经过独立的审核测试确认,存储48T字节的原始输入数据,SybaseIQ只需要22T的物理存储空间。此外,SybaseIQ比传统数据库更容易维护,而且不需要进行与时间和资源相关的调整就可以达到极佳的性能。除了节约成本以外,SybaseIQ还可以更好地发现和分析信息,从而帮助组织机构防止欺诈、减小风险、发掘新的商机以及获得其他各种好处。SybaseIQ助力国家电网SG186数据中心用户背景国家电网公司是中国经营输电、变电、配电等电网资产的国有特大型企业集团,是关系国家能源安全和国民经济命脉的国有重要骨干企业。它成立于2002年12月29日,以建设运营电网为核心业务,承担着为经济社会发展提供坚强电力保障的基本使命。公司经营区域覆盖26个省、自治区、直辖市,覆盖国土面积的88%以上,直接服务客户1.45亿户,供电人口超过10亿。2006年公司售电量1.71万亿千瓦时,主营业务收入8529亿元,资产总额12141亿元,资产负债率60.43%。2005年主营业务收入位居《财富》杂志2006年全球500强企业第32名。项目背景为了迎接新形势下电力改革与发展的挑战,国家电网公司确立了“十一五”信息建设目标,并全面启动了信息化建设重大工程——“SG186”工程。其中,国家电网公司的数据中心系统建设是“SG186”工程的重要任务。面对新形式下电力改革的挑战以及自身未来发展的需要,国家电网的综合查询、业务分析等系统已无法满足管理层从企业全局出发,对企业各个业务条线进行跨业务、多角度、多层次的综合分析的需求。因此,国家电网迫切需要建设数据中心系统,将原来分散、孤立的数据资源集中存储、统一管理,建立完善、统一的报表与指标体系规范,有效改善指标多人维护、多重上报的问题,为各应用系统提供数据层集中服务的数据环境,达到提升企业管理水平和竞争力的战略目标。国家电网公司数据中心的建设目标是:1、建立整体数据模型,实现统一信息资源层次体系、统一数据元素标准和统一信息编码。通过对数据的规范化定义,实现数据的唯一性、准确性、完整性、规范性和时效性,实现数据的共享共用,解决数据层面的信息孤岛问题;2、进行数据存储管理的集中优化整合,对现有各类应用系统的数据库进行集中整合,对相关应用系统数据库进行迁移,将现有分散管理的数据库迁移到集中的企业及数据库管理系统平台上;3、建立数据仓库,为管理决策层提供有效的数据服务;4、实现联机分析处理,为公司各级领导提供灵活自由的数据查询和报表生成手段;通过对数据的分析和挖掘,对电力生产经营过程中的相关问题提供辅助决策支持;5、制定信息资源的建设和管理标准,规范各个业务系统的建设。系统架构为了解决国家电网公司所面临的各种挑战,保证数据中心系统的建设能满足目前及未来几年的业务需要,数据仓库的建设必须要完成以下工作:1、统一规划数据应用分析:从公司领导层的角度出发对国网公司数据应用工作进行统一规划,提升业务人员对于数据应用分析的理解,推动业务数据应用需求的提出;2、制定企业级报表和指标体系规范:梳理国网公司数据应用分析工作,明确各业务部门在分析应用中的职责,实现企业运行指标分析的统一口径;3、合理设计数据架构:帮助梳理和规划统一的业务数据分布、移动与整合架构;4、形成企业概念模型:根据业务分类获得数据主题域,并明确之间的业务关系,从而在数据层次得到对国网公司业务的逻辑描述;5、实现企业级数据整合与存储:为业务用户提供基于数据主题域、涉及全业务的统一信息视图(如客户视图、产品视图、设备视图等);6、建立完善的数据应用分析:建设数据集市,部署专业商业智能系统,为业务人员提供包括报表、查询、在线分析和知识发现在内的数据分析应用能力;7、建立数据管理体系:明确关键绩效指标(KPI)以及相关责任人,实现企业数据的“唯一事实”;8、建立企业级元数据管理机制:建立业务与技术元数据管理机制,使得国网各个业务部门间形成对业务与技术术语的一致理解。根据以上原则,国网公司经过认真谨慎选择,最终选择了Sybase建议的国网数据中心解决放案。该解决方案在结构上分为数据获取层、数据存储层和数据访问层三层架构方式。其中数据获取层又分为数据来源、抽取、清洗/转换/加载三个子层;数据访问层又分为展示方式和分析人员两个子层。数据获取层主要完成的是从业务系统中将相关业务数据进行抽取(Extract)、转换(Transfer)并加载(Load)到数据仓库中,在数据仓库中形成基础的分析数据的功能。数据存储层是解决方案的核心。SybaseIQ数据存储层解决方案是企业级数据存储、数据及时加载和信息快速、灵活展现的保证。而且业务部门可以根据自身管理、业务的需要在数据仓库上建立适合自身应用的数据集市。数据访问层解决方案使用户可以通过WEB浏览器访问门户,以报表、OLAP分析、即席查询、数据挖掘等形式向系统使用人员进行展现。SybaseIQ在系统中的应用作为此次解决方案的核心,分析型数据仓库引擎SybaseIQ为企业级数据存储、数据及时加载和信息快速灵活展现提供了有力保证,凭借其高效的数据压缩能力、专利的查询优化技术以及良好的开发性、安全性、易管理性,彻底改变了以往“信息孤岛”的数据处理格局,成为国家电网数据中心项目中数据仓库产品的不二选择。在国家电网公司数据中心系统建设中,SybaseIQ主要表现如下几个特性:高效的数据压缩与存储区别于传统的行式存储,SybaseIQ革命性的采用列式存储技术,可以以很小的磁盘I/O得到查询结果。由于数据按列存储的方式,其二进制值的范围通常要小得多,因此会获得更加显著的数据压缩性能,将数据结果压缩至传统RDBMS方式的1/3至1/7。更大的压缩比例,加上大页面的I/O,使得SybaseIQ在获得优良的查询性能的同时,减少了对存储空间的需求。正是基于其如此优秀的数据压缩和存储性能,SybaseIQ为国家电网公司提供了统一的、全面的信息展示,囊括了所有主流业务系统的明细信息,充分满足了国网数据中心海量数据存储要求。卓越的查询性能由于SybaseIQ按列而不是按行存储和访问表数据,决策处理中的很多查询只需要很少量的列数据,因此与传统的RDBMS相比,SybaseIQ在选择满足查询条件的数据时,只须涉及到很少的数据页面,从而减少了90%-95%的I/O任务调度,并大大了提高系统查询速度。同时,为了避免“海底捞针”式一对一查询,SybaseIQ提供了丰富的索引技术,如FP、LF、HNG、HG等索引,以适用不同数据类型,不同查询需求,不同数据级数的需求。这些索引技术与按列存储方式的结合,可大大提高系统的DSS处理性能。通常可提供高于传统按行存储数据库10-1000倍的查询统计性能。再加上Multiplex有效处理大量并发请求等突出功能,SybaseIQ可以为国网数据中心海量数据存储下处理复杂的分析型查询提供卓越的性能。高度的可用性和低运营风险SybaseIQ的Multiplex组件增加了在单一的SybaseIQ环境中支持多个SMP机器节点的功能,允许数据仓库无限扩展,为国家电网数据中心系统的连续可用和安全提供了技术保障。由于IQMultiplex的配置结构中只包括一个IQ(Reader)和多个IQ(Writer)节点,而写节点是唯一的能够更新数据库的节点。其它节点都是只读节点,因此可最大程度上限制用户对数据的非法修改,保证信息的安全和完整。同时由于每个节点都是运行在自己的CPU和内存资源,相互之间彼此独立,因此IQMultiplex中任何一台读节点的损坏并不会影响其他节点的正常运行,当任何一个节点出现故障时,可将该节点上的OLAP任务转到其他服务节点上,从而保证整个应用的连续可用,降低运营风险。方便低廉的管理维护由于SybaseIQ从下到上都是为分析而构建,不需要为分析优化而在数据库上面花费很多工作,所以,与传统的数据库相比,部署时间可以大幅减少多达80%,这意味着企业可以快速获得结果。凭借革命性的列存储和索引技术,SybaseIQ彻底消除为每个查询进行调优的需要,消除为管理和维护新增节点和数据花费大量时间和资源的需要,SybaseIQ降低了数据管理成本,减少了维护工作量及其相关成本。此外,一旦完成了SybaseIQ数据库的定义并且加载了数据后,新的决策处理数据即可随时存入,老的数据亦可按需要或剔除或归档。SybaseIQ数据库容许在其他用户正在处理时,可同时对数据库作维护(即存入数据或者删除数据)。正是凭借这些先进技术,SybaseIQ为在国家电网公司数据中心的决策支持系统提供了一个简单、易用、易维护、易管理的存储空间,以其强大的灵活性和适应性,包容了数据仓库OLAP分析中所面临的各种管理和优化需求,极大地降低了管理员的日常维护工作。系统实施的效果通过使用Sybase产品,国家电网公司数据中心全面改善了以往“信息孤岛”等现象,有效实现了对企业数据资源进行集中存储、统一管理的目标,为企业各应用系统提供数据层集中服务的数据环境。Sybase产品带来的好处十分明显,在业务方面:1、提高了国家电网安全运营管理能力,不仅科学有效的管理电网设备资源,还提高了事故管理和防范水平;2、增强了财务绩效分析能力,帮助企业充分利用资金,并为员工绩效分析提供支持。3、有效促进电力营销和服务,提高了电力的需求预测、价格制定和用电政策及服务能力。4、完善报表管理,为领导及时提供全面的关键业务信息,为领导的资源计划和科学决策提供保证。在技术方面:1、满足了国网数据中心海量数据存储要求,为国家电网公司提供了统一的、全面的信息展示;2、可以为国网数据中心海量数据存储下处理复杂的分析型查询提供卓越的性能;3、增强系统可用性,减少运营风险;4、维护管理简单,维护成本低。国家电网公司信息化负责人指出:“作为中国电力行业旗舰企业,国家电网在信息系统建设上坚持与全球顶级软硬件厂商合作。此次数据中心系统的建设,我们选择了SybaseIQ,主要是看重了其易维护、高安全性和高性价比等卓越的性能。另外,该产品出色的业绩表现以及Sybase颇受业界赞誉的服务也更增加了我们对SybaseIQ的信赖。”海尔案例说明:目前中石油应用资产系统现状分析:1、应用Amis7.0共有多少家2、数据量在5万条以上的有多少家,每家详细情况(总数据量多少、资产用户多少、近三

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功