数据中心方案设计Bychja、系统拓扑图b、4.5.1设计目标建立一个集中分散、异构、可扩充、可集成、有统一数据模型、有多种角度视图的、可交换的和安全可靠的复合数据库系统。它将成为政府各种业务系统、政府部门之间协同工作的数据中心,是政府门户的信息中心,多媒体、文档资料和政策法规的存储中心和预测决策所需的数据仓库中心。4.5.2数据中心设计基础4.5.2.1现状分析对于一个完整的电子政务系统来说,统一的框架和相应的数据模式是十分重要的。电子政务的构建,正经历着由以技术为中心向以数据为中心的方向转变,没有数据也就没有信息,也就没有政府网站及电子政府。数据中心在电子政务系统中处于中心地位,具有公共数据(信息)库、模型库、文件交换站以及发布信息的政府门户网站的功能,各数据源将自己的数据上传给数据中心,而各部门根据自己的需要从数据中心获取数据,实施自己的应用。按信息的应用属性,可将电子政务的数据类型分为空间数据、基础数据、政务数据、专题数据和多媒体语音数据。整合政务信息资源,建设和改造政务数据库,并建立人口、法人机构、空间地理和自然资源、以及宏观经济四个基础数据库,将成为我国今后数年电子政务建设的关键。由于我国政府各部门对信息化建设的深远意义认识不够,以及政务建设有一个发展过程,造成了政府各部门、城市各行业信息化发展步调不一,从而使政务信息化建设存在一些问题:㈠、信息的共享、公开没有立发,信息采集、储存标准不统一,造成了互联互通不畅,共享程度低。㈡、信息共享机制尚未建立,各职能部门内部的信息相对封闭,产生了信息孤岛效应,造成了信息资源的巨大浪费。㈢、大部分单位业务应用系统还未形成一个内部资源共享、有效运行的整体,需要在电子政务设计建设的过场中进行整合和改造。㈣、网络建设各自为政,结构不合理,互连互通十分困难。㈤、安全性存在隐患,人门还不放心在网上共享数据。基于以上问题,需要在法律、技术、设备、管理等多方面加以考虑。政府数据资源的建设,将有助于打破各级政府和部门对信息的垄断和封闭,能够有效整合政务信息资源,强化对信息资源的不断开发、更新和维护;从长远来说,这项工作的开展,将有助于推动政府信息资源对社会的开放,使之发挥巨大的社会效益和经济效益。4.5.2.2资源分类数据中心是电子政务数据资源建设的基础,它是各类信息采集、加工和整合的平台。数据中心资源大致可分为三大类,一是元数据库、政务叙词表和分类体系与代码表,二是GIS平台,三是服务资源。(1)元数据库考虑到今后各职能部门的信息联接与交换,电子政务元数据库必需严格定义并向全网开放,否则将造成今后机构间数据交换无法实现。具体内容请参见4.3.3和4.3.4节。(2)政务叙词表电子政务与电子商务的一个显著不同是前者是为主题所驱动的,而后者是交易驱动的。在主题驱动系统中,规范主题词(叙词)库是至关重要的,因为它是库内资源组织、管理以及库际资源交换的基础。规范政务叙词表即是对所有入库资源进行科学标引、描述与分类,通过叙词严格的语义内涵和位属关联,建立所有资源在主题层的映射关系,对各类信息产品和服务过程起到基准性、规范性、参照性、结构性和工具性的支持作用,以实现全库资源的有序化,并提升其可用性。如Internet有因特网、互联网、网际网路等名称,仅以其中一个名称进行全文检索、关键词检索等并不能保证文献的查全率。而严格定义的叙词表会在这些表达间建立关联,同时还会给出相关同位词,如Internet的同位词有Intranet(即内部网、企业网、内联网、内特网等),以及Extranet(外部网、外联网、外特网)等,上位词有计算机网络、网络以及无线互联网、移动互联网等下位词。资源库中所有的文献资源只有在标引并与叙词库建立映射后,才能使用户在主题查询时能进退自如。政务资源叙词表大致由如下分词表组成:机关公文主题词表、宏观经济主题词表、行业主题词表、社会事业主题词表以及科学与技术主题词表等。(3)信息分类、代码和指标体系表分类与代码对于库中信息的组织管理和服务是极其重要的,同时,随着国际经济一体化进程的加快,与国际标准信息分类体系的兼容问题也日益重要。这些分类代码体系涉及到国民经济行业分类代码、联合国及各国海关协调制度(HS)分类与代码、北美工业标准分类代码(NAICS体系)、全国行政区划分类与代码(扩展到乡镇级)、全国工农业产品/商品分类代码、各主导行业信息分类与代码以及文件格式及其结构描述规范代码等。此外,各种指标体系与格式化文件对于政府的宏观管理和决策分析也是极其重要的。此类数据常以表格形式出现,并在各级机关部门中流转生成,它们之间的交换也以表格形式进行。所以,字段统一、代码统一、格式统一、定义统一的表格是主管部门从事经济分析、数据再处理和决策支持的前提。(4)GIS平台几乎所有的经济、产业与社会信息都与地理空间信息相关,近年来GIS已融入IT业的主体,并成为各类数据综合可视化的基础平台。与专业数据结合的各类专题电子地图更是各地政府进行区域经济与社会发展规划、开展招商引资、比较本地与周边地区竞争优势不可缺少的工具。同时,政务数据库的资源只有在与GIS整合后,才能产生质变,真正为政府宏观调控起到决策支持的作用。(5)服务资源电子政务系统的服务对象有4类:政府机构、公务员、公民、企业单位。服务资源即指直接为这4类客户提供服务的信息。其中包括政府系统办公数据、各类业务数据、国家政策指令,各种政务图像、视频,还包括电子商务、工商、税务、金融、海关、法律、卫生、医疗、教育、职业等基础设施服务信息。4.5.2.3数据特性(1)静态数据与动态数据电子政务数据中心必须满足电子政务平台进行数据交换的需要,同时还必须满足在平台上建立的各业务系统进行综合业务处理的要求,并为门户系统提供各种静态和动态的数据、信息。所谓静态信息是指对电子政务的运行中不经常变化,供各个业务系统查询、处理的数据或信息:政策、法规、元数据、资料库、各种多媒体数据等,它们会随着时间而逐步增大。所谓动态数据是指随着运行而增加、修改的数据:并联审批中文件流转状态数据,反映企业、个人所处状态的数据,国民经济运行状态的数据等。动态数据同各个局委办的信息密切相关,但又是面向主题的,如社会保险这个主题,实际上同保险、工资、税务和银行密切相关;个人信用使用主题,它的数据与银行、税务、个人消费、个人收入密切相关。(2)微观应用与宏观应用的数据共享政府业务中的信息应用有微观的应用与宏观应用之分,微观数据的应用主要是针对个案的事务处理。比如工商登记,业务申报,税务处理,个人劳保、补助、婚丧、驾照、护照、医疗等等。微观事务处理的业务既包含对社会市场秩序的监管,又包含对企业、对公众的服务。这类事务处理的工作主要是由基层的一线人员来承担的,其信息共享的特点是:由来自不同方面的信息要围绕一个主体来整合起来,比如将医疗卫生、计划生育、社会保障等信息依据人的身份证号码整合起来,这就构成了以人为主题的数据库。同样还可以建立以法人为主题的数据库来整合法人的信息咨询。实际上,微观信息共享的核心是将不同来源的数据资源,整合为主题数据库。微观数据的收集经常是由不同的主管部门来做的,如公安、税务、卫生部门、社保部门、工商部门等。要让这些部门收集的数据依据主题(主体)整合起来并不是容易的,首先必须要解决这些部门主观上的抵制,这是一个政务改革与利益处置的问题。在技术上,要求有非常标准化的唯一的主体编码,并要开放数据结构,这样才有利于可共享的主题数据库的诞生。进一步,我们应当尽量通过一表式的调查、登记,将尽可能多的数据集中地通过一次调查来完成,从而能尽量地节约成本。由于管理的角度不一样,我们很难通过一个主题数据来集中所有的共享数据,也许,我们还是需要几个系统来分别处理各自的业务,但是,经过数据整合设计之后的系统,肯定能够降低数据收集的总成本,并为微观业务提供更有效的服务。宏观应用的数据共享,主要是为领导层服务,希望通过共享数据资源来提高政府的决策水平。然而如何从纷繁庞杂的数据中挖掘出有用的信息进行预测分析,如何更好地管理和决策呢?我们可以选择数据仓库(DataWarehouse)作为决策支持系统的核心。数据仓库是支持管理决策过程的、面向主题的、集成的、不可更新的且随时间不断变化的数据集合。利用数据仓库,对源数据经过提取、转换、加载形成统一的数据格式,再利用数据挖掘和OLAP分析工具为决策者提供所需的信息。数据仓库的使用者主要是机关单位、市委领导等决策相关人员,为他们提供在业务办公基础数据库的基础上各种层次汇总的数据,帮助他们进行各种决策支持。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于现有的业务型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库主要有三方面的作用:首先,数据仓库提供了标准的报表和图表功能,其中的数据来源于不同的多个事务处理系统,因此,数据仓库的报表和图表是关于整个集成信息的报表和图表;其次,数据仓库支持多维分析,多维分析是通过把一个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理解角度。应用多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过程中非常有用;第三,数据仓库是数据挖掘技术的关键基础,数据挖掘技术要在已有数据中识别数据的模式,以帮助用户理解现有的信息,并在已有信息的基础上,对未来的状况作出预测。虽然数据仓库也有面向主题的定义,但这些主题是较长时间的,具有战略定义的主题。由以上分析可见,根据数据库的操作性、数据的语义,应该把数据库分为三大类:一般意义的数据库即关系数据库、文本数据库(DB);供综合业务系统和门户使用的面向主题的数据库(OSD);数据仓库,它是供内门户决策者使用的数据库(DW)。DB数据主要分布在各局委办,数据中心只有少量的;所以它是集中分布的。面向主题的操作数据库(OSD)是电子政务数据中心的主体,它是DB按主题映射的数据库;数据仓库建立在DB和OSD之上的主题数据库。这三种数据库的关系描述如下:面向主题的操作数据库是数据库体系的中间层,一方面包含全局一致的、细节的、当前或接近当前的数据;另一方面它是面向主题的,集成的数据环境,且数据量小,供各个综合业务系统查询处理使用,主要用作辅助完成日常决策的数据分析处理。所以这种数据库的主要特征是:l系统功能表4-1设计目标处理类型主要功能需求特征中层辅助决策与综合查询日常管理和控制的决策,事务处理与决策分析并存联机事务处理联机分析综合全局中层l数据特征表4-2内容来源组织稳定性综合性特征当前或接近当前的数据政府系统内部主题较稳定允许更新某一主题的综合和详细数据全域一致的数据环境l数据库的主要用户该数据库是反映某一主题的数据,其用户是政府工作人员和就某一主题进行综合查询的人员。(3)集中分布式数据管理当我们的微观数据规模非常大的时候,依靠集中的数据处理会是很不方便的,我们可以将数据库建设分散化,由本地来进行数据收集、整理和数据库更新。然而,数据的使用却不能是地区化的,数据的查询是全国范围的。这样,共享数据的管理与共享数据的使用范围就会不一致。为了解决这一问题,可以考虑使用标准的目录数据库,统一结构的目录数据库将允许多层次分布式的建立自己的子系统,而又能自然形成一个整体,以支持统一的数据库查询,这对于建立大规模的主题数据库体系是非常有效的。数据就近的管理与联合统一的使用不仅会大大提高数据共享的范围,而且会有效地降低数据维护管理的成本。(4)数据源的异构性数据源异构性主要表现在两方面:s系统异构,数据源所依赖的应用系统、数据库管理系统乃至操作系统之间的不同构成了系统异构。s模式异构,数据源在存储模式上的不同。一般的存储模式包括关系模式、对象模式、对象关系模式和文档嵌套模式等几种,其中关系模式为主流存储模式。需要注意的是,即便是同一类存储模式,它们