1国民经济和社会发展核心数据库建设模式探讨——数据仓库在统计领域的应用杨靖怡包志军周红缨浦东新区发展计划局信息中心摘要:近年来,随着计算机数据处理技术在统计行业的广泛应用,产生了大量分散在各个统计单位的数据。数据仓库技术的产生和发展,为这些大量的烦杂而分散的数据资源提供了有效的理论和解决方法指导。本文分析了浦东新区统计数据的现状,提出了核心数据库的建设目标和功能,是在现存数据系统上进行有效的抽取、综合、继承和挖掘,产生最有价值的信息,为政府和社会提供有效的决策支持。本文重点提出了浦东新区国民经济和社会发展核心数据库的建设模型。要遵循“总体规划,分步实施”的方针,分成三个阶段来实施。最后提出了建立核心数据库的若干保障机制,及其对促进新区国民经济和社会发展所产生的重大意义。1.前言在社会信息化加速发展的大背景下,现代管理模式强调以信息资源管理为中心。对于各类管理信息系统在管理运作中产生、存储与集成的大规模数据,仅仅进行简单的统计报表、检索查询等浅层面处理已远远不能满足需要。如何对急剧增长的数据集合进行实时和深层分析,将深潜其中的有用信息提取升华;如何按管理控制的需要有效地组织众多相关部门的数据支持决策,是信息管理面临的新课题。数据仓库、数据挖掘和知识发现等都是近些年发展起来的信息处理技术,是新技术环境下开发利用信息资源的有力工具。数据仓库(DataWarehouse)的提出是二十世纪90年代,它首先被用于金融、电信、保险等主要传统数据处理密集型行业,国外许多大型的数据仓库先后建立于1996和1997年。如今在国外数据仓库方面的发展非常迅速,呈雷霆万钧之势,在技术和应用上也趋向成熟。与国外相比,我国在这方面起步较晚,因而尚存差距,但是通过鉴借国外的经验教训,并且随着基础设施和联机事务处理系统的逐步完善,我国的数据仓库技术正在蓬勃兴起,并将逐步缩短与国外的差距。目前,数据仓库在国内的应用领域日益广泛,越来越多的企业开始意识到它的重要性,并逐渐采用数据仓库来提高管理能力和决策分析能力,在实际应用中将发挥着巨大的作用。在统计领域,近年来由于计算机数据处理技术的广泛应用,因而产生了大量分散在各个统计部门的国民经济和社会发展数据。面对2大量繁杂而分散的数据资源,如何安全有效地管理和重组数据,提炼出综合数据信息,以供政府部门和社会各界利用,成为目前我国统计领域所面临的一个比较难于解决而又亟待解决的问题。数据仓库技术的产生和发展,为这个问题的解决提供了有效的理论和方法指导。2.现状与需求2.1.统计数据现状分析(1)数据格式多种多样,一致性较差,并存在数据冗余目前浦东新区各个统计专业所使用的系统主要有两种:一种是由市统计局下发的系统;另一种是自主开发的系统。产生的数据格式均不相同,且各个系统相对独立。在系统单独使用的情况下,一般都没有问题,但要将这些不同专业或不同时期的数据集中起来加以综合利用,就可能出现数据不齐全、不一致或重复的现象。例如,不同专业系统对同一项数据的缺省值的处理方式可能不一样,有的专业系统以无效值NULL来代表,而有的专业系统则以空格代表;又如,一家企业从私营公司变为股份制公司,虽然名称变了,但业务上还是一家公司,在不同时期的数据中,就可能以不同的名字出现。(2)数据来源多,但存放相对分散,缺乏统一管理浦东新区的统计数据不仅来源于各统计调查所,还来源于直报企业和其他相关部门,但这些统计数据一般分别存放在各个统计专业的FoxPro数据库中,而且大多只保存了近期数据,缺乏集中存放和管理不同专业、不同时期统计数据的有效手段,因此不利于统计数据的进一步加工利用。(3)统计业务涉及到各行各业和众多企业,指标多、数据量大目前,除了能将这些数据汇总成为统计报表、统计年鉴、月度手册、市情手册或经济卡片之外,还缺乏对专业统计数据进行各种深层次分析、综合、提炼、挖掘和展现的应用软件,因此很难对丰富的统计数据资源进行二次开发利用,最终用户可利用的分析、预测数据不多,能辅助决策的有效信息就更少。(4)偏重于上报统计报表,忽视了政府宏观决策支持和企业微观决策支持3在计划经济时期,统计部门的主要职能是为了上级统计机关报送统计报表;在市场经济时期,统计部门不仅要为上级统计机关报送统计报表,而且还要更多地为辅助新区政府宏观决策和企业微观决策及时提供各种信息和情报。2.2.新时期对统计信息的需求在世界走向信息化的今天,尤其是随着Internet的飞速发展,信息的产生、更新、传播、利用的节奏大大加快,快速获取信息,通过分析把信息变成有价值的情报,成为一个单位提高竞争力的重要手段,有关国民经济和社会发展的统计信息资源也随之成为社会需求的热点。为了对复杂的动态环境作出及时响应,现代管理要求在大量的统计数据中找出有价值的信息和情报作为决策时的参考依据。在决策过程中,一旦需要,决策人员可以很快得到方方面面详尽的信息和情报支持,包括历史的、当前的和未来的各种信息。支持对分布在不同地点的数据或信息进行操作,包括内部的,外部的或远程的数据及信息。支持对不同类型和模式的数据或信息进行操作,要求图文并茂。包括结构化、半结构化和非结构化的信息类型及文本、数字、声音、图形图象、视频、动画、地图GIS等数据格式。中国即将加入WTO,面对市场的挑战和机遇,企业更需科学化的决策支持。因而越来越多的社会用户希望统计信息资源能够实现充分共享与快速交流,尤其是企业的微观决策需要统计信息的支持。2.3.核心数据库的开发建设是“十五”期间浦东统计信息建设的重点之一浦东新区是一个改革开放的前沿地区,其信息化工作显得尤为重要。为了配合国家统计信息工程和上海市信息化“十五”规划,实现上海信息港建设目标,以科学、规范的统计指标体系和统计标准体系为基础,充分利用现代计算机技术,网络技术,数据仓库技术和数据挖掘工具,构筑数据库模型,建立一体化统计信息采集、处理、存储、服务系统,建立政府“电子统计”,努力推进新区统计信息化进程。43.目标和功能核心数据库的建设不同于传统的关系型数据库,是基于数据仓库的统计信息应用系统,是在现存数据系统上进行的开发,它着眼于有效的抽取、综合、继承和挖掘已有数据资源,以及最有价值的信息,为政府和社会提供有效的决策支持。采用数据仓库的好处可概括如下:可统一各种数据存储格式,保证全部数据的准确性、一致性、完整性和共享性;可集中存储和管理各专业不同时期的统计数据,提高检索速度,便于统计数据资源的综合利用;可根据决策需要对各种统计数据进行组织和分析处理而又不会降低业务系统的运行性能;可充分利用现有和历史的大量统计数据资源进行二次开发,从中提取有价值的信息;决策者可以查询到他们需要的、一致的、形象直观的分析预算信息,以辅助其决策分析。3.1.核心数据库的建设目标基于数据仓库的核心数据库需要实现数据抽取、清洗、转换和装载自动化,统一数据格式,充分利用各种数据资源;建立适应统计信息应用系统要求的数据仓库结构体系,集中存储和管理决策所需数据,保证数据仓库内数据的完整性、一致性和可用性;建立综合信息服务平台,为政府部门提供决策信息查询服务,为社会用户提供统计信息发布服务;为统计专业分析人员提供统计数据的综合应用系统,完成统计数据的组织管理、分析预测和综合查询等工作。3.2.核心数据库的建设功能基于数据仓库的核心数据库主要包括数据仓库体系结构的规划和设计、源数据的抽取和装载、目标数据的组织和管理、统计分析预测、统计信息查询、统计信息发布等统计信息应用系统。目标数据的组织工作主要包括:根据建立数据仓库和用户信息的需要,按照确定的主题、粒度、指标范围组织分割数据;建立数据视图、索引或数据模型,优化系统配置,提高查询和分析处理性能;对于重要的综合性统计数据,按照指标的口径范围和行政区划的变化进行调整等。组织与管理的数据范围包括:常规统计数据,如:统计年报、季报、月报数据;各种普查数据;抽样调查和专项调查数据;相关单5位提供数据;外部公布数据摘录;分析预测数据;地理信息数据;其他数据等。统计分析预测主要有多维分析、数据挖掘和经济计量分析、数理统计分析等数学模型。经济计量分析包括时间序列、线性分析等分析方法;数据挖掘包括决策树、人工神经元网络、粗糙集、贝叶斯和关联规则等方法;数理统计分析包括回归分析、方差分析、相关分析、判别分析、聚类分析等。4.模型设计4.1.设计思想针对新区统计信息的基础和建设该数据库的投入资金大、周期长等特点,应该遵循总体规划,分步实施的方针。第一阶段:建立基础数据库。统计各专业产生的数据目前仍分散存放在不同的单机上,彼此相对独立。建立基础数据库不仅是为了集中存放和管理这些原始数据,实现数据共享,而且也是为数据仓库的建立打下基础。因为数据仓库是以大量的传统数据库为数据源获取原始数据,再根据决策目标加工、整合、转换为新的存储格式存入数据仓库的内部数据库中。数据仓库的建立并不是要取代传统数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是依赖于传统数据库管理系统来管理其中的数据。第二阶段:建立数据仓库。数据仓库必须遵循:(1)系统扩充性好能够支持不同的数据源装载,数据仓库存储不同类型的数据,根据用户需求能够分阶段的实现更多的应用功能;能够根据系统的运行瓶颈调整硬件和软件的结构,局部结构的改变和扩充不影响系统整体的运行。(2)完善的数据管理由于数据源之间存在数据类型和数据描述的不一致,及数据的不完整性等现象,需要系统对数据源采取有效地过滤、转换手段,使之成为有效的、一致的形式便于在其上进行全局应用;同时随着时间的推移,数据仓库中的数据量不断增大,必须根据其特点采用适6当的方法进行组织和管理。(3)能够实现高性能的复杂分析使用数据进行各种复杂分析,如多维分析长期趋势分析和数据挖掘等。(4)完善的最终用户界面如果没有各种分析工具,数据仓库的存在是没有意义的,系统必须提供各种灵活完整的分析应用工具。第三阶段:数据仓库在统计信息上的应用。(1)统计分析预测系统;(2)统计信息查询、咨询服务系统;(3)统计信息发布系统;(4)宏观管理决策支持系统。4.2.设计方案基于数据仓库的核心数据库体系结构可分为数据源、数据抽取转换和转载、中心数据仓库、结构化数据集市和数据访问数据分析。它们之间相互作用,共同构成了数据仓库信息环境。数据源主要是存储在基础数据库中的国民经济和社会发展统计数据,基础数据库可采用关系型数据库;数据抽取转换和转载通过对系统的建模后,采用元数据管理按照一定的规则将数据源中的数据转载到中心数据仓库中;中心数据仓库根据信息分析需求重新定义和组织各专业处理系统中的数据;数据集市是数据仓库中某一个主题的体现;用户终端工具通过应用服务器等中间层对数据仓库和数据集市中的信息进行访问和分析,用户界面为定制的Web界面,同时可以打印报表,可以满足用户的所有需求,从对数据仓库中数据的简单查询,到复杂的分析、预测和建模。4.3.关键技术(1)数据的抽取数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。7(2)数据的存储和管理数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。这里所涉及的数据量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只有关系数据库系统能够担当此任。关系数据库经过近30年的发展,在数据存储和管理方面已经非常成熟,非其它数据管理系统可比。目前不少关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力。采用关