“数字校园”建设的基础工程:信息资源规划(四):高复先为了开发利用高校的信息资源,必须建立高校的信息资源管理(IRM)基础标准。这些基础标准决定着信息系统的质量和效率,因而也是进行信息资源开发利用的最基本标准。我们在实践的基础上总结出信息资源管理基础标准即一些数据标准,包括:数据元素标准、信息分类编码标准、用户视图标准、概念数据库标准和逻辑数据库标准。这些标准将构成高校信息化建设的数据标准化体系,在信息资源开发利用、信息系统建设和运行使用中都具有极其重要的基础性作用。建立数据标准的重要性和原则威廉·德雷尔(WilliamDurell)1985年出版的专著《数据管理——成功的数据管理实践指南》(DATAADMINISTRATION:APracticalGuidetoSuccessfulDataManagement)总结了信息资源管理的基础—数据管理标准化方面的经验。他的名言是:没有卓有成效的数据管理,就没有成功高效的数据处理,更建立不起来全组织的计算机信息系统。他认为,早期的计算机信息系统开发,缺乏关于数据结构的设计和管理方面的科学方法,直到近十年(指上世纪80年代),才对这些问题加以认真地考虑。信息系统设计人员了解和掌握数据标准,就像建筑设计师了解和掌握建筑材料标准一样重要,否则,是设计不好信息系统的。为了有效地制定和实施数据标准,威廉提出了一些重要的原则:第一,数据标准的制定要从实际出发,要以共同看法为基础;第二,数据标准要简明易懂,切实可行;第三,标准必须加以宣传推广,而不是靠强迫命令;第四,管理部门保障标准的执行,有纠正违背标准的办法;第五,标准应该逐渐地制定出来,不要企图把所有的数据标准一次搞完;第六,数据管理最重要的标准是一致性标准——数据命名、数据属性、数据设计和数据使用的一致性。数据元素标准数据元素(DataElements)是最小的不可再分的信息单位,是一类数据的总称。信息系统中的“职工姓名”、“员工姓名”、“职员姓名”等,如不加以统一,在用汉语拼音表示其标识时就有ZGXM、YGXM、ZYXM等;而其英文标识就可能是EMP-NAME、NAME-OF-EMPLOYEE、EMPLOYEE-NM、EMP-NM等。如果统一采用“职工姓名”,其标识为ZGXM或EMP-NM,这就是少数的“标准化”数据元素;如果开发人员都这样做,就可大幅度减少信息系统中所使用的数据元素总数,并可大大简化其结构。数据元素的质量是建立坚实数据结构的基础。在数据元素的创建和命名上做整体的考虑,借鉴对化学元素的研究,就可以把握信息系统中有限数目的“核心”数据元素,这就需要建立数据元素标准——数据元素命名、标识标准和一致性标准。命名规则数据元素命名的规则是用一简明的词组来描述一个数据元素的意义和用途。这个词组的一般结构是:例如:“社会保险号码”(SOCIAL-SECURITY-NUMBER)是一个数据元素,其结构是:类别词(classword)是指能对数据对象作一般性分类的词,例如“时间”、“编号”等;基本词(primeword)是指能对数据对象做进一步分类的词,例如“设备”、“保险”等;修饰词(modifyingword)一般是名词,而不是形容词或副词。类别词是数据元素命名中一个最重要的名词,用来识别和描述数据元素的一般用途或功能,不具有行业特征,条目比较少。基本词是对一大类数据对象做进一步分类(反映一小类数据对象),一般具有行业特征,条目比较多。把握类别词与基本词的定义和数目,就能控制数据元素的定义准确性和总体数目。注意:数据元素作为最小的不可再分的信息单位,其命名词组要说明抽象数据的逻辑属性,而不包括物理属性,即不得包括时间、空间和人员单位等属性。以“授课人数”这一数据元素为例,某天的授课人数、某教室的授课人数、某教授的授课人数等,都不再是数据元素。标识规则数据元素标识即数据元素的编码,是计算机和管理人员共同使用的标识。数据元素标识用限定长度的大写字母字符串表达,字母字符可按数据元素名称的汉语拼音抽取首音字母,也可按英文词首字母或缩写规则得出。一致性控制数据元素命名和数据元素标识要在全组织中保持一致,或者说不允许有“同名异义”的数据元素,也不允许有“同义异名”的数据元素。这里的“名”是指数据元素的标识,“义”是指数据元素的命名或定义。例如,“同名异义”的数据元素有:这是因为没有遵循数据元素标识规则,用两个字符来标识数据元素(过于简单)的结果。如果坚持汉语拼音或英文缩略的数据元素标识规则,就消除了“同名异义”现象:数据元素的“同义异名”的例子,如前面提到的“职工姓名”和“员工姓名”的标识分别是ZGXM和YGXM,还有“单位编码”和“单位号码”的标识分别是DWBM和DWHM等,实际上是对同一个数据元素用了不同的标识。建立高校的数据元素标准,是指按上述规则识别定义出所有的数据元素(一般在2000多个左右),由所有应用系统共同使用。信息分类编码标准信息分类编码(InformationClassifyingandCoding)是标准化的一个领域,已发展成了一门学科,有自身的研究对象、研究内容和研究方法。在工业社会中,信息分类和编码是提高劳动生产率和科学管理水平的重要方法。美国新兴管理学的开创者莫里斯L·库克(MorrisLCooker)说:“只有当我们学会了分类和编码,做好简化和标准化工作,才会出现任何真正的科学管理”。在信息化时代,信息的标准化工作越来越重要,没有标准化就没有信息化,信息分类编码标准是最重要的基础标准。信息分类是根据信息内容的属性或特征,将信息按一定的原则和方法进行区分和归类,并建立起一定的分类系统和排列顺序,以便管理和使用信息。信息编码是在信息分类的基础上,将信息对象(编码对象)赋于一定规律性的、易于计算机和人识别与处理的符号。具有分类编码意义的数据元素是最重要的一类数据元素。根据我们的研究和实践结果,将信息分类编码对象划分为A、B、C三种类型。A类编码对象在信息系统中不单设编码库表,编码表寓于主题数据库表之中的信息分类编码对象,称为A类编码对象。这类编码表的记录,一般随主题数据库表记录的增加而逐步扩充,很难一次完成。虽然不单设编码库表,但其编码表可以从数据库表中抽取出来作为一个虚表(是数据库表的一个投影)在信息系统中使用。这类编码对象一般在具体的应用系统中使用较多,如身份证号码(国家标准)、教职员编码、学生编码、设备编码等,都是A类编码。B类编码对象在信息系统中单独设立编码库表的信息分类编码对象,称为B类编码对象。这类编码表内容具有相对的稳定性,可以组织力量一次编制出来。这类编码表一般都较大,像一些数据库表一样,在应用系统中往往被多个模块所共享,作为一些单独的库表管理是方便的。如国家行政区划编码、学科编码、职称编码、疾病分类编码等,都是国家标准的B类编码。C类编码对象在应用系统中有一些编码表短小而使用频度很大的编码对象,如人的性别代码、文化程度代码和婚姻状况代码等等,如果都设立编码库表,不仅系统运行时资源开销大,还给系统管理带来一系列的问题,把这类对象统一设一个编码库表来管理就可以了。建立高校信息分类编码标准,是指识别出、并分类所有的信息分类编码对象(一般在200个左右),编制每一编码对象的编码规则,按编码规则建立编码表。应遵照《信息分类编码标准的编写规定》、《信息分类编码的基本原则方法》(国家标准GB/T7026-2001、GB/T7027-86),按“国际标准—国家标准—行业标准”的序列,建立高校信息化建设所需要的信息分类编码标准。用户视图标准用户视图(UserView)是一些数据元素的集合,它反映了最终用户对数据实体的看法。用户视图是数据在系统外部(而不是内部)的样子,是系统的输入或输出的媒介或手段。威廉·德雷尔认为,用户视图与外部数据流是同义词——用户视图是来自某个数据源或流向某个数据接受端的数据流。常见的用户视图有:输入的表单;打印的报表;更新的屏幕数据格式;查询的屏幕数据格式。高校要建立网络化的信息系统,就要取消大量的报表信息传递,而以电子化的屏幕界面所取代。为此,需要分析用户视图,建立用户视图标准。分类编码我们将用户视图分为三大类:“输入”大类代码为“1”,“存储”大类代码为“2”,“输出”大类代码为“3”;四小类:“单证”小类代码为“1”,“账册”小类代码为“2”,“报表”小类代码为“3”,“其它”(屏幕表单、电话记录等)小类代码为“4”;为区别不同职能域的用户视图,需要在编码的最前面标记职能域的代码。该七位五层码DXXXXXXX简述如下:其中“簇码”是指同一视图规范化后形成的几个同簇表的编码。用户视图编码例子:“教职员工登记表”编码为D021302。登记我们提出的用户视图统一登记、建立用户视图目录体系的规范是:用户视图编码、用户视图名称、用户视图流向、类型、生存期、记录数(估计值)。组成用户视图组成是指顺序描述其所含的数据元素或数据项,一般格式是:上述已登记的用户视图“教职员工登记表”的组成:对于用户视图组成的规范化表述,不是简单地照抄现有报表的栏目,而是要做一定的分析和规范化工作。一般来说,存储类用户视图在表述其组成时要规范化到一范式(1-NF),标出其主关键字。对复杂的报表,进行规范化的拆分,建立规范的组成,需要根据管理要求和报表的结构,按不同的模式进行处理。建立高校用户视图标准,是指对所有的用户视图(一般在2000个左右)进行分类编码、登记和规范化表达组成结构。概念数据库标准及逻辑数据库标准概念数据库(ConceptualDatabase)是最终用户对数据存储的看法,是对用户信息需求的综合概括。简单说,概念数据就是主题数据库的概要信息。概念数据库标准是指全组织所有主题数据库的界定——列出每一主题数据库的名称及其内容的描述。某校建立的概念数据库标准包括38个主题数据库,部分列出如下:逻辑数据库(LogicalDatabase)是系统分析设计人员的观点,是对概念数据库的进一步分解和细化,一个逻辑主题数据库由一组规范化的基本表(BaseTable)构成。基本表是按规范化的理论与方法建立起来的数据结构,一般要达到三范式(3-NF)。逻辑数据库标准是指全组织所有主题数据库分解出的基本表结构规范——按主题列出每组基本表,对每一基本表列出其主键和属性表。上例某校的38个主题数据库细化为407个基本表(分为38组),其中第2组即“员工”的逻辑数据库标准如下(只列出部分基本表):数据标准化体系的建立及数据管理工作的开展在高校信息化建设中,建立数据元素标准和信息分类编码标准的过程,与建立用户视图标准的过程、数据库标准的过程是一致的。从我们的举例中可以看出,在建立用户视图组成(“教职员工登记表”)标准时,就包括数据元素标准化工作(“员工姓名”、“住址”等数据元素)和信息分类编码的标准化工作(“民族代码”、“部门代码”等);在建立概念数据库标准和逻辑数据库标准时,必定包括数据元素标准和信息分类编码标准的使用。高校信息化建设或“校园网”建设的数据标准化体系,是指统一建立并执行的五项数据标准——数据元素标准、信息分类编码标准、用户视图标准、概念数据库标准和逻辑数据库标准。这五项数据标准既是完全的,又是足够的(All&Only),构成了信息资源管理基础标准化体系。目前,有些单位只注意到数据元素标准和信息分类编码标准方面的工作(而且远没有达到我们上面提出的深度和广度),完全不注意研究用户视图标准、概念数据库标准和逻辑数据库标准方面的问题,这就像只讲化学元素而不研究分子和化合物一样,是解决不了化学问题的。因此,我们提倡建立的数据标准化体系是以五项数据标准为基础的,包括“数据元”和“元组”两个方面的体系结构(参见图1,其中标注了某高校的数据)。数据标准化体系的建立前面的举例仅仅涉及到高校数据标准化工作的一小部分,但已经可以想象,面对上千个用户视图,建立几十个主题数据库、数百个基本表,是一项何等艰巨、复杂的工作。一般来说,这项工作不是一次性的,不是短时间可以完成的,也不是