文档媒介的变迁及XML应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第2卷第2期宁波广播电视大学学报Vol.2No.22004年6月JOURNALOFNINGBORADIO&TVUNIVERSITYJun.2004【收稿日期】2004-04-08【作者简介】陈访荣,男,宁波广播电视大学信息技术系,讲师。办公室文档的信息化陈访荣(宁波广播电视大学,浙江宁波315016)【摘要】本文从“办公室文档”现象出发,倡导办公室文档的信息化,论述了办公室文档信息化的原则,文档信息化的可行方案与技术走向,并以最新的XML载体例举了文字档案的处理。【关键词】办公室文档,信息化,网页,XML【中图分类号】TP317.1【文献标识码】A【文章编号】1672-3724(2004)02-0033-03ComputerizationofOfficeDocumentsCHENFang-rong(NingboRadioandTVUniversity,Ningbo315016,Zhejiang,China)Abstract:Fromthephenomenaof“officedocuments”,thispapercallsforthecomputerizationoftheofficedocuments,discussestheprincipleofthesedocuments,pointsoutthatthecomputerizationisbasedonworkableschemesandtechnologies,andlastlyprovidesthelatestXMLexamplesofprocessingwordfiles.KeyWords:Officedocuemts;Computerization;Webpage;XML文字档案是人类文明史上最卓越的信息载体,它是在一定的媒介上承载文字信息的。从远古的甲骨、陶、碑、简、帛,到纸介时代,直至电、磁、光介质的普遍使用,媒介技术的每次变迁,都极大地推动了和推动着文档内涵、功效、记录成本和传播途径与速度的发展变化。现在的办公室文档编制普遍存在信息价值低、传播成本高、一致性差等缺陷,急需进行信息化改造,使之成为在线资讯,并组织应用开发,增加对文档的复用和挖潜。信息化的典型误区——“办公室文档”现象单位或部门的业务活动大多围绕一系列的信息(如生产信息、管理信息、营销信息、决策信息等等)而展开,运用信息技术进行信息的辅助管理,是现代管理学的重要内容。在所有的计算机辅助信息管理业务中,数字化文档始终是信息的基本载体。因此,数字化文档的编制水平对IT(信息技术)应用水平起着关键性的作用。信息化文档编制的基本要求是,能够运用现有的成熟技术(如数据库技术)对文档进行深加工而产生较大量新信息、新认识,从而推动科学决策。总的来说,就是以数据库、超媒体文本为主要媒介形式,按数据源或数据所有权组织布局,并建立网状分布的索引、加工,形成多层次、多角度、实时、协同的信息整理和分析。但现在很多部门的文档编制,只是简单地将传统的纸介文档通过电脑打字转存到数字化设备上,然后通过排版打印得到“美容”了的纸介文档。其典型特征是:桌面字处理和编辑排版软件一统天下;打印稿成堆却鲜有备份磁盘、光盘……我们把这种现象称作“办公室文档”现象。其实,“办公室文档”除了第一次效益(美容文稿)和第一种效益(原样重复使用)外,较难产生第二种效益。这是因为在前沿科技(如模式识别、数据挖掘、文字理解等)尚未发展成熟的现实情况下,“办公室文档”只能通过人的智能活动(阅读识别、分析感受、总结概括等)产生新信息。所以“办公室文档”的信息价值低、传播成本高、一致性差,急需进行信息化改造,使之成为在线资讯,并组织应用开发,增加对文档的复用和挖潜。文档信息化三原则从格式密集型转向文字密集型,以提高文档的复用水平“办公室文档”的最大特点,是文档的格式信息非常密集而文字信息相对疏松。但除了换行标识、段落标识等少量的格式信息外,象版面布局、文字修饰等占据极大比重的格式信息只有打印到纸介(或显示到屏幕)时才有信息价值。这意味着在打印以外的应用中,此类文档的信息冗余度是很高的。事实上,在管理应用中文档格式并不需要设计得很复杂。文档中的输出格式信息就象是电磁通讯中的干扰波,如果“干扰波”很弱,则我们能较容易地、更多样地对文档内含的文字信息进行挖掘、应用,使之产生更丰富的效益。现代计算技术将文字进行数字化编码(如西文的ASCII码、汉字的国标区位码、UNICODE全球统一编码等),运用电路技术、电磁技术、光电技术等存放在电子记忆体、磁盘、磁带、光盘等媒介上,并通过计算机中的字库和特定功能程序,将编码所代表的文字外形显示在计算机屏幕上,或打印到其它媒介上。字库就是记录文字的外形图案的数据集合。(如图1所示)通过约定的格式将文字的数字编码组织在一起,就形成了数字化文档。数字化文字档案与传统文字档案有着根本的区别。从上述原理可看出,现代计算技术将文字的表示(编码、存贮)和表现(显示、打印等)区分为两个环节;而传统的文档则是通过文字的表现(刻录、书写等)将文档的表示存留在媒介上的。正是这种原理,使得我们可将文档的文字信息(包括结构组织信息)和输出(打印或显示)格式信息分离开来,并共享格式信息,从而提高文档的信息密度。例如,在Word软件中,使用模板(.DOT文件)可在一定程度上实现文字内容与格式信息的分离。在网页技术中,类似的分离将更加突出。将文字信息与格式信息分离得最彻底的,是以数据库技术为核心的管理信息系统(MIS)或更高级的决策支持系统(DSS)。文字信息与格式信息分离后,我们还能将不同的格式信息与文字信息关联,从而快速地得到不同格式的相同内容,使输出风格多样化。比如,要在课堂大屏幕投影上显示教学讲义,那么所有文字都应该是较大的尺寸;但是阅读者在计算机屏幕前浏览讲义时,就不应是大尺寸的文字了。如果实现了文字内容与格式信息的分离,则只要设置讲义文件与不同的格式模板进行关联就可。通过多媒整合和网络分布,提高文档的功效现在人们越来越希望用一个文档将多种媒源的信息整合起来,以方便阅读和管理。HTML文档(网页)是目前最为突出的多媒体文档形式。正是HTML和HTTP引发了因特网的快速扩张,使之成为深不可测(故称“海量”)的信息载体。由于因特网技术具有较好的广域性、兼容性、可移植性和可靠性,用它对办公室文档进行整合与应用,能显著提高文档的效能。用超文本标记语言编制的HTML文档,可将文字、图象、声音、图形、动画、多媒流等信息很好地整合起来,并能表达版式布局、文字格式、修饰等表现需求,还能将URL(统一资源定位器)插入到特定的文字或图象、按钮上,从而实现信息之间的便捷关联。Internet用HTTP协议将服务器上存放的网页传送到客户端(浏览器),或是将客户端的访问请求传送回服务器。与早期的分级菜单组织方式(例如GOPHER、文件目录等)相比,的超链接使全球在线资源以“网”(数学上称作“图”)的结构被组织,而不是“树”的结构。网和树的最大区别是,从一个资源(结点)到达另一个资源,树只有一条路径,且路径长度与位置布局紧密相关,但网却常有多条路径,并可能有一条极短的路径。如图2所示,在树结构中,资源E到其“堂兄弟”F的路径是E-B-A-C-F,长度为4个单位;而网结构中,E到F的路径有很多,其中最短一条路径是E-F,长度为1个单位。这种路径长度的实际意义,通常就是从起始文档到达目标文档而需要按下鼠标键的次数,当然,还要包括在上一次按下鼠标调出当前文档后在其中寻找下一鼠标按位的时间。减少被动模式,适应主动理念在传统管理信息采集中,多是一种被动模式:信息源拥有者根据上级管理机构的命令,整理出相应范围内的信息并编制成文档;上级管理机构从报送上来的文档中获取需要信息。这个模式看起来很美——文档编制者不需要整理编制命令以外的其它信息文档,哪怕它有着很大的价值潜力;上级机构也只需坐等信息文档的到来。但如果上级领导的命令不能很好表达和控制自己的信息需求,或者信息源拥有者未能积极、有效地整理和编制信息文档,就会产生不小的问题。以Internet为重要媒介的一些新经济发展较多体现了一种主动服务和主动收集的理念:不同部门、不同领域、不同角色的人们都主动地分析、挖掘、整理自己所拥有的信息资源,用合适的文字档案或其它形式档案对信息进行记录、保存,将可公开的信息通过网页等技术发布到网上,不宜公开的信息则借助一定的安全措施有选择的、针对不同人群、在不同地域发布;同时,人们又可主动地通过Internet的浏览、门户引擎搜索等途径,在全球范围内收集、获取符合自身需求的各种信息。按这种“主动提供信息服务,主动获取服务信息”的理念,服务者应提供尽可能多的信息,并采用尽可能有效的信息提供方式和通用的技术手段,使提供的信息服务产生尽可能巨大的效益。作为被服务者的业主、决策人、管理者等,在继续从传统渠道获得信息的同时,更可主动地从广大的信息服务中搜集、筛选和分析资料、数据,以增强全局把握能力、增加创新思维、提高反应速度。文档信息化的可行方案与技术走向为了将“办公室文档”提升到在线资讯,需将文档制作成网页类型;更有意义的做法则是将文档内含信息提炼为数据库,通过动态网页技术提供多种服务和多次应用。最迫切的是迁移旧文档许多信息提供者将文档制作成Word文档或类似的非网页或数据库文档放在网站上,这往往给使用者制造很多麻烦——传送数据量大、中间过程多、格式失真、插件限制、难以在线检索等等。因此,这种类型的网站文件并不能算真正的在线资讯,这种服务方式与服务方式并没有根本上的区别——的优势在于超文本内容的直接浏览和检索。这里建议:如果是格式要求非常复杂、内容被二次应用的可能性较低,那么采用传统方式;否则,尽量采用网页方式。对于多层次应用可能性较高、数据特性较明显的内容,还应进一步采用数据库技术来组织。用数据库技术组织的信息,可经过本地应用开发或动态网页技术,很好地向内部或外部、公开地或私密地实时发布。这是比较容易做到、效益较好、潜力较大的文档应用模式。对于以往积累的、非网页类型的文档,可重新制作成网页文档,当然也可通过Word等软件提供的“另存为”功能直接转换为网页(这样得到的网页较臃肿且容易失真),但至少从现在开始,应在制作文档时慎重考虑是选择网页方式还是传统方式。HTML的现在和XML的将来在IT业内,通常将在线文档分为静态网页和动态网页两种。将文字内容用HTML语言(主要是必要的描述标记如段落定义、超链接定义、表格定义等)组织成网页文档存放在服务器上,当调阅时直接将该文档发送到客户浏览器,然后将该网页展示在客户屏幕上,这样的网页文档被称作静态文档。换言之,客户端接收到的文档就是提供者存放在服务器(站点)上的原始文档的一个拷贝。动态网页技术则不直接在网页文档中给出所有内容,而是通过嵌入的数据库查询和计算程序,在客户调阅时再实时地从数据库中取出文字或其它形式的数据,动态地生成完整的网页文件(HTML格式)并发送到客户浏览器。当数据库中的内容发生改变后,客户再调阅相同网页时就会看到新的内容。由于动态网页是在客户调阅时才从数据库查询、计算而生成的,如果在查询、计算中进行了权限控制,就可对不同的客户提供不同程度的信息服务。而HTML静态网页则是开放的。要经常性修改HTML网页文档中的内容是不容易的——每一次修改都必须经过三个工序:从站点服务器下载旧的HTML文档;用一定的工具(如FrontPage、DreamWeaver等)进行编辑修改;再将修改后的HTML文档重新上载到站点服务器上覆盖掉旧的HTML文档。动态网页技术则可以用专门编制的后门程序在线修改数据库中的内容。此外,HTML文档与Word文档一样只有一次效益——浏览其完整内容。但是,数据库文档也有缺点:必须经过一定的编程才能将其内容展现在网页上。有没有更好的做法能在实现文档的多次效益的同时,又能通过简单方法将文档内容直接展现在网页上呢?现在可以了。如果将文档编制成XML格式,就可用MS.NET等技术象数据库那样实

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功