第8章多媒体信息的管理与查询超文本与超媒体超媒体系统是作为一种复杂的信息管理系统而出现的。这些系统允许人们从各种媒体如文本、图形、图像、音频、视频、动画和程序等创建、互连和共享信息。与传统的以自然顺序的信息系统不同。超文本系统提供了一种全新的非线性信息访问方式。“超文本(HyperText)”与数学家F.Klein在1704年提出并流行于19世纪的hyperbolicspace有关。Klein用hyperbolic描述了一个多维几何空间,而人类的思维结构也是一个多维空间。人类的记忆是一种联想式的记忆,它构成了人类记忆的网状结构,对联想、记忆的探索形成了人类思维概念化的基础。人类的这种联想结构不同于文本结构。文本结构最显著的特点是它在组织上是线性和顺序的。超文本与超媒体概述通常超文本被定义为:由信息节点和表示信息节点间的相关性的链构成一个具有一定的逻辑结构和语义的网络。节点可以包含文本、图形、图像、音频、视频、源程序或其他形成的数据。包含多媒体的超文本被称为“超媒体”。超媒体的目的是为了产生巨大、复杂、丰富链接和交叉引用的信息体。一个小型的超文本结构超文本系统的基本特征(1)图形用户接口(2)向用户给出一个网络动态总貌图,使用户在每一时刻都可以得到当前节点的邻接环境。(3)在超文本系统中一般使用双向链,这种链应该支持跨越各种网络。(4)包含管理节点和链信息的引擎。(5)尽可能不依赖它的具体特性、命令或信息结构,而更多强调其用户界面的“视觉”和“感觉”。超文本系统的组成超文本系统是节点(Node)和链(Link)组成的。一个节点通常表示一个单一的概念或围绕某一特殊主题组织起来的数据集合,是表达信息的一个基本单位,可以包含文本、图形、图像、音频、视频、动画或者一段计算机程序。不同的系统中表达节点的方式可能是不同的。在超文本系统中,节点分成不同的类型来表示不同的信息。(1)文本节点(2)图形节点和图像节点(3)动画节点和视频节点(5)混合媒体节点(4)音乐节点和数字化语音节点(6)动作与操作节点(7)组织型节点(8)推理型节点链的结构链可以分为以下几种类型:(1)基本链(2)移动链(3)缩放链(4)全景链(5)视图链(6)索引链(7)Is-a链(8)Has-a链(9)蕴含链(10)执行链超文本的节点通过链链接起来的示意图宏节点通过链连接在一起的节点群成为宏节点。实际上,一个宏节点就是超文本网络的一部分——子网。右图中虚线框中的节点和链组成了宏节点,宏节点和宏节点之间用实线连接,表示它们之间的物理关系。实际上,位于不同宏节点内的节点在逻辑上可以任意连接(图中的虚线)。典型的超文本系统1.Augment/NLS2.KMS3.Guide4.NoteCards5.Hypercard超文本系统的用户接口超文本的目的是提供一个复杂的、具有丰富连接和交叉的信息系统。但是,如果没有一个合适的用户界面,它也可能成为一个复杂混乱的、使人产生困惑的系统。迷失(Disorienation)和认识开销(CognitiveOverhead)是两个与超文本相关的最富挑战性的问题。这两个问题的解决最终会影响文本系统的应用。计算机的研究人员进行了大量的研究,并开发了一些很好的工具以解决上述两个问题。1.图形浏览器2.Web视图3.地图和概貌图4.路径和形迹HTML语言简介HTML(HyperTextMarkupLanguge)语言,称为超文本标记语言。它不仅用来编写Web网页,而且也越来越多地适应HTML来制作光盘上的多媒体节目。HTML可用来编排文档、创建列表、建立链接、插入声音和影视片段。HTML发展历史HTML语言结构HTML标签和属性超链接用HTML实现多媒体设计超文本的工具1、JavaScript⑴.JavaScript语言的发展⑵.JavaScript的特点⑶.JavaScript的编程⑷.JavaScript的语法描述⑸.支持JavaScript的浏览器(6).JavaScript的安全问题2、动态网页设计⑴.ASP技术⑵.JSP技术⑶.PHP技术⑷.FlashXML简介XML(ExtensibleMarkupLanguage,可扩展标记语言)是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。1、XML是元标记语言2、XML的严格格式3、XML文档的组成4、VoiceXMLVoiceXMLVoiceXML是由IBM、Lucent、Motorola、AT&T四家公司于2000年提出的一种应用于语音浏览的标记语言,它建立与XML标记语言规范的基础之上,是语音浏览技术的核心。因为它同样是一种XML描述语言,它与数据库、HTML、WML以及其他文档处理和发布系统交换资料时几乎没有障碍。VoiceXML语音浏览器,由以下几个部分组成:1.VoiceXML解析器2.语音识别引擎3.语音合成引擎4.语音通道多媒体数据库传统的数据处理中所处理的数据类型主要是整型、实型、布尔型和字符型,而多媒体数据处理中的数据类型除了上述常规数据类型外,还要处理图形、图像、声音、文字及动画等复杂数据类型。多媒体数据与常规数据有许多差别,主要表现在以下几方面:数据量、数据长度、数据模型、数据定义及操作、数据的时间特性和版本概念、数据传送多媒体数据的特点多媒体数据的存储问题1、巨大的数据量2、存储技术3、多媒体的存储对象4、多媒体文档检索多媒体数据的管理1.传统的数据管理2.多媒体带来的问题3.多媒体数据的管理传统的数据库系统有3种类型:关系型、层次型和网络型。Codd关于关系数据库的开创性工作,建立了关系数据库的坚实理论基础,给出了清晰的规范说明,加上“表格”的概念直观易懂,使得关系数据库在理论和产品开发上都获得了巨大的成功,在数据库市场上占有明显的主导地位,特别是中小型数据库系统。关系数据库采用关系框架来描述数据之间的关系,通过把数据抽象成不同的属性和相互的关系,建立起数据的管理机制。(1)数据库的组织和存储(2)媒体种类的增加(3)数据库的查询问题(4)用户接口的支持(5)多媒体信息的分布对多媒体数据库体系所带来的巨大影响(6)处理长事务增多(7)多媒体数据库对服务质量的要求(8)多媒体数据管理还要考虑版本控制的问题应用程序开发者和数据库管理者面临的最大挑战是,要把不同形式的信息,包括文本、图像和视频组合在他们的应用程序中。即使是压缩了的多媒体对象,容量也是非常大的。另外,目前大多数多媒体应用都与网络通信相结合,因此,数据库系统必须是完全分布式的。现在有若干数据库存储方法可供选择,这些方法将决定整个方案的灵活性和性能。可选的方法如下:⑴、对现有关系数据库管理系统(RDBMS)进行扩展。⑵、把关系数据库中基本二进制对象扩展为继承和类的概念。⑶、将数据库和应用程序转换为面向对象的数据库,并使用C++或对象使能的SQL这样的面向对象的语言进行开发。多媒体数据库体系结构1、组合型多媒体数据库结构针对各种媒体单独建立数据库,每一种媒体的数据库都有自己独立的数据库管理系统。用户既可以对单一的媒体数据库进行访问,也可以对多个媒体数据库进行访问以达到对多媒体数据进行存取的目的。这种多媒体数据库系统的体系结构示意图如左图所示。在这种数据库体系结构中,对多媒体数据的管理是分开进行的,该体系结构对多种媒体的联合操作、合成处理和概念查询等都比较难于实现。如果各种媒体数据库设计时没有按照标准化的原则进行,它们之间的通信和使用都会产生问题。多媒体数据库体系结构2.集中型多媒体数据库结构只存在一个单一的多媒体数据库和单一的多媒体数据库管理系统。各种媒体被统一地建模,对各种媒体的管理与操纵被集中到一个数据库管理系统之中,各种用户的需求被统一到一个多媒体用户接口上,多媒体的查询检索结果可以统一地表现。由于这种多媒体管理系统是统一设计和研制的,所以在理论上能够充分地做到对多媒体数据进行有效的管理和使用。但实际上这种多媒体数据库系统是很难实现的,目前还没有一个比较恰当而且效率很高的方法来管理所有的多媒体数据,虽然面向对象的方法为建立这样的系统带来了一线曙光,但要真正做到还有相当长的距离。如果把问题再放大到计算机网络上,这个问题就会更加复杂。结构示意图如左图所示。多媒体数据库体系结构各种单媒体数据仍然相对独立,系统将每一种媒体的管理与操纵各用一个服务器来实现,所有服务器的综合和操纵也用一个服务器完成,与用户的接口采用客户进程实现。客户与服务器之间通过特定的中间系统连接。该体系结构的示意图如左图所示。3.客户—服务器型多媒体数据库结构多媒体数据库体系结构4.多媒体数据的层次结构多媒体数据的层次结构是从最低层增加对多媒体数据的控制与支持,在最高层支持多媒体的综合表现和用户的查询描述,在中间增加对多媒体数据的关联和超链接的处理。如左图所示。这种对多媒体数据库的层次划分当然是非常概念化的,也是很初步的。多媒体数据库的结构应该能够包含像图像数据库、视频数据库、全文数据库等一系列的专业数据库类型,并能统一地管理和使用,但目前离这一目标还很远。多媒体数据库的基于内容检索随着多媒体技术的迅速普及,我们将大量接触和处理多媒体信息,而每一种媒体数据都具有难以用符号化方法描述的信息线索,例如,图像中的颜色、对象分布,视频中的运动、事件,音频中的音调等。当用户希望利用这些信息线索对数据进行检索时,由于传统的数据库检索采用基于关键词的检索方式,一方面,在许多情况下媒体内容难以用仅仅几个关键词来充分描述,而且作为关键词的图像特征的选取也有很大的主观性;另一方面,用户很难将这些信息线索转化为某种符号的形式。因此,要求数据库系统能够对多媒体数据进行内容语义分析,以达到更深的检索层次,这就是所谓的基于内容的检索。基于内容检索的特点(1)从媒体内容中提取信息线索(2)提取特征的方法多种多样。(3)人机交互进行。(4)基于内容的检索是一种近似匹配。基于内容的检索突破了传统的基于关键词检索的局限,直接对图像、视频、音频进行分析,抽取特征,使得检索更加接近媒体对象。以图像的特征提取为例,可以提取形状特征、颜色特征、纹理特征、轮廓特征等。一般来讲,人对于特征比较敏感,能迅速分辨出目标的轮廓、音乐的旋律等,但对于大量的对象,一方面难以记住这些特征,另一方面人工从大量数据中查找目标效率非常低,而这正是计算机的长处,因此,使用基于内容检索的系统时,人与计算机相互分工配合进行检索。在检索过程中,采用逐步求精的办法,每一层的中间结果是一个集合,不断减小集合的范围,直到定位到目标。这一点与数据库检索的精确匹配算法有明显不同。多媒体数据库的基于内容检索1.基于内容检索系统的体系结构2.基于内容检索的关键技术3.基干内容检索系统的设计和实现基于内容检索系统的体系结构基于内容的检索作为一种信息检索技术,接入或嵌入到其他多媒体系统中,如超媒体(浏览器)系统、会议系统、多媒体信息系统、关系数据库系统等,提供基于多媒体数据内容的信息查询和检索。因此,将基于内容的检索设计为多媒体数据库的检索引擎结构,在体系结构上划分为两个子系统,特征抽取子系统和查询子系统,如左图所示。基于内容检索的处理过程基于内容的查询和检索是一个逐步求精的过程,存在着一个特征调整,重新匹配的循环过程。1)提交查询要求2)相似性匹配3)返回候选结果4)特征调整基于内容检索的关键技术基于内容检索需要解决两类关键技术:多媒体的提取和匹配。相似检索技术。(1)基于内容检索的索引方法(2)内容描述技术1)图像的特征描述颜色特征的提取形状特征的提取纹理特征的提取2)视频检索视频信号的结构化视频分割镜头组织描述建立主运动估计层描述镜头代表帧生成基干内容检索系统的设计和实现随着多媒体技术的迅速普及,Web上将大量出现多媒体信息,例如,在遥感、医疗、安全、商业等部门中每天都不断产生大量的图像信息。这些信息的有效组织管理和检索中都依赖基于图像内容的检索。目前,这方面的研究已引起了广泛的重视。例如,由IBM公司开