多媒体元数据研究

rainecho
1 ℃
2019-10-12

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

多媒体元数据研究1、多媒体资源AudioVisualMetadataECHO(EuropeanChroniclesOn-line，欧洲编年史在线)MEPG-7MPEG-21VRACoreCategoriesEAD(编码文档描述)2、数字图像资源MOA(theMakingofAmerican)2数字图像元数据CDL数字图像元数据Dig35NISO/CLIR/RLG的图像技术元数据4、MPEG系列标准（1、2、4、7、21）MPEG是专门从事多媒体音、视频压缩技术标准制定的国际组织，成员包括来自近30个国家、200多个公司的400多位专家。该组织自1988年以来，已经制定了一系列国际标准，其中MPEG-1、MPEG-2已为人们所熟知，它们为VCD、DVD及数字电视等产业的发展奠定了基础。目前正在制定的MPEG-4、MPEG-7和MPEG-21将为多媒体数据压缩和基于内容检索的数据库应用提供一个更为通用的平台，必将对下一代视、音频系统和网络应用产生深远的影响。MPEG-1：存储和回放MPEG-1制定于1993年，是针对1.5Mbps以下数据传输率的数字存储媒介运动图像及其伴音编码的国际标准，主要用于在CD-ROM上存储同步和彩色运动视频信号。MPEG-2：数字电视MPEG-2出台于1995年，它是针对HDTV和DVD等制定的3Mbps～10Mbps的运动图像及其伴音的编码标准。它的出现使得基于CD-ROM的交互式电视和数字电视成为了可能。MPEG-4：基于对象的存取MPEG-4于1999年成为国际标准。它和MPEG-1和MPEG-2的重点在于编码效率上不同的是，MPEG-4的目标是提出一种新的方式来传输、访问和操作数字视听数据。MPEG-4计划为多种通讯规范提供一种普遍的技术解决方案，最终消除它们之间的差别。与MPEG-1和MPEG-2的另一点不同是，MPEG-1和MPEG-2是基于帧的规范，而MPEG-4则是基于对象的规范。4.1MPEG-7：多媒体内容描述随着Internet的普及和网络带宽的增加，产生了大量的多媒体数据，如何在浩如烟海的信息中快速、容易地获得自己所需的内容则成为当前必须解决的问题。在此需求下，MPEG-7应运而出。MPEG-7力求能够快速且有效地搜索出用户所需的不同类型的多媒体信息。该标准主要致力于视听数据的信息编码表达，换句话说也就是集中在对多媒体材料描述的通用接口的标准化上。MPEG-7的功能与其他MPEG标准互为补充。MPEG-1、MPEG-2和MPEG-4是内容本身的表示，而MPEG-7是有关内容的信息，是比特的比特。MPEG-7中的主要概念数据(Data)是用MPEG-7描述的视听资料，不考虑它们的存储、编码、显示、传输、媒介或技术。该定义非常广泛，包含图形、静止图像、视频、影片、音乐、语音、声音、文本和其他相关的AV媒体。----特征(Feature)指数据的特性。特征本身不能比较，而要用有意义的特征表示(描述子)和它的实例(描述值)。如图像的颜色、语音的声调、音频的旋律等。----描述子(Descriptor，D)是特征的表示。它定义特征表示的句法和语义，可以赋予描述值。一个特征可能有多个描述子，如颜色特征可能的描述子有：颜色直方图、频率分量的平均值、运动的场描述、标题文本等。----描述值(DescriptorValue)是描述子的实例。描述值与描述模式结合，形成描述。----描述模式(DescriptionScheme，DS)说明其成员之间的关系结构和语义。成员可以是描述子和描述模式。DS和D的区别是：D仅仅包含基本的数据类型，不引用其他D或DS。如对于影片，时间结构化为场景和镜头，在场景级包括一些文本描述子，在镜头级包含颜色、运动和一些音频描述子。----描述(Description)一个描述由一个描述模式(结构)和一组描述值组成。----编码的描述(CodedDescription)是对已完成编码的描述，满足诸如压缩效率、差错恢复和随机存取的相关要求。----描述定义语言(DescriptionDefinitionLanguage，DDL)是一种允许产生新的描述模式和描述子的语言，允许扩展和修改现有的描述机制。----为了更好地理解这些术语，请参看图1。图中解释了MPEG-7在实际系统中的位置。圆角框表示处理工具，矩形框表示静态元素，阴影部分包含MPEG-7标准的规范元素：DDL提供建立描述模式的机制，然后将描述模式作为基础，产生一个描述。MPEG-7的范围下图是MPEG-7处理链的一种高度抽象示意图，用于解释MPEG-7的范围。它包括特征抽取(分析)、描述本身和搜索引擎(应用)。MPEG-7对视觉数据的描述MPEG-7具体对视觉方面的描述子和描述模式有以下方面的要求:(1)特征类型----视觉描述允许以下特征(与查询中使用的信息类型有关)：颜色、视觉对象、纹理、轮廓(草图)、形状、静止和动态图像、体积、空间关系(相对于图像和图像序列中的对象空间和拓扑关系，这个关系是空间合成关系)、运动(如视频镜头中的运动，用于利用时间合成信息来检索等方面)、变形(如对象的弯曲)、视觉对象的源和它的特性(如源对象、源事件、源属性、事件、事件属性等)、模型(如MPEG-4SNHC)。(2)利用描述进行数据可视化----MPEG-7数据描述应该容许被索引数据或多或少地粗略可视化。(3)可视数据的格式----支持以下可视数据格式：数字视频和电影(例如MPEG-1/2/4)、模拟视频和电影、电子形式的静态图像(如JPEG)或纸上的图像、图形、3D模型以及与视频关联的编辑数据。(4)可视数据类型----可以是自然视频、静态图像、图形、动画、三维模型、编辑信息。MPEG-7对听觉数据的描述(1)特征类型----频率轮廓线、音频对象、音色、和声、频率特征、振幅包络、时间结构(包括节奏)、文本内容(语音或歌词)、声波近似值(通过哼唱一段旋律或发出一种声音效果来生成)、原型声音(典型的用于示例查询)、空间结构(用于多通道声源，如立体声、5.1通道等，每个声道有特定的映像)、声源和它的特性(例如源对象、源时间、源属性、事件、事件属性和典型的关联场景)、模型(如MPEG-4SAOL)。----(2)描述数据的听觉化----类似视觉数据的要求。----(3)听觉数据格式----数字音频(如MPEG-1音频、CD)、模拟音频(如录音带介质)、MIDI(包括一般的MIDI和Karaoke格式)、基于模型的音频、产品数据。----(4)听觉数据类----声音轨迹(自然音频场景)、音乐、原子声音效果(如掌声)、语音、符号音频表示(MIDI、SNHC音频)、混音信息(包括效果)。4.2MPEG-7的“拉”应用1）．视频数据库的存储和检索----电视和电影档案中保存有大量的各种格式的多媒体资料，如数字、模拟磁带和胶片、CD等，这些资料不一定有描述信息(元数据)，即使有也大都是简单的文本描述，它们以专用的格式存储在数据库中，因此，需要按照国际标准格式进行存储和交换。另外，要对大量旧的模拟视听资料进行数字化，在数字化和压缩阶段，可以在数据库中使其包含基于内容的索引特征。对于新的视听媒体，在视频生产的各个阶段可以把描述信息附加在视频流上，从而极大地提高了用手工进行有限词汇注释的质量和生产率。“拉”应用2）．专业媒体制作方面的图片和视频提交----演播室需要向电视频道提交适当的视频，另外还需要编辑一段库中的视频，如编辑记录片和广告片等。----在这个应用中，用户是专业性的。演播人员可以基于元数据和视频片段来提交一个完整的视频，可以基于客观特性和主观特性来查询出想要的视频片段并用于编辑。查询也可以作用于分布数据库，以获得视觉、版权和价格信息，以及源视频资料的技术质量数据。----在设计方面，静止图片也具有相似的应用和需求。Web设计人员并不都是做新的设计，有时也在网络上选择现有的图片用于Web站点的设计。在网络上，设计人员可以通过基于内容的检索方法挑选想要的素材。其他设计领域具有相似的可视搜索用途。“拉”应用3）．商业音乐应用(卡拉OK和音乐销售)----卡拉OK在亚洲极其流行。一般是根据歌名和原唱者姓名检索，但也常有记不清歌名的情况。这时可以利用音频内容检索技术，业余歌手哼几句记忆的曲调，让计算机查找相应的歌曲(或给出相似歌曲的列表)。----相似的与音乐销售有关的应用是把可选择的音乐库扩展到用户家里。人们可以容易地访问在线数据库，用基于内容的方式(结合歌手名、风格、歌名、创作年代等)，查找感兴趣的歌曲和音乐作品，并付费下载。“拉”应用4）．声音效果库----对于要使用大容量声音效果数据库的艺术家和声音设计人员，常规的数据库管理和搜索方法是不够的。一个声音设计人员要求从声音效果库中选择出要求的声音效果，其选择方式可能是由设计人员提供原型化的声音和音频特征，甚至可以发出类似要查找的声音，通过拟声方式查询。-5）．历史语音数据库----可以通过口头关键词、关键事件、说话人、地点、日期，或以上属性的组合来搜索历史数据库中的音频录音和视听演讲。这种应用也可以辅助教育或新闻业应用。例如，用户说一句关键词：Ihaveadream,系统把语音转换为文本关键词，查找出马丁·路德金的录音和演讲文本。“拉”应用6）．通过听觉事件进行电影场景检索----许多视觉场景是与声音事件相关的。例如在喜剧电影或电视场景中，人们可以通过记忆的对话和台词来检索电影的场景。另外，还可以通过明显的声音事件来检索，例如通过观众的欢呼声和解说员的解说词检索足球进球的场景，通过爆炸声检索战斗和破坏场景等。音轨中的听觉事件也同样具有这样的检索能力。该应用利用语音的描述和声音效果的描述来实现检索。7）．商标库的注册和检索----通常情况下，商标是二维图像，包含文本、图画或图片以及象征性的颜色。二维商标可以分为三类：文字商标(仅仅包含文字，适合用文本注释来描述)、图案商标(仅仅包含图形或象征性标志，需要形状描述)、组合形式的商标(包含字符和图形)。4.3MPEG-7的“推”应用与以上的“拉”应用相反，下面的“推”应用类似于广播和Web广播。“推”应用用到“选择”和“过滤”，而不是“索引”和“检索”，因此有非常不同的要求。通常它们涉及到流描述，而不是存储在数据库中的静态描述。“推”应用1）．用户代理驱动的媒体选择和过滤----过滤与搜索正好相反。搜索涉及“拉”信息，而过滤意味着“推”信息。搜索请求“包含”那些信息，而过滤“排斥”指定的数据，但二者都从相同的元信息中获得好处。广播媒体这种形式正向转移，使这种典型的“拉”媒体同时具有广播的能力。----面向消费者的选择技术可以用于个人化视听节目的应用。在收集与个人相关的新闻节目方面，这甚至可以做到比典型的VOD更进一步。例如，一个面向内容生产商的选择技术可以在片段和镜头级从数据库中收集原始资料。“推”应用2）．个人化电视服务--在广播领域，内容的描述可以辅助广播数据的选择，所选择的广播数据形式可以是即时的或以后要观看的，或录像形式的。对于个人化广播，提供给用户的数据可以按照用户自己的喜好来对广播流进行过滤，其形式可以是自动方式的，例如根据地理位置、年龄、性别或以前的选择行为自动选择，或是半自动方式(基于预定的设置)。结合NVOD(准视频点播)服务，可以基于关键帧实现步进/后退操作，加速节目的表现。对于未来的广播服务，与节目中特定事件相关的交互功能也很重要。3）．智能多媒体表现----随着可获取信息的大量增加，人们正在寻找一种新的方式，自动地表现这些数据。它可以通过把上下文、用户、应用和设计原则的知识与显示信息的知识结合起来完成。灵活地应用这些知识，就可以设计一种智能多媒体表现系统。“推”应用4）．个人化浏览、过滤和搜索----这种应用背景是在消费者的家里。使用一种灵巧装置将浏览、过滤和搜索功能集于一体。平常，这个灵巧装置按照主人的设置(爱好)自动过滤广播数据，录下感兴趣的节目，等到主