数字媒体技术概论--媒体传输与管理2媒体分发和传输为什么需要研究媒体传输(而不是仅仅采用传统的文件传输方法)?与其他数据一样,多媒体数据存储在文件系统中。但多媒体数据的访问有特别的时限要求。例如,视频必须以每秒24-30帧的帧率来显示,而视频的传输和分发必须确保此帧率。即视频传输有QoS(服务质量)要求。网络带宽制约带宽的三个因素:1、服务端接入带宽2、客户端接入带宽3、从服务端到客户端之间的带宽在线音乐或影片的不通畅原因:1宽频问题实际中的网络速度是理论上值的10%-30%之间2不稳定的连接速度网络服务端、线路、接受端不稳定性媒体分发和传输媒体流化/流媒体Streamingisdeliveringamultimediafilefromaservertoaclientsuchthatitcanbeprocessedasasteadyandcontinuousstream-typicallythedeliveroccursoveranetworkconnection.流媒体(可流化媒体):Video、Audio、PowerPoint、Flash/Shockwave、VR、3DSERVERCLIENTstream媒体分发和传输流化方式分类持续下载(Progressivedownload):当多媒体文件分发并存储到客户端后才支持媒体重放;实时流化(Real-timestreaming):多媒体文件由流媒体服务器向客户端连续、实时传送,客户不必等到整个文件全部下载完毕7媒体分发和传输媒体分发方式单播(unicast):源(服务器)和目的地(客户端)之间进行一对一的传输。如果目的地量太大,源和网络的负载能力有限,会超负荷造成播放质量下降。多播流(Multicast):源和目的地之间进行多对一的传输,网络中的同一多播组中的目的地共享同一信息流,可以有效的节省网络带宽。广播(Broadcast):流媒体从一个源(服务器端的应用)发送出去后,同一网段上的所有目的地(客户端应用)均可以接收到,广播可以看作组播的一个特例。8媒体分发和传输流媒体传输协议实时传输协议(RealTimeTransportationProtocol,RTP)实时流协议(RealTimeStreamingProtocol,RTSP)实时传输控制协议(RealTimeTransportationControlProtocol,RTCP)资源预约协议(ResourceReservationProtocol,RSVP)RTSP协议流媒体的三大平台公司MicrosoftRealNetworksAppleRealNetworks最早的流媒体播放软件是RealNetworks的RealPlayer。RealPlayer最早称为RealAudio,仅播放音乐文件。兼并了Xing公司(第一个采用串流式通道影音播放程序Streamworks)。RealPlayer7.0、8.0、9.0、….RealOnePlayer与Realplayer同属于Real公司产品。RealONEPlayer是新的视音频流播放系统,用以取代该公司三种主打产品,即RealPlayer、RealJukebox和GoldPass。RealONE一大特点就是多层画面功能,即当一个屏幕播放影碟或歌曲的时候,旁边将有一个侧屏幕提供有关影碟或歌曲的信息或广告。RealONEPlayer是RealPlayer和RealJukebox的结合体,与XP系统兼容性很好。RealONE在播放网络视音频流时,表现更佳MicrosoftWindowsMediaPlayer4.0、5.0、6.0、7.0、8.0、9.0、10.0、WindowsMediaPlayer11-windowsxpWMP9.0AppleQuickTime6QuickTimeProForWindowsv7.1.0流媒体文件格式的分类1、RM格式:这是由RealNetworks公司开发的一种新型流式视频文件格式。2、MOV格式:MOV也可以作为一种流文件格式。QuickTime能够通过Internet提供实时的数字化信息流、工作流与文件回放功能。3、ASF格式:这是由微软公司开发的流媒体格式,是一个在Internet上实时传播多媒体的技术标准。流媒体的应用互联网的迅猛发展和普及为流媒体业务发展提供了强大的市场动力,流媒体业务正变得日益流行。远程教育宽带网络视频点播互联网直播视频会议远程教育在远程教育中,最基本的要素是把信息发送到学生那一段去,而传送的数据是多元化的,视频,音频,文字,图片等。传递的速度等问题。流媒体下的教育信息化水平。宽带网络视频点播宽带网络视频点播(VOD,VideoOnDemand)。最初应用于局域网和有线电视网中。存在问题:数据量、传输的速率、服务器流媒体的集群和解码技术互联网直播卫星直播、现场直播等之外的直播手段之一。体育直播。新浪体育直播。视频会议视频会议是流媒体的一种商业用途。通过流媒体可以实现点对点的通讯,最常用的就是视频电话。媒体分析与检索媒体检索方面存在的挑战不能直接进行基于文本的查询和检索;怎样分析或描述媒体(图像/视频/音频)内容和语义;如何索引图像/视频/音频;快速检索处理和准确的检索结果;VideosegmentsStillregionsAudiosegmentsMovingregions27搜索引擎概念信息管理的传统方式树状目录优点:简单,直观缺点:管理困难,协作困难需要“搜索”根据一定线索查找需要的信息“线索”:文件的部分内容搜索引擎根据内容管理信息的方式28搜索引擎概念搜索引擎扁平式信息管理:从“线索”直接到“信息”北京芙蓉姐姐美眉流得滑…………29为什么关注搜索引擎直接原因:搜索引擎可以做很多事情查找所需要的各种信息论文、标准、软件、音乐、电影……企业运作科学研究学习进修娱乐休闲30为什么关注搜索引擎直接原因:搜索引擎可以做很多事情查找所需要的各种信息为什么需要查找?我们不知道需要的东西在哪里为什么我们不知道?因为东西太多了31为什么关注搜索引擎间接原因:信息爆炸中文WEB:75TB左右互联网(2002):520PB左右(1PB=1024TB)浅层WEB:167TB深层WEB:60-89PBE-mail:430PB即时消息:274TB来自“Howmuchinformation2003”比较:常用磁盘:80-500GB常用盘阵:0.5-10TB文件系统:4-32TB数据中心:40-100TB已实际安装的分布式文件系统:10-100TB32为什么关注搜索引擎间接原因:信息爆炸搜索引擎把海量信息有序地组织起来,提供方便的检索手段允许人们找到需要的信息终极原因:搜索引擎的重要性控制了搜索引擎就控制了互联网33为什么关注搜索引擎终极原因:搜索引擎的重要性Google:$159BIntel:$119BYahoo:$38BMicrosoft:$262BWal-mart:$199B百度:$8.44B新浪:$2.35B搜狐:$1.79B联想:$6.11B来源:finance.google.com,2008.2.2134为什么关注搜索引擎搜索引擎现状网页搜索:Google占有垄断地位日搜索量Google:90M,MSN:28MYahoo:60M,AOL:16M,Ask:13M,其它:6M来源:searchenginewatch.com,2006.7多媒体搜索:技术尚不成熟GoogleImageYoutubeFlickr35为什么关注搜索引擎发展策略日本的发展策略网页搜索:美国已经领先,放弃多媒体搜索:尚可一争,大力支持我们的发展策略比美国做得更好!现有搜索引擎仍然不完美人才,市场36搜索引擎结构最终目标:方便用户获取需要的信息信息1.获取/存储2.理解3.索引4.输入5.显示37搜索引擎技术数据获取与存储数据获取:Spider,Crawler,Robot如何并行下载?哪些数据是新的,哪些是已有的?新增加的页面部分更新的页面论坛、blog现有搜索引擎未见公开报道使用何种技术主要是工程性问题38搜索引擎技术数据获取与存储数据存储一致性:大规模并行访问不破坏数据可靠性:硬件损坏不丢失数据扩展性:总体性能与硬件成线性关系分布式文件系统Google:GFSLustre39搜索引擎技术理解提取数据的语义数学上如何表示语义?如何把数据从原始形式转换成所需要的形式?矢量模型文字串切分成词每个词作为一维,词的出现频率作为度量标准机器学习技术提取文档的特征并进行分类40搜索引擎技术索引找到与某个语义相关的文档倒排文件快速找到B树,Hash表更快并行查找,限时合并41搜索引擎技术输入获取用户的需求关键字检索分类浏览显示组织相关信息输出给用户相关项列表重要性排序:PageRank摘要42搜索引擎技术尚存在的问题输入:关键字检索并不方便假设1:用户很清楚自己需要什么可能例外:新闻检索,多媒体检索假设2:用户有能力把需求转换成合适的关键字大多数用户做得并不好某些需求难以表示成文字,特别是多媒体检索中假设3:系统有能力把文档转换成合适的关键字多媒体文档:世界难题文本文档:关键字也不一定是合适的语义43搜索引擎技术尚存在的问题理解:计算机并不真正理解文档的内容多媒体文档只能理解很小一部分语义文本文档去除垃圾内容(广告、目录等)提取结构化信息信息之间的关联44搜索引擎技术尚存在的问题显示综合信息提取与表示海量信息表示直观方便浏览……我们仍然有机会!45媒体分析与检索基于内容的媒体分析与检索(CBR)特征提取:提取反映图像/视频/音频内容的颜色、纹理等视觉特征和音频特征;语义提取:提取反映图像/视频/音频语义的描述信息;索引组织与描述:对提取的特征和描述信息进行高效索引;检索模型:支持不同类型的媒体查询与检索模式。46媒体分析与检索媒体检索系统框架StorageBrowseAVDescriptionFeatureextractionManual/automaticTransmissionEncoding(fortransmission)Decoding(fortransmission)FilterPushSearch/queryPullConf.pointsHumanormachine47基于内容的图像检索(CBIR)CBIR:基于图像颜色、纹理、形状等特征的相似性进行检索示例:颜色相似的图像48基于草图(Scratch)的图像检索49视频检索不同的检索用线索50镜头检测关键帧提取步骤:1.视频分割为镜头;2.为每个镜头计算关键帧或代表性的帧;3.基于样例的检索关键帧提取和CBVR51面向检索的视频标题文字提取52RawAudioTextExtractionRawVideoSILENCEMUSICelectriccarsaretheyarethejuryeverytoyownerhopestoplease基于语音识别的视频检索53HappyBirthdayNotestartsNoteendsNotestartsNoteends音符(note)有两个重要属性:–音调(Pitch)–持续时间(Duration)–音符可以用符号描述DoReMiFaSoLaSiDoNotenameNotepitchStaff音频检索:哼唱找歌54WavetoSymbolsApproximateStringMatchMusicDatabaseIndexingFeatureExtractionVariousMusicFormatstoSymbolsMusicDatabaseHum