第5章多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术多媒体通信是信息时代通信的主题,随着互联网业务的迅速发展,电信公司和电视公司都在其运营的网络中开放互联网通信业务。多媒体技术的发展离不开相关技术的支持,如媒体输入输出技术、超媒体技术、网络同步技术、数据存储技术等。下面将逐一介绍这些在多媒体技术发展过程中发挥着重大作用的关键技术。多媒体通信技术:多媒体通信系统中的关键技术5.1多媒体信息输入输出技术•多媒体计算机所涉及的输入输出技术包括视频图像技术、音频技术、语音技术、图形技术和文本技术等。•多媒体系统通过一些具有特定功能的卡来支持媒体数据的输入输出。(如视频卡、声卡、VGA与TV转换卡、图形加速卡、光盘接口卡等)•多媒体计算机正是通过这些卡,完成与各种外部设备的连接,从而形成一个制作和播放多媒体应用的工作环境。多媒体通信技术:多媒体通信系统中的关键技术5.1.1视频信息输入输出技术•视频卡是多媒体计算机用来完成视频信息输入输出功能的主要器件。•主要种类:–电视接收卡–视频转换/捕获卡–视频编码卡–MPEG卡实际应用中常把多种功能集成于一块卡中多媒体通信技术:多媒体通信系统中的关键技术1.视频卡的基本工作原理选择视频源ADCVRAM显示器DACVGA卡视频处理芯片PC总线视频源0视频源1视频源2录像机影碟机摄像机I/O多制式数字解码器RGB用于视频信号捕获、播放和显示的专用控制芯片可以完成输入信号的裁剪、比例变化、VGA同步、色键控制、PC总线接口和对帧存储器的操作视频随机访问存储器数模转换多媒体通信技术:多媒体通信系统中的关键技术2.常用视频卡•视频接收卡(电视接收卡)–一般与视频转换/捕获卡组合在一起电视信号高频调谐器模拟视频信号视频数字化帧存储器VGA卡数字视频信号显示器模拟信号VGARGB数字信号主要功能:接收电视台发送的电视信号;将模拟电视信号数字化后叠加显示在VGA中并完成最后的显示。接收电视台发送的电视信号多媒体通信技术:多媒体通信系统中的关键技术•视频转换/捕获卡–视频转换卡完成计算机视频信号和电视视频信号间的转换•完成由计算机的VGA信号到各种标准制式的电视信号的转换并在电视机上播放或进行录像(PC-TV,VGA-TV)•完成将标准的各种制式电视信号转换成计算机屏幕上显示的VGA信号(TV-VGA)该类卡在电视上的显示质量不能与专业视频卡相比,且有些转换卡不能在VGA和TV上同时输出视频图像。多媒体通信技术:多媒体通信系统中的关键技术•视频转换/捕获卡–视频捕获卡主要功能是从视频图像信息中实时或非实时地捕获静态或短时间的动态视频图像。视频转换/捕获卡的基本原理:A/D转换解码YUV矩阵变换RGB帧存储器VGA卡颜色查找表D/A转换器显示器VGA输入视频信号输入多媒体通信技术:多媒体通信系统中的关键技术•MPEG卡–压缩卡:对静止和动态图像按照相应的标准进行实时和非实时的压缩和还原处理。–解压缩卡(影碟卡):把MPEG文件进行解压缩并恢复播放。它可以播放MPEG-1标准压缩的数字影视片(如VCD)。•视频卡发展方向–与影视技术的结合:可以在一块高档卡上集成视频输入输出、压缩和解压缩、特技效果及视频编辑功能。–与网络通信技术结合:完成多媒体视频会议、可视电话和多媒体通信功能多媒体通信技术:多媒体通信系统中的关键技术3.摄像头•针对网络视频应用•模拟摄像头:获得的视频信号必须通过计算机的视频卡数字化并压缩才能送进计算机进行处理。•数字摄像头:直接捕捉视频图像,然后通过USB或IEEE1394高速接口输入计算机。•工作原理:外界景物通过镜头生成光学图像,再投射到图像传感器表明转换为模拟信号,经A/D变换转为数字图像信号,送到数字处理芯片DSP进行加工,在通过与计算机的接口传输到计算机中进行处理,最后通过显示器显示。多媒体通信技术:多媒体通信系统中的关键技术•主要性能指标–摄像器件:CCD(成像质量高),CMOS–像素分辨率:30万、130万。。。–颜色深度:24真彩、30真彩。。。–视频捕获速度:帧率,影响流畅度–接口方式:USB速度快,连接简单,即插拔多媒体通信技术:多媒体通信系统中的关键技术4.投影仪•多媒体显示设备•分类–CRT:实现最早、应用最广、技术成熟、分辨率高亮度较低、机身体积大、对焦汇聚调整复杂–LCD:体积小、重量轻、便携、亮度高、色彩丰富–DLP:画面质量稳定、图像显示细腻多媒体通信技术:多媒体通信系统中的关键技术•技术指标–亮度–分辨率–灯泡寿命多媒体通信技术:多媒体通信系统中的关键技术5.1.2音频信息输入输出技术•实现:音频卡(声卡),安装在PC内部使PC发出各种声音的硬件板卡,是PC进行所有与声音相关处理的硬件设备。•音频卡工作原理混音器总线接口芯片AD数字音频处理芯片音乐合成器话筒输入线性输入扬声器输出线性输出MIDI接口CD接口计算机总线为各个部分与总线间提供握手信号,缓冲(声卡与总线间指令和数据的传送)记录播放用软件控制音量将数字音频的波形数据和MIDI信息合成为声音多媒体通信技术:多媒体通信系统中的关键技术•音频卡的主要功能–录制和播放声音文件–对声音文件进行编辑和合成•倒播、增加回音、淡入淡出、循环放音、交换声道等–对数字声音文件进行压缩和解压缩–MIDI音乐录制和合成•利用计算机完成对外部电子乐器的操作和控制–文语转换和语音识别•让计算机朗读文本和让计算机听懂声音信息多媒体通信技术:多媒体通信系统中的关键技术•声卡的主要作用是对声音信息进行录制和回放•可支持的采样频率–8kHz,11.025kHz——针对一般语音质量的要求–16kHz,22.05kHz,32kHz——针对普通音乐效果–44.10kHz,48kHz——针对高保真音乐效果多媒体通信技术:多媒体通信系统中的关键技术5.1.3语音识别和语音合成技术•语音识别技术–狭义语音识别:排除不同人的发音差异,提取代表语音的共性特征。–说话人语音识别:寻求说话者的个性特征以辨别说话人的身份。•最早的语音识别系统出现在1955年(Bell)。随着识别技术的发展,一些研究机构相继推出语音识别系统:IBM的ViaVioce系统;剑桥大学的HTK系统;微软的Whisper系统等。多媒体通信技术:多媒体通信系统中的关键技术•语音识别技术预处理特征提取模式匹配训练模式库语音输入识别结果语音信息的采样、反混叠带通滤波、去除个体发音差异和去除设备环境引起的噪声完成语音中反映本质特征的声学参数从原始语音样本中去除冗余信息聚类按照一定的规则和专家知识计算输入特征与库存模式之间的相似程度,进而判断输入的语意信息多媒体通信技术:多媒体通信系统中的关键技术•语音识别系统的分类–按可识别词汇量的多少:100以下,100-1000,1000以上–按语音的输入方式:孤立词、连接词、连续词–按发音者类型:特定人、限定人、非特定人–按发音者的声纹:根据语音识别说话人身份多媒体通信技术:多媒体通信系统中的关键技术语音识别过程•基于模式匹配方法的语音识别基本过程分为两步:•第一步,建立标准语音库(标准语音模板),系统首先建立有若干训练语句的标准语音数据库供训练者使用,即训练;•第二步,将输入的语音信号经过处理后与标准语音模板相匹配,即识别,包括失真估计、识别决策和专家知识运用;•建立语音模板的方法:根据语音识别系统的设计要求选择一种识别方法;然后从输入的语音信号中提取这种识别方法要求的语言特征参数;将这些特征参数存储起来形成语音模板。多媒体通信技术:多媒体通信系统中的关键技术语音识别过程•常用的模板匹配方法是概率统计方法。•它将未知语音的特征参数与模板一一比较,根据失真测度最小的原则判断匹配结果。•当决策失败,可运用专家知识做出判决。整个训练和识别过程如图语音信号输入预处理特征分析与提取模式匹配识别决策识别输出标准模板专家知识→→→→→多媒体通信技术:多媒体通信系统中的关键技术语音识别过程•语音识别由三个技术模块组成,即特征提取、模式匹配和标准模板库生成。•这三大技术模块涉及的技术包括三个方面:•1、语音识别单元的选择•2、特征数据类型的选择•3、模式匹配方法与模型训练技术多媒体通信技术:多媒体通信系统中的关键技术语音识别技术的发展趋势•语音识别技术经过全球半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。在这样的水平基础上,语音识别技术开始尝试从实验室演示系统走向实用化商品。但是语音识别技术要进入成熟的商业运用还有一段艰难的路程,还必须在很多方面取得突破性进展。多媒体通信技术:多媒体通信系统中的关键技术突破性进展表现为:1.提高可靠性2.增加词汇量3.应用拓展4.降低成本减小体积多媒体通信技术:多媒体通信系统中的关键技术目前,全球语音技术市场规模超过30亿美元,近年来年增长率保持在25%以上,未来语音识别市场被看好,其中电信行业(VoIP等),移动应用领域(手机、学习机、平板电脑、车载系统等移动设备),都会呈现出爆发式增长。下面列举几个电信及移动应用领域成功的语音产品/软件。1、电信行业:电话银行系统2、移动应用领域:Siri3、生活领域:手机“导游”多媒体通信技术:多媒体通信系统中的关键技术21世纪是信息和网络的时代,Internet、宽带IP网、公用电话网、移动电话网把全球各地连接起来,巨大的信息资源能够通过网络在短暂时间内迅速扩散到全球范围,几乎所有人与机器进行信息交互相关的需求和服务,例如自然口语对话、信息索取、电子商务、数字图书馆、远程教育、语音翻译等,都可能会在网络上实现。语音识别技术研究和应用的重要发展趋势是,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,更加方便地享受到更多的社会信息资源和现代化服务。人类将越来越多地体验到语音识别技术可能的便捷优点。多媒体通信技术:多媒体通信系统中的关键技术语音合成•什么是语音合成?–语音合成就是让计算机象人那样讲话。–人们用语言进行交流时,用声音来表达自己的意向、情感。例如:如某人问你:你愿意和我一起去看电影吗?你的回答可能是:“是的,我很高兴和你一起去看电影。”(肯定,高兴)“抱歉,我不能和你一起去看电影,因为我要去开会。”(无可奈何)“不去,还是你自己去看吧。”(否定)–这三句话表达了不同的意向和情感。计算机也应该像人那样来回答。多媒体通信技术:多媒体通信系统中的关键技术•语音合成的研究目标是:可懂清晰自然具有表现力•研究意义–语音合成技术可以大大改善人机交互环境•计算机反馈信息的方式是屏幕显示。这种单调的信息输出方式给用户带来许多不便,特别是长时间地注视显示屏使人疲劳,降低人获取信息和理解信息的能力。•网络环境的输出设备多种多样:这种枯燥单一的交互方式影响了计算机的应用。•计算机语音输出能提供声文并茂的信息表示方式,可以改变人机交互“默默无闻”的状况,为计算机的普及应用创造更好的条件。–将“能看到”、“看不到”的信息变成“可听”的信息–将“非即时获得的信息”变成“即时可听”的信息多媒体通信技术:多媒体通信系统中的关键技术•语音合成是一门跨学科的前沿技术,涉及到下列相关研究领域:•它将上述领域的研究成果结合在一起,使计算机具备说话的能力。自然语言理解语言学语音学信号处理心理学声学…多媒体通信技术:多媒体通信系统中的关键技术语音合成技术•实现的方式–录音/重放模式–利用数字信号处理技术,采用参数合成的方式来实现语音合成•语音合成的三个层次–从文本到语音–从概念到语音–从意向到语音多媒体通信技术:多媒体通信系统中的关键技术•有限词汇的计算机语音输出–语音报时、公共汽车报站、叫号系统•基于语音合成技术的文语转化(TTS)–除了完成文字到语音的映射外,还要完成对书面文字的理解以及对语音韵律的处理多媒体通信技术:多媒体通信系统中的关键技术•文语转换技术–有声电子文档、信息电话查询系统、基于计算机的办公教学娱乐多媒体软件、嵌入式操作系统。。–包括文本分析、韵律生成、语音合成•文本分析:使