嵌入式多媒体技术概述《嵌入式多媒体技术》课程教学内容•多媒体技术:图像和视频编码、视频分析、音频语音编码和分析、图形处理•多媒体技术在嵌入式系统上的实现:多媒体处理平台和外设、优化技术、图形加速本讲提纲•多媒体技术基础•多媒体技术的发展历史•多媒体技术的研究内容•多媒体技术的嵌入式应用纲要•多媒体技术基础•多媒体技术的发展历史•多媒体技术的研究内容•多媒体技术的嵌入式应用媒体•载体:–石头、纸、光盘、无线电、有线网…•产业:–报纸、广播、电视、互联网…•感知:–视觉、听觉、触觉…•形态:–平面、动态、立体…•模式:–文字、图像、视频、动画、VR…•媒体:信息的载体、特定形态或表达方式声音和影像•声音-声波–声调高是因为碰撞耳膜的分子的振荡频率较高,反之,声调就低•影像-电磁波–光:在空间坐标上具有不同亮度的电磁波–颜色:波长(红色为最长的可见波)•波:由波长和频率刻画wavelength声音•声音的基本概念–声音是通过一定介质传播的一种连续波。–主要参数包括:振幅(音量的大小)、周期(重复出现的时间间隔)、频率(指信号每秒钟变化的次数)。–声音按频率分类次声波可听声波超声波20Hz20kHzf(Hz)人类视觉系统•到达视网膜的光线经杆体和锥体细胞转换为神经信号•含有三种不同的锥体细胞,感知光谱的敏感峰值分别在430纳米,540纳米和700纳米(光谱中的蓝、绿、红区域)•中央凹(fovea)•双眼的右视场的图像都被左大脑处理,反之亦然•初级视觉皮质膝距束视束视神经视交叉外侧膝状体右视网膜的太阳穴半左视网膜的太阳穴半视网膜的鼻侧半左眼的视场右眼的视场初级视觉皮质光学波长/频谱与人类视觉LongradiowavesMicrowavesX-raysGammaraysTV,FMInfraredUltraviolet700nm600nm500nm400nm4.5x1014Hz5x1014Hz6x1014Hz7x1014Hz人眼视觉特性与颜色模型•人眼的视觉特性–可见光谱:人眼能看到的光谱范围从380纳米到780纳米。–不同波长对应不同色彩感觉,不同强度和强度分布的光刺激人眼。–人眼的临界闪烁频率为46HZ•颜色科学–色彩是人类视觉对可见光的感知结果,在可见光谱内不同波长的光会引起不同颜色感觉。–三基色原理:将红、绿、蓝三种颜色按照不同的比例进行组合,就可以引起人眼对自然界的全部颜色感觉。•颜色模型–RGB色彩模型:彩色最基本模型,适合于计算机系统;–CMY(CMYK)色彩模型(青色,品红色,黄色,黑色):用于印刷;–YUV(亮度、色差)色彩模型:用于PAL电视信号传输;–YIQ色彩模型:用于NTSC彩色电视广播;–YCbCr色彩模型:数字视频常用的颜色模型。颜色红色橙色黄色绿色青色蓝色紫色波长700620580546480436380RGB颜色模型•RGB颜色模型是彩色最基本的表示模型。•RGB分别代表三种基本颜色红(red)、绿(green)、蓝(blue)三色,每种颜色的亮度大小用数字0-255表示。•通过对R、G、B三个颜色通道的变化以及它们相互之间的叠加可得到各式各样的颜色,共有1670万种颜色。R=G=B=0黑色R=G=B=255白色0R=G=B255灰色其他颜色模型•YUV颜色模型–Y表示亮度信号,可构成灰色图像,U、V表示色度信号,是构成色彩的两分量。–YUV空间相当于对RGB空间做了一个解相关的线性变化。–YUV的最初作为模拟电视系统信号编码•其亮度信号和色差信号分离,容易使彩色电视系统与只对亮度敏感的黑白电视机亮度信号兼容。•PAL制式电视系统就采用该空间进行传输,电视机接收后再转换成RGB空间。•YCbCr色彩模型–YCbCr颜色空间是由YUV颜色空间派生的一种颜色空间,主要用于数字电视系统中。–Y代表亮度,Cb和Cr代表色差。–YCbCr颜色模型考虑的是压缩时可以充分取出冗余量。–从RGB到YCbCr的转换中,输入、输出都是8位二进制格式。模拟视频(电视)•采用隔行扫描技术:先扫奇数行,后扫描偶数行•模拟视频制式–NTSC(美国、日本)30帧/秒,525行/帧–PAL(西欧、中国)25帧/秒,625行/帧–SECAM(俄、法)–注:电影是24帧/秒TV制式NTSCPALSECAM帧频(Hz)302525行/帧525625625亮度带宽(MHz)4.26.06.0彩色幅载波(MHz)3.584.434.25声音载波(MHz)4.56.56.5pal:25帧/秒ntsc:30帧/秒不同模拟电视制式的主要技术参数模拟媒体的问题•模拟媒体形态的介质依赖性强–报纸/图书–磁带/录像带–CD,VCD,DVD–电视频道•模拟媒体的复制和分发费时费力并且容易产生失真媒体数字化•数字化的好处:–通用的存储和传输格式,数字化后处理更方便–适用于光盘存储和远距离传输–准确可靠,没有累计失真,可以无损传输和存储•数字化的问题–采样率失真,信息丢失–与模拟相比,需要很大的空间,例如35mm照片需要420万像素,高清视频码率大于1Gbps,需要压缩–数字悬崖:马赛克、画面暂停丢失•成本降低,应用范围迅速扩大–载体价值:可以逼近零成本–复制成本:几乎为零–分发成本:边际成本逼近零光盘——存储媒体的“模数转换”•光盘的变迁–CD(音乐)(1980)–VCD(CIF视频)(1993)–DVD(标清视频)(1996)–蓝光DVD(高清视频)(2007)•从技术角度看,是数字媒体–从VCD开始,中国跨入数字媒体时代–美国等国家至今还处在录像带与光盘并存时代•从版权角度看,光盘是模拟媒体–仍然在延续利用介质控制版权的模式–但是,数字技术为盗版兴盛提供了条件,网络下载挑战模拟商业模式媒体的数字化•三步骤–采样(Sampling)–量化(Quantizing)–压缩(Compression)与编码(Coding)SamplerQuantizer&CoderanalogsignalsampledsignaldigitizedsignalStep1:采样与失真•通过某种频率的采样脉冲将模拟信息的值取出,变连续的模拟信息为离散信号。•奈奎斯特采样定律:采样频率=原始信号频率的2倍时,采样信号才可以保真地恢复为原始信号Step2:量化与失真•将采样样本的幅度按照量化级别决定其取值的过程。目的是将采样样本的幅度值离散化。•量化之前需要规定量化级,比如8级、16级、256级等例如:画图软件的颜色级别Step3:编码与压缩•编码–用相应位数的二进制代码表示量化后的采样样本的量级。–如果有N个量化级为,那么对应的二进制位数就为log2N。当N=16,二进制需要4位。–经过编码之后,每个样本都表示为相应的二进制代码。•脉冲编码调制(PCM,PulseCodeModulation),完成模拟信号的数字化数字音频•数字音频的三要素–采样频率:根据奈奎斯特理论,采样频率不低于声音信号最高频率的两倍。这样就能把数字表达的声音还原成原来的声音,称为无损数字化。–采样精度:用样本值的二进制位数来表示。位数越多精度越高,数据也越大。量化等级–声道数:使用声音通道的个数。立体声比单声道的表现力丰富,但数据量翻倍。–数据量=采样频率×量化位数×声道数/8(字节/秒),如CD音质:44.1kHzX16位X2=176KB/s。•数字音频的常见文件格式–WAV:是Microsoft/IBM共同开发的PC波形文件。因未经压缩,文件数据量很大。特点是声音层次丰富,还原音质好。–MP3:按MPEG标准的音频压缩技术制作的音频文件。特点是高压缩比(11:1),优美音质。–MIDI(乐器数字接口):是由一组声音或乐器符号的集合,特点是数据量很小,不是自然音数字图像•图像人的视觉系统接收到的,对物体反射或者透射电磁波的分布而形成的图信息,在大脑中形成的印象。用各种观测系统以不同形式和手段观测客观世界而获得的、可以直接或间接作用于人的视觉系统而产生的视知觉实体。数字图像•图像处理:对图像信息进行加工以满足人的视觉或应用需求的行为。•数字图像处理:利用计算机技术或其他数字技术,对图像信息进行某些数学运算和各种加工处理,以改善图像的视觉效果和提高图像实用性的技术。数字图像•图像处理的形式:图像处理系统图像1图像2图像分析系统图像对图像进行描述的信息数字图像•图像处理的目的:提高图像的视感质量,以达到赏心悦目的目的。提取图像中所包含的某些特征或特殊信息,以满足目标识别和计算机视觉等应用需求。对图像数据进行变换、编码和压缩,便于图像的高效存储和传输。数字图像的应用1.医学应用:通过CT及核磁共振、超声波、X射线成像的分析等,可提供医学诊断依据。2.军事应用:航空及卫星侦察照片的测绘、判读,雷达、声纳图像处理,导弹制导,军事仿真等。夜视侦查成像数字视频•视频是一组图像序列按时间顺序的连续展示,是利用人类视觉暂留的原理,通过播放一系列的图片,使人眼产生运动的感觉。像素视频帧帧序列xyt帧序列视频帧像素p(x,y,t)计算机图形•计算机图形的定义:通过计算机将数据转换为图形,并在专门显示设备上显示的原理、方法和技术。1.工业应用:CAD/CAM最终幻想2.娱乐:影视、动漫、游戏3.可视化:大数据的可视化,运动捕捉纲要•多媒体技术基础•多媒体技术的发展历史•多媒体技术的研究内容•多媒体技术的嵌入式应用音频和语音编码技术的发展历史音频和语音编码使用到的基础技术PCM、ADPCM、SB-ADPCM、线性预测、CELP、ACELP心理声学模型、时频变换、窗切换、时域噪声整形、带宽扩展、立体声编码、空间音频编码198019851990199520002005PCMADPCM带宽扩展心理声学模型时频变换参数立体声空间参数编码CELP时域噪声整形ACELP语音编码标准的发展历史时间编码算法体现的标准1972年PCM脉冲编码调制Pulse-CodeModulation每秒取样8000次;每次取样为8bit个位,总共64kbpsG.7111988年SB-ADPCM子带-自适应差分脉冲编码Sub-BandAdaptiveDifferentialPulseCodeModulationG.7221988年RPE-LTPRegularPulseExcited-LongTermPredition-LinearPredictiveCoding规则脉冲激励—长时预测—线性预测编码GSM1990年ADPCMG.726,7271991年VSELP向量和激励线性预测编码VSELP(VectorSumExcitedLinearPredictionIS-54、JDC(美数字蜂窝)1995年MPMLQ、ACELPMultiPulseMaximumLikelihoodQuantizationG.723.11996年CS-ACELP共扼结构—代数码激励线性预测编码ConjugateStructure-AlgebraicCodeExcitedLinearPredictionG.7292000年ACELPAMR-WB(G.722.2)音频编码标准的发展历史时间编码算法体现的标准1982年PCMCD1992年感知音频编码MPEG-11997年感知音频编码MPEG-2AAC1999年感知音频编码MPEG-4AAC2004年ACELP/TCX、带宽扩展参数立体声AMR-WB+2006年空间音频编码MPEGSurround视频编码技术的发展历史AdobeSystems•创始人:•创建时间和地址:1982年和美国加州CharlesGeschke(查尔斯·格什克)JohnWarnock(约翰·沃诺克)AdobeSystems—起步•初创技术:PostScript页面描述语言•应用领域:打印机,AppleLaserWriter(1985)是第一款带有PostScript的打印机•盈利模式:PostScript实现的高昂授权费用AdobeSystems—发展•IPO:August20,1986,NASDAQ•Photoshop:1987年,托马斯·