数字媒体技术基础第一讲王荣刚北京大学信息工程学院2014.09.14一个典型的视频通信系统采集处理传输显示2课程介绍(1)数字媒体技术基础开课目标数字媒体技术相关的基本概念和基本原理培养实际系统和模块的设计能力主讲教师王荣刚副教授,A301,26032013,rgwang@pkusz.edu.cn辅讲教师田永鸿教授段凌宇教授王振宇工程师赵洋博士后助教王悦名,A327,1272864784@qq.com,170972377323课程介绍(2)主要授课内容视频编码技术视频压缩原理和标准视频处理技术视频复原与增强视频内容分析视频信号理解4参考资料教科书《视频编解码技术原理》,高文、赵德斌、马思伟著,科学出版社,2010.11《VideoCodecDesign》,IainE.G.Richardson,JohnWiley&Sons,Ltd,2002《VideoProcessingandCommunications》,Y.Wang,J.Ostermann,Y.Zhang,Prentice-Hall,2002.《学习OpenCV》,布拉德斯基译者:于仕琪,清华大学出版社,2009.10参考网站ITU,MPEG,AVS,著名研究机构HHIImageProcessing,StandfordImageVideoandMultimediaSystems,~bgirod/5考核方式平时作业(50%)大作业(50%)6第一讲视频信号内容提要人眼视觉系统视频信号表示视频信号的采集视频信号处理8人眼视觉系统(1)人为什么可以看见景物?自然界中光的存在,光源有发光光源和反射光源两种人眼的可见光波长存在一个范围:380nm-780nm人的眼睛可以接受光波,刺激大脑形成感知9LongradiowavesMicrowavesX-raysGammaraysTV,FMInfraredUltraviolet700nm600nm500nm400nm4.5x1014Hz5x1014Hz6x1014Hz7x1014Hz人眼视觉系统(2)景物为什么是有颜色的?单色光的波长是固定的,三基色原理:视网膜存在三种视锥细胞,分别含有对红、绿、蓝三种光线敏感的视色素,当一定波长的光线作用于视网膜时,以一定的比例使三种视锥细胞分别产生不同程度的兴奋,这样的信息传至中枢,就产生某一种颜色的感觉。1011RGB实例三基色原理被显示器广泛应用在显示器发明之后,从黑白显示器发展到彩色显示器,人们开始使用发出不同颜色的光的荧光粉(CRT,等离子体显示器),或者不同颜色的滤色片(LCD),或者不同颜色的半导体发光器件(OLED和LED大型全彩显示牌)来形成色彩,无一例外的选择了Red,Green,Blue这3种颜色的发光体作为基本的发光单元。通过控制他们发光强度,组合出了人眼睛能够感受到的大多数的自然色彩。最近为了提高发光亮度,开始发展新的四基色显示技术RGBW12颜色空间用RGB色度空间表示视频图像时,一个像素需用三个样值表示即R、G、B三个色度值。RGB三个基本色度对混合色度具有同等重要的作用,通常使用同样的精度来表示RGB的三个基本色度值。如果每种色度成分用8比特表示,那么表示彩色图像的一个像素需要24比特。例如:黑色(0,0,0),白色(255,255,255)红色(255,0,0)人的视觉系统对亮度的感知比对色度的感知更加敏感,如果能将RGB信息分解为亮度和色度信息,就可对色度进行下采样,而基本不影响视觉质量13YUV图像的亮度(luminance/luma)分量是R,G,B分量的加权平均值,用Y表示:Y=kr*R+kg*G+kb*B颜色信息使用色差(colordifference/chrominance或chroma)来表示,其中每个色差分量为R,G,B值和亮度Y的差值:Cb=B-YCr=R-YCg=G–Y实际只需要两个颜色分量,第三个颜色分量可借助亮度导出,常用Cb(U)和Cr(V)14RGB-YUV(YCbCr)RGB-YUV1512812800813.0419.0500.0500.0332.0169.0114.0587.0299.0VUBGRYRGB-YCbCr(YUV)RGB-YUV(YCbCr)色度下采样格式17人眼敏感度人眼对由色度下采样引起的失真不敏感色度信息可以被压缩4:2:0,每个像素点用多少bit表示?相当于12bits/pel18YUV444YUV420人眼视觉系统(3)人眼如何感知场景的变化?人眼不停地对同一空间场景采样人脑具有视觉残留效应,场景消失后,仍然在人脑中存在很短的时间,和新采样的场景比较就会感知场景变化19人眼视觉系统(4)人眼如何感知一副画面是连续的?空域滤波效应:采样点足够密集,在人脑中就会像成连续的画面信号-图像奈奎斯特采样定理,用至少两倍于图像空间信号的最高频率进行采样,就能通过滤波器恢复连续图像信号20数字视频信号表示视频场景由像素点集构成,每个像素点可以用如下6元组表达:采样时间:t空间坐标:{x,y}颜色值:{r,g,b}21{t,x,y,r,g,b}时空域分辨率时域分辨率,常见媒体帧率:电影:24fps电视(PAL):25fpsCRT显示器:75Hz以上液晶显示器:60Hz空间分辨率,一般根据显示尺寸和码率要求设置:典型的包括:176x144-QCIF320x240-QVGA640x480-VGA1280x720-720P1920x1080-1080P22超高清电视-视频2012年8月23号,下一代高清电视标准UHDTV(又称SuperHi-Vision)正式被国际电信联盟(ITU)确定为推荐标准(ITU-RBT.2020)该标准定义了下一代高清电视的技术规格,即4K:2160p(3840×2160)和8K:4320p(7680×4320)。位深度10比特或12比特,帧率最高可达120帧每秒,同时兼容传统的24p,25p,30p,50p,60p等23超高清电视-音频音频方面,UHDTV采用22.2声道技术,将声场划分为三层,顶层9声道(3前,3中,3后),中层10声道(5前,2中,3后),底层3声道(3前),外加两个重低音声道。24视频信号的采集一般通过摄像机将光信号转化为电信号光学系统:小孔成像图像传感器:将光信号转换为连续电压信号电耦合器(ChargeCoupledDevice,CCD),质量好,价格贵互补性氧化金属半导体(ComplementaryMetal-OxideSemiconductor,CMOS),质量一般,价格便宜,功耗低CCD和CMOS的输出是模拟信号,连续的模拟视频信号通过模数转换器转换成数字信号。数字信号处理单元DSP25RollingshutterCMOS功耗低,价格便宜,被广泛用于手机摄像头模块中但是:CMOS传感器按行读取像素,导致每行读取存在时间差,导致快速运动的物体或摄像头快速运动时产生图像变形26噪声低光照条件下更明显27噪声源光学噪声光电转换噪声信号放大噪声28噪声特征随机性如何消除?293幅图像平均305幅图像平均31单幅图像去噪只有一幅图像怎么办?空域滤波32高级滤波33还能不能更好?色度噪声滤除34其他采集问题运动模糊:motionblur数码摄影机的工作原理是在很短的时间里把场景在成像器件上曝光,将光信号转换为电子图像。如果在曝光的过程中,场景发生变化/或摄像机产生运动,则就会产生模糊的画面。35视频抖动36去抖前去抖后摄像机的连续抖动引起画面的抖动模拟和数字信号模拟信号是连续信号对模拟信号进行采样、量化得到数字信号一般的,采集和显示在模拟域,处理在数字域37模拟视频信号模拟视频信号由以下信息量构成每行视频的亮度和色度信息行同步信号:用于指定新扫描线何时开始场同步信号:用于指定新图像何时开始显示模拟视频信号可以直接送显示器显示、传输或磁带转存38模拟电视原理电视信号中除了图像信号以外,还包括同步信号。电视图像扫描是由隔行扫描组成场,由场组成帧,一帧为一幅图像。定义每秒钟扫多少帧为帧频;每秒钟扫描多少场为场频;每秒钟扫描多少行为行频。所谓同步是指摄像端(发送端)的行、场扫描步调要与显像端(接收端)扫描步调完全一致,即要求同频率、同相位才能得到一幅稳定的画面。39帧和场40为了要引入场?在相同的扫描频率下,可以提高一倍的帧率可以使快速运动场景显示更平滑,但会损失垂直方向的分辨率当物体运动很快速时,人眼对空间纹理的失真损失不敏感当场景基本不变化时,前后两场可以互相融合成一帧,弥补垂直方向上的分辨率损失41彩色电视信号彩色与黑白电视信号的兼容:黑白电视只传送一个反映景物亮度的电信号就行了,而彩色电视除了传送亮度信号以外还要传送色度信号。42世界上现行的彩色电视制式NTSCPALSECAM43Digitizing(数字化)Why?数字视频的优点便于计算机编辑处理便于存储和传输,适合于网络应用抗干扰能力强,再现性好节约带宽提高分辨率。。。44模数转换数字化=采样+量化采样频率量化精度45DigitalVideoFormat46Frame,ttt+1DigitalVideoFormats47视频格式转换各种应用场景去交织:De-interlacing(interlaced-progressive)制式转换:PAL-NTSC转码:SDTV-HDTV,MobileTV,internetTV采用滤波器空域滤波:Filteringwithinoneframe(spatialinterpolation)时域滤波:Filteringacrossframesforthesamepixel(temporalinterpolation)时空域滤波:Spatial-temporalfiltering48为何要去交织?应用在逐行显示器上显示场序列将传统电视节目转换成标清或高清逐行节目转换电视制式49Deinterlacing时域合并法场合并:直接将前后两场合并为一帧等同于用重复法时域滤波对于静态背景可以很好的恢复空域细节,运动物体会引起锯齿效应51Tearing(锯齿效应)空域插值法通过对场空域垂直方向上相邻的行做均值滤波得到另一场相应行消除了运动物体的锯齿效应,但损失静态背景的空间细节52场合并空域插值更好的去交织方法?运动自适应:根据局部纹理的运动检测,自适应的在场合并和空域插值法之间做切换边界自适应对于空域插值,沿着纹理方向做线性平均53625-525lines5450-60fields5524frames-60fields56FramerateconversationMakemoresmoothingview57不同方法对比58Framesizeconversation59不同方法对比60总结数字视频信号格式视频信号采集模拟和数字视频信号数字视频格式转换去交织时空域上采样61作业将摄像头采集到的数据存成YUV文件帧率:15fps尺寸:320x240色度格式:4:2:0用yuvviewer观察正确性两周后交62