如何开好网络视频会议创想空间商务通信服务有限公司议程2预备知识1如何开好网络视频会议23视频会议常见问题解决议程3预备知识1主要要素一:声音主要要素二:视频主要要素三:网络带宽声音的模拟信号转换成数字信号(PCM)自然界中的声音非常复杂,波形是连续的,而我们Internet网络中传送的是数字信号,由一连串的0、1码组成。通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。抽样(将连续的声音波形转换成离散波形。声音的频段300-3400Hz,根据抽样理论:抽样频率为2倍语音带宽。所以,抽样频率为2*4kHz=8kHz。)量化(将连续的抽样值对应到有限的几个量化值上。采用A律十三折线,有256个离散点)编码(每个量化值使用不同的0、1码流来代替。2的8次方为256,所以需要编码成8位:00000000-11111111))带宽(根据上述理论,一路音频PCM后的带宽:8KHz*8bit=64Kbit/s)(a)模拟信号(b)抽样0v2v4v6v000010100110(c)量化(d)编码数字化编码为:100-110-111-110-100-011-010-010-100其它常见音频压缩技术移动通信中无线带宽资源及其有限,能否在保证语音质量的情况下降低每路通话的带宽可以极大提高带宽利用率;Internet网络中VoIP语音传送同样道理,每路语音占用带宽越低,在客户端网络不好的情况下仍能满足语音带宽需求,保证语音质量。要降低带宽占有,只有2种方法,降低采样指标(降低采用频率)或者压缩(对编码进行处理)。降低采样指标是不可取的,因此专家们研发了其它各种编码压缩方案。从最初的PCM64k编码到现在标准语音压缩协议,如G.723编码速率为5.3K或6.3Kbps;G.729编码速率为8Kbps。还有未形成协议标准但更低的编码速率已有成熟的算法可以实现,如AMBE、CELP、RELP、VSELP、MELP、MP-MLQ、LPC-10等多种语音压缩算法,最低编码速率达到2.4kbps。云会议采用了16K*16bit的宽带语音采样技术,确保语音质量。为了解决带宽问题,云会议采用了SPIRITIP_MR(私有协议)编码方式,其平均传输带宽在27Kpbs左右。协议名称码率(kbps)采样率(khz)G.711(A律和u律)648G.728168G.729.A88G.723.15.3或者6.38G.7226416G.722.124/3216G.722.1.c24/32/4832AAC_LD4864其它常见音频压缩技术音质的定义音质的含义“音质”这个词,一般笼统的意义是声音的品质,也就是音频信号的保真度。语音音质的保真度主要体现在清晰、不失真、再现平面声象语音音质的定义(客观指标):信噪比:(signaltonioseratio,SNR)(主观指标)通常以MOS分值来度量,分为五级:5(优),不察觉失真;4(良),刚察觉失真,但不讨厌;3(中),察觉失真,稍微讨厌;2(差),讨厌,但不令人反感;1(劣),极其讨厌,令人反感。VoIP音频质量保证VoIP音频的主要问题及其产生原因清晰度低:数据丢包、语音编解码损耗、环境噪声以及回声等;延时:网络拥塞、语音编解码处理延时以及缓存容量等;抖动:通常与网络拥塞程度相关;保证VoIP音频质量的关键网络与终端质量:优化的技术关键点:音频编解码技术抖动处理技术音频优先技术静音检测技术回声消除技术常用术语采样率音频的采样率其实类似视频的帧率,意思是每秒钟采样的次数。g.711的采样率是8k(人的语音大概就在这个频率范围以内),而mp3支持的典型采样率是44.1khz(超过人耳响应频率的2倍多一点——奈奎斯特定理)。很明显,mp3压缩的原始声音要比g.711好多了。延时端到端的时延可以分成两个部分,即固定时延和可变时延。固定时延包括编解码器引入的时延和打包时延。固定时延和采用的压缩算法、打包的语音数据量相关。可变时延包括:承载网上的传输、节点中排队、服务处理时延、去抖动时延,这些和设备的端口速率,网络的负载情况,经过的网络路径、设备对QoS的支持方式、实现的QoS算法等密切相关。特别是去抖时延和承载网络的抖动指标密切相关,通过采用合适的网络技术可以显著降低语音通过网络时引入的抖动,减少去抖动时延。IP网中话音分组的端到端时延,150ms以下的时延,对于大多数应用来说是可接受的;150~400ms之间的时延,在用户预知时延状况的前提下可以接受;大于400ms的时延不可接受。抖动所谓jitter就是一种抖动。具体如何解释呢?让我们来看一个例子。假如你有个女友,你希望她每天晚上下班之后7点来找你,而有的时候她6:30到,有的时候是7:23,有的时候也许是下一天。这种时间上的不稳定就是jitter。时钟抖动:数字信号总是和一个参考时钟信号一起传送并且记录,它们在一个信号中同时传送数据和时钟。数字音频的时钟信号是一种方波(square-wave),并且在频率以及振幅上被进行了修正,而且它的占空比要达到50%。如果信号传输所用的时间不相等,那么就产生了时基抖动。根据实际测量发现,抖动大于500ms是不可接收的,而抖动达到300ms时,是可以接受的,此时为了消除抖动会引起较大的时延,综合时延对语音质量的影响来考虑,要求承载网的抖动小于80ms。抖动会引起端到端的时延增加,会引起语音质量的降低。影响抖动的因素一般和网络的拥塞程度相关。网络节点流量超忙,数据包在各节点缓存时间过长,使得到达速率变化较大。抖动常用术语正常时钟波形存在抖动时钟波形常用术语丢包率丢包对VoIP语音质量的影响较大,当丢包率大于10%时,已不能接受,而在丢包率为5%时,基本可以接受。因此,要求IP承载网的丢包率小于5%。丢包率的形成原因主要有两点,一是传统IP传输过程中的误码,这种情况在目前的网络条件下发生的概率极低。另一个是不能保障业务带宽造成的,当网络流量越拥塞,影响就越强烈,丢包发生率也就越大。回声和回声抑制回声是指主讲人的声音信号传到对方电脑终端后,喇叭放出的声音进入对方的麦克风,通过网络再传回主讲人侧,导致主讲人听到自己的延迟后的声音,这种声音就被称为回声。回身抵消和回声抑制:回声抵消,就是通过对回声路径的分析,估计其特征参数,利用回声路径的特征参数构造模拟的回声信道,模拟回声的产生过程,得到的模拟回声信号与接收信号的反相求和即可消除接收信号中的回声。回声抑制就是指在语音通道中消除回声的能力。啸叫当麦克风和音箱靠的比较近的时候,会出现非常刺耳的声音。我们做网络视频会议测试时,当两台电脑离得很近,A电脑喇叭播放出声音,进入B电脑的麦克,通过网络传输这个声音又从A电脑喇叭播放出来,声音形成环路自激,产生啸叫。解决方法:将麦克风距离音箱远一点;做视频会议演示时,两台电脑不能离得太近,或其中一台使用外接耳麦可以避免。常用术语混音技术混音是指把多路语音混音成一路。三方通话时,A+B的声音送到C,A+C的声音送到B,B+C的声音送到A,这样他们都相互听到另外两方的声音了。云会议采用专业会议桥混音,把多路语音(包括VoIP语音和电话语音)混音成一路,每个会议用户端只收到一路语音数据,极大减少了VoIP对带宽的消耗(一般的VoIP是不进行混音的,所以有几路就会占几路带宽);这样也有力保障了语音质量。噪声消除“噪声”的简单定义就是:“在处理过程中设备自行产生的信号”,这些信号与输入信号无关。噪声的来源分为内部和外部两种,内部噪声主要是由于电路设计、制造工艺等因素,由设备自身产生的。而外部噪声是由设备所在的电子环境和物理化学环境(自然环境)所造成的。内部噪声很难控制,而外部噪声是可以控制的,可探测出背景固定频率的杂音并消除背景噪音,例如:风扇、空调声自动滤除。呈现出与会者清晰的声音。议程13预备知识1主要要素一:声音主要要素二:视频主要要素三:网络带宽视频处理的全流程采集视频压缩视频终端网络侧服务器视频终端:解码显示传输传输视频处理全流程-采集、压缩视频采集视频采集最重要的设备就是摄像头了,它将自然界中的客观场景转化为模拟的电信号输出。如果是数字视频应用系统,还需要专门的设备或者器件完成图像信号的模拟到数字转换,这也是摄像头很难直接接入pc机的原因。早期的接入方式是通过pc上用户自己配的采集卡来完成,这种方式现在也有,现在有专门通过usb接口接入pc机的usb摄像头,它是在摄像头内完成了模拟到数字的转换,输出数字信号到usb接口。视频压缩视频的压缩是视频处理的核心,按照是否实时性可以分为非实时压缩和实时压缩。实时性与否,区别其实很大,一般来说,制作dvd等影片可以算作非实时性压缩,此时,算法的选择应该是要提高压缩算法效率,而不是性能,因为,即使一天完成一部影片的压缩的话,大多数时候,问题可能也不大。而对于类似网上直播,视频会议这样的应用,则属于实时性压缩应用了,此时在算法选择上,算法的性能可能是第一位的。视频处理全流程-传输、解码显示和存储视频传输•视频的传输分为两种,一种是模拟视频的传输,也就是摄像头电信号进行远距离传输,这种主要是在传统的视频监控系统中应用,它的成本比较高,传输距离也有限制,而且随着距离的增大,会出现信号衰减和信道噪声等问题;另一种传输是和互联网技术结合起来,先把数字视频信号压缩后得到码流数据,然后通过网络传输到远端。随着互联网的高速发展,•后一种应用方式越来越普遍,最早期应该算是视频会议系统,现在的应用就更多了,最新的比如手机上网观看视频等。其实,抽象看,互联网它其实就是一个信息平台,而在这个信息平台上,传输的信息相当大比例就是多媒体数据。可以想象,今后随着互联网带宽的不断提高,视频的应用将越来越广。解码显示和存储对于互联网传输过来的视频信息,首先是要进行解码,然后才是显示。目前随着科技的发展,计算机的处理能力普遍得到了提升,所以使用普通计算机就可实现解码。显示设备主要有电视、监视器和显示器,他们的信号接口是不一样的,电视监视器是模拟的电信号,显示器的输入应该是数字信号。视频编码流程一视频编码流程二视频编码流程三在Internet上传输视频有许多困难,其根本的原因在于Internet的无连接每包转发机制主要为突发性的数据传输设计,不适用于对连续媒体流的传输。为了在Internet上有效的、高质量的传输视频流,需要多种技术的支持,其中数字视频的压缩编码技术是Internet视频传输中的关键技术之一。目前视频流传输中最为重要的编解码标准有:国际电联的H.261、H.263、H.264标准H.261它最初是针对在ISDN上实现电信会议应用特别是面对面的可视电话和视频会议而设计的。H.263是国际电联ITU-T的一个标准草案,是为低码流通信而设计的。但实际上这个标准可用在很宽的码流范围,而非只用于低码流应用,它在许多应用中可以认为被用于取代H.261。H.263的编码算法与H.261一样,但做了一些改善和改变,以提高性能和纠错能力。H.264是由ITU-T和ISO/IEC联手开发的最新一代视频编码标准。视频编解码常用技术MPEG系列标准MPEG-2:MPEG组织于1994年推出MPEG-2压缩标准,以实现视/音频服务与应用互操作的可能性。MPEG-2特别适用于广播级的数字电视的编码和传送,被认定为SDTV和HDTV的编码标准。MPEG-4:运动图像专家组MPEG于1999年2月正式公布了MPEG-4(ISO/IEC14496)标准第一版本。同年年底MPEG-4第二版亦告底定,且于2000年年初正式成为国际标准。MPEG-4不只是具体压缩算法,它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体(、资料撷取与分散)等整合及压缩技术的需求而制定的国际标准。视频编解码常用技术视频编码算法的发展史TANG使用技术H.264的优点专门设计了网络提取层(NAL),的打包方式