1.2信息的编码制作者:赵胜康1.2.1二进制代码的特征•二进制是由1和0两个数字组成的,它可以表示两种状态,即开和关。所有输入电脑的任何信息最终都要转化为二进制。目前通用的是ASCII码。最基本的单位为bit。•二进制编码是用预先规定的方法将文字、数字或其他对象编成二进制的数码,或将信息、数据转换成规定的二进制电脉冲信号。1.2.2字符编码为了能让计算机存储、处理这些数据,需要为每个字符规定一个二进制形式的代码。十进制中的运算规则是人为规定的,同样的,字符转化为二进制的规则也是人为规定的,但是如果每个国家都制定各自的方案,那么世界上将会有成千上万种的转换方式,这样就会给国家或地区之间的通信造成极大的不方便。因此,为了便于信息之间的交换,使通信变得更加快速,国际上统一制定了一种字符编码,即ASCⅡ码(美国信息交换标准代码)。ASCⅡ码简介ASCⅡ码是美国信息交换标准委员会制定的7位二进制码,共有128种元素(详见书本的第6页表1.2.3ASCⅡ字符编码表)。它包括两部分:94个图形字符码和34个控制符码,图形字符码包括52个大小写英文字母、10个数字符号、32个标点及其他常用符号(如@$%等)。其中34个控制符不可以打印显示,而其余的94个可以全部打印显示出来。为什么7位二进制数就能够表示出128个代码呢?计算机中的存储器用来存储计算机运行时的数据、程序等,它在存放ASCⅡ码时,占用1个字节(Byte),相当于8位二进制数,在存放ASCⅡ码时占用一个字节的右面7位,剩下的最左面一位用“0”填充。如果内存中有一个字节的内容是65,它究竟代表的是65这个数值,还是表示字母“A”,或是其它呢?计算机中会设置相应的数据类型加以区分这些数码,也就是说首先将他们归类,然后再进行相应的机器识别。例:如果规定显示的为字符类型,则这个65就表示字母“A”;如果规定为数值类型,那么这个65它就表示65这个数值。1.2.3汉字编码汉字与西文字符一样,也是一种字符,在计算机内同样是以二进制代码形式表示的。汉字信息交换计算机系统B汉字输入汉字编码处理的有关部件汉字输出计算机系统A汉字输入、处理、输出编码关系图•1.汉字输入汉字输入两大类方法:一类是自动识别方式,包括汉字字形的自动识别(例如:手写输入)和汉字语音的自动识别(例如:语音输入);另一类就是将汉字编码输入,这种用来将汉字输入计算机的编码称为输入码(又称外码)。阅读教材P7回答输入码有那些种类?(1分钟)•按照汉字的音特征编码,称为音码(如只能拼音码、搜狗拼音输入法、QQ拼音输入法等等);•按照汉字的形体结构特征编码,称为形码(如五笔字型码)•以字音为主,辅以字型特征的编码,称为音形码。反之,则称为型音码。音码形码音形码音码1.2.3汉字编码计算机系统B汉字输入汉字编码处理的有关部件汉字输出汉字信息交换计算机系统A汉字输入、处理、输出编码关系图•2.交换码为了方便各种数字系统(不仅是计算机系统)之间的汉字信息的通信交换,早在1981年,国家颁布了编号为GB2312-80的标准《信息交换用汉字编码及字符集》,这种汉字信息交换用的代码又称为区位码。3.处理码处理码是计算机内部用于信息处理的汉字代码,也称汉字机内码。计算机内部怎么区分汉字编码和ASCⅡ码?为了在计算机内部能够区分是汉字编码还是ASCⅡ码,将区位码的每个字节的最高位设置为“1”,并将区号和位号各增加一个适当的常数,构成汉字机内码。这样,汉字机内码的每个字节都大于128,而每个西文字符的ASCⅡ码值均小于128。4.字型码为了汉字的输出显示和打印,需要描述汉字的字形,汉字字形通常有两种表示方式:点阵方式和矢量方式。这种对汉字字形的编码,称为汉字的字形码。1.2.4多媒体信息编码汽车的速度、钟摆的位置和水流量这些都是连续、平滑变化的量,通常称为模拟量。传感器(sensor)的作用是进行能量方式的转换,例如它可以把各种物理量的变化转换成电流或电压的变化形式。常见的传感器有话筒、温度传感器、光敏传感器、红外传感器、距离传感器等。通过对它们获得的电流或电压波形进行取样和量化,变为数字形式的数据,计算机可以存储和处理这些信息了。1.2.4多媒体信息编码模拟信号怎么转换成数字信号?模拟量的采样示意模拟信号怎么转换成数字信号?采样和量化:通过采样和量化可以实现模拟量的数字化,这个过程称为“模数转换”。相关定义:采样:按一定的频率,即每隔一小段时间,测得模拟信号的模拟量值。采样频率:每秒对声音波形采样的次数,即每秒读的点数,单位是赫兹(Hz)。量化:按整个电压变化的最大幅度划分成几个区段,把落在某个区段的采样到的样本值归成一类,并给出相应的量化值。2.图像和视频数字化把一幅图像看成由许许多多彩色或各种级别灰度的点组成的,这些点按纵横排列起来构成一幅画,这些点称为像素(pixel)。扫描仪、数码相机、摄像头每个像素的颜色都被数字化成一定的数值50×50100×100300×300每个像素有深浅不同的颜色,像素越多,排列越紧密,图象就越清晰。视频是由连续的图像帧组成的。我国采用的是PAL制式,每秒显示25帧;而NTSC制式每秒显示的是30帧。计算:1秒钟PAL制式640×480像素的256色视频的存储空间是多少MB?(提示:256色图像每一像素需要用3个字节来表示)(25×640×480×3)/1024=22500KB=21.97MB练一练:•什么是汉字编码?•计算机内部使用的汉字编码称为汉字内码或汉字机内码。汉字机内码由国标码(GB2312-80)演化而来,把表示国际码的两个字节的最高位分别加1,就变成了汉字机内码。阅读材料:请阅读课本11页——【申农与信息论】材料。