幸福来源于我们自己!亚里士多德2大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen2.1数、计算与计算工具2.2计算机的产生与发展2.3数据与数据编码2.4计算机系统组成2.5计算机系统管理2.6计算机的运行第2章数据编码与计算机系统知识要点数的进制二进制进制转换原码,反码,补码计算机字、字长定点数,浮点数ASCII码汉字编码:区位码机内码,输入码字形码Unicode编码2.3数据与数据编码数据分为数值数据和非数值数据。在计算机内部,数字、英文字符、汉字及声音、图像等都采用二进制编码并存储、计算,但编码机制不同。数据编码的本质是数字化问题。数字化就是将数据原有形式转换为二进制表示形式,数字化后数据才能被计算机处理,现实世界中的信息和数据是丰富多彩的,但计算机世界中却只有1和0。二进制的优点?2.1.1数的进制与进制转换2.1.2数的原码、反码和补码2.1.3数的定点与浮点表示2.1.4字符数据与字符编码2.1.5数据的常用存储单位3大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen“校友捐赠”是一道亮丽的风景线,虽然与发达国家相比,我国这一捐赠比例不高,但其发展势头给人们带来了新期待。2014年10月12日重庆大学85周年校庆典礼的现场,该校校友唐立新宣布捐赠人民币3亿元为母校新建一栋信息博览大楼,单笔捐赠3亿元刷新了国内高校捐助记录。校友王晨对母校总捐助人民币5000万元,成为山大校史上捐赠最多的个人。其中的2200万元用于创立山东大学医学MBA学院,王晨亲自担任首任院长。拥有恒隆集团及地产的香港巨富陈启宗、陈乐宗兄弟通过家族“晨兴基金会”向哈佛大学捐赠3.5亿美元(21亿4千万人民币)支持其公共卫生学院,这是这所世界一流大学378年校史上金额最大的单笔捐赠。课堂小测试利用补码,计算(-7)+(-12)4大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen(-7)原=10000111(-12)原=10001100(-7)补=11111001(-12)补=11110100(-7)补11111001+(-12)补+1111010011101101[-7+(-12)]补=10010011[-7+(-12)]原=-7+(-12)=-19写出整个编码转换结果以及计算过程思考:基于8位字长的补码计算的局限及解决策略2.1.4字符数据与字符编码英文字符:采用ASCII码,在计算机中占用一个字节,但只用7位编码。另外,还有ANSI(使用8位)编码以及IBM为其大型机开发的EBCDIC编码等。中文信息编码:较复杂,涉及汉字输入、存储和输出的不同编码,即输入码、国标码(由区位码转换)、机内码及输出码,如何理解这些编码之间的关系?为了理解编码之间的关系,可以将中文信息处理系统抽象为如下的结构模型5大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen1、英文字符的编码•ASCII码2、汉字及其编码3、Unicode编码思考(1)相同英文字母大写与小写形式的编码相差32,如A为65,而a为97。因此通过一个字母的大写编码值可以推导出其小写的编码值。(2)根据排列的顺序,通过一个字母的编码值也可以推出其他字母的编码值。(3)基本数字字符(0~9)也可以类似相互推出问题:数字0~9可以用二进制表示,为什么ASCII中还包括它们的编码(两者不同)?问题:为什么ASCII码所能提供的字符编码的总数为128个?62、汉字及其编码汉字的特点汉子数量多:当代通用汉字3000多,总数超过6万个(包括简化字)字形复杂,象形字:古体今体,繁体,简体,正体,异体;笔画相差悬殊,少的一笔,多的达36笔,平均9.8笔。存在大量一音多字,一字多音现象汉字编码区位码(国标码)输入码(外码)机内码(内码)字形码大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen7数据输入问题键盘输入问题按键中断请求中断程序,读取按键字符屏幕回显处理输入数据其他输入方式鼠标触摸屏手写识别读卡器语音……大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen8汉字编码—区位码1981年,中国标准总局制定了中华人民共和国国家标准GB2312—80《信息交换用汉字编码字符集--基本集》,即国标码。2000年发布了国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》区位码是国标码的另一种表现形式,把国标GB2312--80中的汉字、图形符号组成一个94×94的方阵,分为94个“区”,每区包含94个“位”,其中“区”的序号由01至94,“位”的序号也是从01至94。94个区中位置总数=94×94=8836个一级3755个字,二级3008个字,共6763个汉字非汉字图形字符682个1391个空位,备用大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen9区位码表大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen10汉字编码--机内码区位码:存储一个汉字要占用两个字节,区号、位号各占一个字节。区号、位号都不超过94:这两个字节最高位是“0”。为了区别于英文ASCII码,汉字在计算机内的保存采用机内码,即汉字内码。机内码:将区位码的区码和位码(先转换为十六进制数)分别加上A0H(10100000)作为机内码,这样,汉字机内码两个字节的最高位均为“1”,很容易与西文的ASCII码区分。对于中英文字符的排序大小依据问题,像英文字符一样,汉字排序时依据的大小关系也是根据它的编码的大小来确定的。机内码=区位码+A0A0H大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen示例:“啊”的区位码为1601D十六进制为1001H区号和位号分别加A0H,得到其机内码为B0A1H课堂计算:“新”的区位码为4834D,求出其机内码拓展:计算机程序设计语言中,八进制的数字以数字0开始,而十六进制的数字,则以0x开始,例如0xD0C211汉字编码--汉字输入码输入码是用来将汉字输入到计算机中的一组键盘符号。具体输入方法通常要求编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点汉字输入的方法:区位码输入、拼音输入法(容易掌握,因为存在一音多字,问题,需要选字,降低了汉字输入速度)、五笔字型输入法、自然码输入等大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen12汉字编码--汉字字形码字形码:是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。点阵汉字汉字字形码又称汉字字模:指一个汉字供显示器和打印机输出的字形点阵代码。通常用16×16点阵来显示汉字。以点阵形式组成的汉字字形码,即汉字库矢量汉字轮廓描述汉字地址码是指汉字库中存储汉字字形信息的逻辑地址码。通过汉字内码计算得到,从而得到汉字的字形码数据。大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen13点阵字模大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen练习:16*16点阵的100个汉字,其信息量(存储)共占多少字节?点阵字形中,用“0”和“1”分别表示各点的不同。16*16点阵中:每行16个点,对应16位,8位为一个字节,一个汉字每行占2个字节,16行共计32字节(Byte)因此,16*16点阵的100个汉字共计3200个字节(Byte)。14大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen课后思考:存储100个24*24点阵的汉字,共需多少字节?思考:24针的针式打印机与字模数据日本Epson爱普生LQ系列24针针式打印机票据/平推打印机15矢量字矢量图形的存储:几何信息,直线段,曲线段。矢量图形与像素图相对应。优缺点:数据量,放大、缩小、旋转不变形,显示重绘大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen16其他编码Big-5字符集,中文名大五码:台湾繁体字的字符集,收入13060个繁体汉字,808个符号,总计13868个字符,普遍使用于台湾、香港等地区。台湾教育部的标准宋体楷体等港台大多数字体支持这个字符集的显示。GBK字符集:国家标准扩展字符集,兼容GB2312-80标准,含Big-5的繁体字,但不兼容Big-5字符集编码,收入21003个汉字,882个符号,共计21885个字符,含中日韩(CJK)统一汉字20902个、扩展A集中的汉字52个。Windows早期简体中文版就带有这个GBK.txt文件。宋体、隶书、黑体、幼圆、华文中宋、华文细黑、华文楷体、标楷体(DFKai-SB)、ArialUnicodeMS、MingLiU、PMingLiU等字体支持显示这个字符集。Unicode编码:计算机的多语言(英、德,法,俄,韩语,阿拉伯语,汉语…)文字混合处理的问题(编码、输入与输出)。1992年,国际标准化组织(ISO)提出。字符的Unicode值(码位)转换成程序中的数据,转换格式:UTF-8、UTF-16、UTF-32。大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen拓展:24位位图,像素图,真彩图像,照片级质量图像、数字图像图像数字化:将图像转化为一系列的颜色点,称为像素,每个像素具有特定的位置和颜色值,存储时每个像素的颜色(色彩)值是用一定位数的二进制数表示的,该二进制数的位数称为位深度,通常有1位、8位和24位之分,分别对应黑白图像、256级灰度图像和真彩图像(如数码相机、手机等图像)17大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen灰度图像真彩图像黑白图像真彩图像18大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen放大至3200%,观察像素真彩像素图像:每个像素用24位二进制位存储颜色值(RGB模式红绿蓝各8位,可以表示1670万多种颜色)简单数字图像形成模型19大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen存储为图像文件?JPG、GIF、PNG20大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen拓展:音频数字化,取样(Sampling)、量化(Quantization)、编码(Coding)音频原始信号(模拟)采样脉冲与量化不同的采样频率不同的采样频率PCM技术:脉冲编码调制方式,法国人里夫斯1937年发明,广为流行例如:CD取样频率为44.1kHz、16位量化位数212.1.5数据的存储单位比特,字节,字1字节=8bit1字=?字节千字节(KB)、兆字节(MB)、吉字节(GB)、太字节(TB)大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen计算机中,传输速率通常使用bit(位),例如宽带网络速率10M,即10Mb/s(理论上);存储空间则使用Byte(字节)如U盘容量32GB(但换算单位按1000)22大学计算机-计算思维的视角©2014-2020PoweredbyJollyseen2.1数、计算与计算工具2.2计算机的产生与发展2.3数据与数据编码2.4计算机系统组成2.5计算机系统管理2.6计算机的运行第2章数据编码与计算机系统知识要点冯•诺依曼计算机体系结构基于总线的微机结构中央处理器多核处理器CPU指令集运算速度内/外存储器机械硬盘固态硬盘硬盘分区I/O系统接口指令系统主板232.4计算机系统组成计算机体系结构中央处理器存储器输入输出指令系统大学计算机-计算思维的视角©2014-2020PoweredbyJo