多媒体技术第5章任务2了解文本媒体的编码方式

sronus
1 ℃
2019-10-12

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

任务2了解文本媒体的编码方式5.2.1文本媒体的分类和表示5.2.2常用的编码方式5.2.3文本的编辑和处理文本媒体的分类和表示文字是一种书面语言，它由一系列字符组成，包含中文和西文。文字信息在计算机中称为“文本”，它是计算机中最常用的一种数字媒体，在计算机中采用二进制编码表示。文本的分类根据它们是否具有排版格式，文本可分为简单文本、丰富格式文本和超文本三大类。（1）简单文本简单文本又称为纯文本，是由一连串字符或汉字的编码组成，它几乎不包含任何其他的格式信息和结构信息，其文件后缀名是.txt。Windows附件中的记事本程序所编辑处理的文本就是简单文本。简单文本(纯文本)本书由南京大学出版社(PublishingHouseofNanjingUniversity)出版文本例：本书由南京大学出版社(PublishingHouseofNanjingUniversity)出版文本在计算机中的表示B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6B0E6C9E7285075626C697368696E6720486F757365206F66204E616E6A696E6720556E697665727369747929B3F6B0E6文本的分类（2）丰富格式文本在日常生活中，为了文本能美观、醒目的展现给用户，人们通常需要对纯文本进行加工、排版，这样的文本就是“丰富格式文本”，如微软公司的Word软件所处理的DOC文件、Adobe公司的Acrobat软件所处理的PDF文件等。在丰富格式文本中，除正文之外，还有许多用来说明文本的版面结构、内容组织、文字属性的信息，这些信息被称为“标记”，这些标记及其使用规则被称为“标记语言”。不同的软件使用的标记语言并不相同，相互之间不一定兼容。为了便于丰富格式文本在不同的软件和系统中互换使用，一些公司还联合提出了一种公用的中间格式，称为RTF格式。丰富格式文本本书由南京大学出版社(PublishingHouseofNanjingUniversity)出版•举例：下面标题的格式为：中文用黑体，西文用ArialBlack体，居中•使用HTML语言描述为：palign=centerfontface=黑体本书由南京大学出版社/fontfontface=ArialBlack(PublishingHouseofNanjingUniversity)/fontfontface=黑体出版/font/p用一对指出的是标记，如fontface=“黑体”和/font等，用于说明排版的格式和文字属性，它们不属于正文内容正文内容文本的分类超文本:它是用超链接的方法，将各种不同空间的文字信息组织在一起的网状文本。超链接是有向的，起点位置称为链源，它可以是网页中的一个标题、一个句子、一副画等；目的地称为链宿，它可以是另一个网页（在本网站或其他网站中），也可以是同一个网页中的其他部分。超文本的格式有很多，目前最常使用的是超文本标记语言(HyperTextMarkupLanguage，HTML)及丰富文本格式(RichTextFormat，RTF)。超文本（网页）网页按照其内容的关联性相互进行链接，网页就是典型的“超文本”超文本也属于丰富格式文本网页A网页B网页C网页D网页E网页F网页G网页Ha1a2b2c2f1d1c1b1e1g1h1a3“超链”实际上就是一个指针，用于指向其他网页，也可以指向同一网页中的其他部分超链是有向的，起点位置称为链源，它可以是网页中的一个标题、一句句子、一个关键词、一幅画、一个图标等小结：文本的分类文本类型特点在计算机内的表示文件扩展名用途简单文本没有字体、字号和版面格式的变化，文本在页面上逐行排列，也不含图片和表格由一连串与正文内容对应的字符的编码所组成，几乎不包含任何其他的格式信息和结构信息.txt网上聊天短信文字录入OCR输入丰富格式文本(线性文本)有字体、字号、颜色等变化，文本在页面上可以自由定位和布局，还可插入图片和表格除了与正文对应的字符编码之外，还使用某种“标记语言”所规定的一些标记来说明该文本的文字属性和排版格式等.doc.rtf.htm.html.pdf公文论文书稿网页丰富格式文本(超文本)除上述特征外，文本中还含有超链，使文本呈现为一种网状结构同上，但还应包含用于指出“链源”和“链宿”的标记.doc.rtf.htm.html.pdf.hlp同上，以及软件的联机文档(帮助文件)文本的输入使用计算机制作文本，首先要向计算机输入该文本所包含的字符信息。人工输入:即通过键盘完成信息输入，某些场合也会使用语音输入和联机手写输入等方法。人工输入速度慢、成本高、使用方便。印刷体自动识别技术。该技术是将纸介质上的文本通过识别技术自动转换为文字的编码。这种输入方式速度快、效率高，通常应用于需要大批量输入文字资料的档案管理、图书情报等应用领域。文字符号输入计算机的方法印刷体识别手写体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入–技术上非常困难，还无法实用–目前准备先突破工整的楷书手写体的识别!汉字的键盘输入汉字与键盘上的键无法一一对应，因此必须使用几个键来表示一个汉字，这就称为汉字的“键盘输入编码”优秀的汉字键盘输入编码应具有的特点：易学习、易记忆效率高(平均击键次数较少)重码少容量大(可输入的汉字字数多)汉字键盘输入方法的比较类型原理举例优点缺点数字编码使用一串数字来表示汉字电报码区位码仅使用10个数字键难记忆字音编码把汉语的拼音作为汉字的输入编码智能ABC紫光华宇微软拼音输入简单易学，适合于非专业人员重码多，需增加选择操作，不会汉语拼音或不知道读音时无法使用字形编码把汉字的部件或笔画作为码元，按照汉字结构及其切分规则作为编码依据，确定每个汉字的输入代码五笔字形表形码郑码重码少、输入速度较快，适合于专业录入员、打字员使用缺乏统一的规范，编码规则不易掌握音形编码(或形音编码)采用字音及字形两种属性作为码元的汉字编码输入方法粤音输入法同上同时要掌握音、形两种取码方法或规则，对普通用户比较困难文本的输出文本的输出通常分为打印输出和屏幕输出。由于存放在计算机存储器中的文本是数字形式的、不可见的，因此，无论是打印还是屏幕显示，它们都需要专门的软件进行文本格式的翻译和显示。承担文本输出任务的软件称为阅读器或浏览器，如微软的Word、IE浏览器，Adobe公司的AdobeReader等。输出过程中字形的生成过程：先根据字符的字体确定相应的字库（font），再按照该字符的代码从字库中取出该字符的形状描述信息然后按形状描述信息生成字形，并按照字号大小及有关属性（粗体、斜体、下横线）将字形作必要的变换最后将变换得到的字形放置在页面的指定位置处2种不同的字库：点阵描述轮廓描述轮廓点直线二次曲线西文字符的编码西文字符是由拉丁字母、数字、标点符号及一些特殊符号组成目前在计算机中使用最广泛的是标准ASCII字符集及其编码。ASCII码又称为美国标准信息交换码，国际上通用的是7位二进制数版本，共128个元素。西文字符的编码012345670123456789ABCDEFb6b5b4b3b2b1b0图5-2标准ASCII字符集及其编码32个控制字符，不可打印空格通常一个ASCII码值占一个字节（8个二进制位)，每个字节中多余出来的一位（最高位）可设为“0”，用作数据传输时的奇偶校验。汉字的编码汉字的历史源远流长，世界四分之一的人口使用汉字，汉语被联合国列为法定六种正式语言和工作语言之一。中文文本的基本组成单位是汉字，汉字数量大，同音、异体字多，它们在计算机内部的表示与处理则是一个非常重要的问题。目前汉字编码主要有GB2312、GBK、GB18030等。常用的汉字编码字符集国家标准GB2312-1980汉字扩充规范GBK(已被GB18030取代)国家标准GB18030-2005港澳台使用的汉字编码字符集CNS11643(BIG5，俗称“大五码”)UCS/Unicode多文种大字符集Unicode的UTF-8Unicode的UTF-16GB2312汉字编码GB2312汉字编码是我国在1981年颁布的第一个国家标准在该标准中有3755个一级常用汉字（按汉语拼音排列）、3008个二级常用汉字（按偏旁部首排列）和682个非汉字字符。一级汉字（3755个）二级汉字（3008个）（扩充使用）字母、数字和各种符号………………19423位号…………191655568794区号(按汉语拼音排列)(按偏旁部首排列)共6763个汉字和682个符号，每个汉字和符号都有一个确定位置拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个GB2312汉字编码GB2312的所有字符分布在一个94行×94列的二维平面内，行号称为区号，列号称为位号，各用两位十进制数表示。在计算机内部每个汉字采用2个字节来表示，并把每个字节的最高位均规定为“1”。这种高位均为“1”的双字节汉字编码就称为GB2312汉字的“机内码”，又称为“内码”。目前PC机中GB2312汉字不论用何种方法录入，在机器内部都统一用机内码表示。GB2312汉字的编码每一个GB2312汉字使用16位(2个字节)表示为了与ASCII字符相区别，每个字节的最高位均为“1”例如：“南”字的代码是1100010011001111（用十六进制表示为C4CF）11第1字节第2字节XXXXXXXXXXXXXX汉字编码对照表由于GB2312编码只有6763个汉字，且均为简体字，在实际应用中经常不够使用，所以我国又陆续发布了其它一些汉字编码标准，它们之间的关系如表所示。GB2312GBKGB18030-2005Unicode5.0汉字数目6763个汉字（简体字）21003个汉字（简、繁体均有）70244个汉字（包括中、日、韩统一汉字）70217个汉字(国际标准)字节数双字节存储和表示，每个字节的最高位均为“1”双字节存储和表示，第1个字节的最高位必为“1”部分双字节、部分4字节表示变字节编码兼容性只与GB18030编码兼容GBK汉字内码扩充规范GB2312的不足：汉字字数太少，缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要；与ASCII码不兼容GBK汉字内码扩充规范（1995）：在GB2312基础上，增加了1万多汉字(包括繁体字)和符号共有21003个汉字和883个图形符号，如“計算機”、冃、冄、円、冇等繁体字和生僻字与GB8312保持向下兼容，也使用双字节表示，第1字节最高位必须为“1”：1X第1字节第2字节XXXXXXXXXXXXXXUCS/Unicode多文种大字符集背景：为了实现全球数以千计的不同语言文字的统一编码方案：ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x216＝1,114,112个)，称为UCS/UnicodeUCS/Unicode的编码方案：先实现部分字符的编码（近11万个字符）尽量与已有编码标准兼容包含有中、日、韩统一整理出来的约7万汉字（称CJK汉字）允许有若干不同的编码方案,常用的两种是：单字节：ASCII字符双字节：拉丁、希腊、阿拉伯，···三字节：CJK汉字四字节：其他Unicode:UTF-8单字节可变长编码应用：Linux，Web网页，电子邮件双字节：ASCII字符、拉丁、希腊、阿拉伯，常用CJK汉字，···四字节：非常用CJK汉字Unicode:UTF-16双字节可变长编码应用：Windows，Mac，Java，···GB18030汉字编码标准背景：无论是Unicode的UTF-8还是UTF-16，其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字，但它们的编码并不相同为了既能与UCS/Unicode编码标准接轨，又能保护我国已有的大量汉字信息资源，我国在20