汉字标准

xiaolovehao
1 ℃
2020-02-02

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

信息时代汉字的标准化和共通化汉字效用递减律7000通用汉字覆盖率和不足率•汉字数增加字数覆盖率不足率100090%10%2400140099%1%3800140099.9%0.1%5200140099.99%0.01%6600140099.999%0.001%•从中可以看出，1000个汉字的覆盖率为90%，以后每增加1400字，覆盖率百分比的最后一个9字之后便增加一个9字。覆盖率达到99.999%的6600个汉字，就构成了现代通用汉字的主体，覆盖率达到99.9%的3800个汉字，就包含了全部现代常用汉字。•随着汉字频度的减少，其效用递减。四种汉字代码•汉字输入码：为了将汉字输入计算机而编制的代码。•汉字内部码：计算机内部处理汉字信息时所采用的代码，其形式取决于机器本身。为了提高机器处理汉字效率，汉字内部码一般采用机器原有的代码结构，码长都尽可能短，而且等长。许多汉字计算机，在输入汉字之后都要进行一次将汉字输入码变成汉字内部码的转换。•汉字输出码：计算机将汉字信息处理的结果输出打印或显示时所用的代码，一般也取决于具体的机器或设备。•汉字交换码：用于计算机之间汉字信息交换的代码。它处于一台计算机的出口与另一台计算机的入口之间。除了保证一字一码之外，还要与有关的国际标准和国家标准保持一致。一台具体的计算机的交换码可以和输入码、内部码、输出码一致，也可以不一致，这同样取决于汉字信息处理系统设计与应用的具体情况。但是，在一般情况下，一台计算机的输入码、内部码和输出码是随着计算机的不同而不同的，而交换码就必须整齐统一，才便于与其它的计算机进行信息交换。《信息交换用汉字编码字符集-基本集》（GB2312-80）•汉字标准交换码共分两级。第一级为常用字，有3755字，按汉语拼音字母顺序排列，第二级为次常用字，有3008字，按部首排列。•字体以中国文字改革委员会1964年编印的《简化汉字总表》以及中华人民共和国文化部和中国文字改革委员会联合发布的《第一批异体字整理表》为准。•字形以中华人民共和国文化部和中国文字改革委员会1965年联合发布的《印刷通用汉字字形表》为准。•除汉字之外，该标准还收集了一般符号202个（其中包括间隔、标点符号、运算符号、单位符号、制表符号等），序号60个，数字22个，拉丁字母52个（包括大小写），日文假名169个（包括大小写），汉语拼音符号26个，汉字注音符号37个，连同汉字一起，共有7445个图形符号。这个代码表最多可收8836个图形字符，现在尚留有一些空白位置，供进一步扩充之用。繁体字和简体字对应编码•六个字符集–基本集（GB2312-80）–第一辅助集（GB12345-90）–第二辅助集（GB7589-87，收简体字7237个）–第三辅助集（GB/T13131-91）–第四辅助集（GB7590-87，收简体字7039个）–第五辅助集（GB/T13132-91）。•基本集和第二、第四辅助集是简体字集，第一、第三、第五辅助集是繁体字集。•在这六个字符集中，简体字与繁体字存在着明确的一一对应关系：基本集中的简体字与第一辅助集中的繁体字对应，第二辅助集中的简体字与第三辅助集中的繁体字对应，第四辅助集中的简体字与第五辅助集中的繁体字对应，并且对应的简体字和繁体字在相应的字符集中同码。个别的汉字在简繁体之间存在着一对多的关系，作为特殊情况处理。《15×16、24×24、32×32汉字点阵字模集及字模数据集》•所谓点阵字形，就是以点的形式来表现的字符或汉字的形态。•15×16点阵字形，可以表示《信息交换用汉字编码字符集·基本集》中的绝大部分汉字。由于15×16的点阵字形只能表示横向笔画和竖向笔画都不超过八笔的汉字。如果一个汉字的横向笔画或者竖向笔画超过了八笔（如“量、酬”等字），在点阵字模就容纳不下。在《基本集》中，这样的汉字共有138个，只好压缩笔画做变通处理。15×16点阵字形适于屏幕显示，作校对之用。•24×24点阵字形，可以全部表示《基本集》中的6763个汉字的笔形结构，用不着压缩笔画，而且能够保持横细竖粗的宋体风格，适用于针式打印、喷墨打印，是一种很有使用价值的点阵字形。•32×32点阵字形比24×24点阵字形更能体现宋体风格，能完整地表现汉字的笔锋，使撇笔和捺笔自然婉转，舒畅流利，字体质量较高。高精度点阵汉字标准•GB/T14242-1993信息交换用汉字64×64点阵黑体字模集及数据集•GB/T14243-1993信息交换用汉字64×64点阵楷体字模集及数据集•GB/T14244-1993信息交换用汉字64×64点阵仿宋体字模集及数据集•GB/T14245-1993信息交换用汉字64×64点阵宋体字模集及数据集•GB/T14717-1993信息交换用汉字128×128点阵宋体字模集及数据集•GB/T14718-1993信息交换用汉字128×128点阵黑体字模集及数据集•GB/T13443-1992信息交换用汉字128×128点阵楷体字模集及数据集•GB/T13444-1992信息交换用汉字128×128点阵仿宋体字模集及数据•GB/T14719-1993信息交换用汉字256×256点阵宋体字模集及数据集•GB/T14720-1993信息交换用汉字256×256点阵黑体字模集及数据集•GB/T13445-1992信息交换用汉字256×256点阵楷体字模集及数据集•GB/T13446-1992信息交换用汉字256×256点阵仿宋体字模集及数据集矢量汉字的字模集及数据集•GB/T13844-1992图形信息交换用矢量汉字单线宋体字模集及数据集•GB/T13845-1992图形信息交换用矢量汉字宋体字模集及数据集•GB/T13846-1992图形信息交换用矢量汉字仿宋体字模集及数据集•GB/T13847-1992图形信息交换用矢量汉字楷体字模集及数据集•GB/T13848-1992图形信息交换用矢量汉字黑体字模集及数据集汉字的共通化问题•在汉字文化圈内，使用汉字的地区和国家还有台湾、韩国、日本、新加坡、马来西亚。除了新加坡和马来西亚同中国大陆一样使用简体字之外，这些地区和国家使用的汉字并不完全相同。在信息化的时代，汉字的差异给信息交流带来不便，这就有必要研究汉字的共通化问题。•研究汉字共通化问题，首先要尽快摸清现行汉字差异的程度，分析产生差异的原因，在共识的基础上加强合作，确定整理汉字的统一标准，制定各方都能接受的、符合汉字演变规律的科学方案，首先在信息处理领域内实现汉字的统一编码，然后再逐渐地统一字形，在国际范围内促进汉字的规范化和标准化。中国制订的《信息处理文本通信用编码字符集》（GB8586）•该标准的字符集由GB2312-80（基本集）和一个汉字通信子集组成。•汉字通信子集收集的汉字、表示日期和时间的图形字符等共705个，其中有：第二辅助集中的汉字520个，第四辅助集中的汉字92个，表示日期和时间的图形字符69个，《第一批异体字整理表》淘汰的用于人名、地名等的异体字、汉字部件等23个。•通信子集只限于在通信网中使用，与其它系统进行数据交换时仍要转换为汉字标准交换码。台湾制定的汉字字符集标准•《中文资讯交换码CCCII》，•《通用汉字标准交换码TCA-CNS11643》。CCCII字符集•常用字集收4808个常用字，作为CCCII第一册，发布于1980年4月；•备用字集收6025个次常用字、5364个罕用字、2112个异体字以及3531个其它资讯用字，共17032字，作为CCCII的第二册，发布于1981年2月；•罕用字集收12924个罕用字、314个次常用字及7345个其它资讯用字，共20583字，作为CCCII第三册，发布于1987年5月；•异体字集收异体字11517个，发布于1981年2月。•全部汉字首先按《康熙字典》部首排序，其次按部首外笔画数排序，最后按笔顺排序。TCA-CNS11643共收汉字13051个，于1986年发布。整个编码空间分16个字面：•第一字面收常用汉字5401个，包括CCCII中的常用字4808个、中小学课本上的常用字587个以及6个异体字；•第二字面收次常用汉字7650个；•第三至十一字面为标准保留区；•第十二至十六字面为用户定义区，第十四字面已收罕用字6319个。•每个字面上的汉字按先笔画后部首的顺序排列。JISX0208-1983和JISX0212-1990（日本汉字字符集）•JISX0208-1983是日本国家交换码标准，共收字符6877个，分为84区–1至15区是拼音字符及符号区，收一般图形字符、数字、拉丁字母、日本平假名、片假名、希腊字母、西里尔字母、制表符号等共524个字符；–16至84区是汉字区，收日本汉字6353个，汉字分为两级，一级汉字2965个，按音排列，二级汉字3388个，按形排列。–另有1959个空白码位是保留区。•JISX0208-1990•.JISX0212-1990是日本的第二个汉字编码字符集标准，作为日本汉字交换码辅助集。•该字符集共收图形字符6067个，其中非汉字字符266个，日本汉字5801个，按部首排序。另有1829个空白码位作保留区，940个空白码位作用户自定义之用。韩国字符集•字符集中同时收汉字字符和谚文字符。•韩国于1987年制定了韩国标准编码字符集KSC5601-1987，共有8224个字符–1至15区是拼音文字和符号区，收986个字符；–16至40区是谚文字符区，收谚文字符2350个；–42至93区是汉字字符区，收汉字4888个，其中有268个多音字分配了一个以上的码位，出现重复编码；–41区和94区共188个码位，是用户自定义区。•韩国于1991年制定了编码字符集的辅助集KSC5657-1991，增收汉字2856个。中日韩汉字字符集比较•中国国家语言文字工作委员会曾将GB2312和JIS0208中的汉字做过比较。–GB汉字6763个，JIS汉字6353个，它们之间相同的汉字为1851个，相近的汉字为1393个，相同和相近的汉字总数为3244个。–从GB方面看，有48%的一致，从JIS方面看，有51%的一致。•有人曾将韩国文教部规定的大中学用汉字1800字与GB12345中的繁体字做过比较，发现1800字中的1791个汉字均可在GB12345中找到，占99.5%。•这些比较研究说明，中、日、韩的汉字标准，存在着大面积的相互覆盖，它们为中、日、韩汉字的统一编码提供了相当充足的事实根据。《信息技术通用多八位编码字符集（UCS）》•国际标准化组织（ISO）于1984年开始研究、制定《信息技术通用多八位编码字符集（UCS）》国际标准，即ISO/IEC10646。•1993年5月，该标准的第一部分：体系结构与基本多文种平面（即ISO/IEC10646.1）正式发布。前后经历了九年的时间。•它对UCS的总体体系结构和基本多文种平面（BasicMultilingualPlane，简称BMP）做了规定。–在BMP内，A区用于字母文字、音节文字和各种符号的编码；–I区用于中、日、韩（CJK）统一的表意文字编码；–O区留作未来标准化之用；–R区作为BMP的限制使用区，用于专用字符、变形显现和兼容字符的编码。中日韩汉字统一编码•I区中的表意文字采用中、日、韩汉字统一编码方式；•以现有的各标准字符集为源字符集，将其中的汉字按统一的认同原则进行认同和甄别后，生成涵盖各源字符集；•按东亚著名的四大字典（《康熙字典》、《大汉和字典》、《汉语大字典》、《大字源》）的页码/字位综合排序的CJK汉字统一字汇和字序，构成UCS中的表意文字部；•共包括20902个汉字字符。国际标准字符集编码原则•第一，按文字（script）编码，而不是按语言、国度、地域和专业编码：在汉字文化圈内，汉字经历了许多世纪的字形演变和字义漂移，它们原来的形状和含义都已经发生了变化，但是，它们在字形、字音和基本含义方面仍然存在着相似性，它们事实上就是一种超越语言的“广义汉字”，因此，统一编码时不考虑语言、国度、地域和专业的不同。•第二，不允许（或尽量避免）重复编码。•中、日、韩汉字的