构造汉语的统计计算语言模型

woool1230
0 ℃
2020-03-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

汉字编码1汉字编码汉字编码2汉字编码现状及其根源多种编码方案共存，不利于交流和共享新旧标准同台使用，需相互转换统一标准正在形成中、日、韩、新等多国同时使用汉字简繁体汉字并存地区、国家间的文化、政治差异增加了汉字统一编码的难度汉字编码3主要汉字(文字)编码标准与规范ASCII(英文)GB2312GBKGB13000GB18030BIG5Shift_JISISO/IEC10646Unicode汉字编码4汉字的几种通行名称Hanzi,Hantsu,汉字Ideographiccharacter,表意字符，中文字符Kanji-日文中的叫法Hanja-朝鲜文中的叫法CJK-中日韩通用字符集Unihan汉字编码5ASCII码美国信息交换标准编码(“美标”)用从0到127的128个数字来代表信息的规范编码包括33个控制码，一个空格码，和94个形象码形象码中包括了英文大小写字母，阿拉伯数字，标点符号等国际上大部分电脑的通用编码汉字编码6文本文件与二进制文件字符大都是用一个八位二进制数字表示，美标只规定了128个编码，剩下的另外128个数码没有规范，美标中的33个控制码，各厂家用法也不尽一致文本文件(ASCIITextFiles)：美标形象码或空格码组成，通常可在不同电脑系统间直接交换二进制文件(BinaryFiles)：含有控制码或非美标码的文件，通常不能在不同电脑系统间直接交换汉字编码7国标、区位、“准国标”、机内码国标：中华人民共和国国家标准信息交换用汉字编码国标(GB2312-80)表（基本表）把七千余汉字、以及标点符号、外文字母等，排成一个94行、94列的方阵每一横行叫一个“区”，每个区有九十四个“位”一个汉字在方阵中的坐标，称为该字的“区位码”例如“中”字在方阵中处于第５４区第４８位，它的区位码就是5448汉字编码8区位码表区位码来源于信息交换用汉字编码字符集（基本集）国家标准(GB2312-80)，该标准收汉字6763个，第一级3755个，位于16至55区，55区的最后5个字符没有定义；第二级3008个，位于56至87区第一级汉字按照汉语拼音字母顺序排列，同音字以笔形顺序横（一）、直（丨）、撇（丿）、点（丶）、折（乙）为序。起笔相同按第二笔，依次类推。第二级汉字按部首排序，本标准采用的部首与一般字典用的部首基本相同，略有改变。部首次序及同部首字按笔划数排列，同笔划数的字以笔形顺序横（一）、直（丨）、撇（丿）、点（丶）、折（乙）为序。起笔相同按第二笔，依次类推。查表时先查区号，再查行、列，例如：“、”是0102，“蔼”是1610。汉字编码9例01区12345678902区1234567890、。·ˉˇ¨〃々0ⅰⅱⅲⅳⅴⅵⅶⅷⅸ1—～‖…‘’“”〔〕1ⅹ⒈⒉⒊2〈〉《》「」『』〖〗2⒋⒌⒍⒎⒏⒐⒑⒒⒓⒔3【】±×÷∶∧∨∑∏3⒕⒖⒗⒘⒙⒚⒛⑴⑵⑶4∪∩∈∷√⊥∥∠⌒⊙4⑷⑸⑹⑺⑻⑼⑽⑾⑿⒀5∫∮≡≌≈∽∝≠≮≯5⒁⒂⒃⒄⒅⒆⒇①②③6≤≥∞∵∴♂♀°′″6④⑤⑥⑦⑧⑨⑩㈠7℃＄¤￠￡‰§№☆★7㈡㈢㈣㈤㈥㈦㈧㈨㈩8○●◎◇◆□■△▲※8ⅠⅡⅢⅣⅤⅥⅦⅧⅨ9→←↑↓〓9ⅩⅪⅫ汉字编码10例09区1234567890─━│┃┄┅1┆┇┈┉┊┋┌┍┎┏2┐┑┒┓└┕┖┗┘┙3┚┛├┝┞┟┠┡┢┣4┤┥┦┧┨┩┪┫┬┭5┮┯┰┱┲┳┴┵┶┷6┸┹┺┻┼┽┾┿╀╁7╂╃╄╅╆╇╈╉╊╋89汉字编码11例16区12345678917区1234567890啊阿埃挨哎唉哀皑癌0薄雹保堡饱宝抱报暴1蔼矮艾碍爱隘鞍氨安俺1豹鲍爆杯碑悲卑北辈背2按暗岸胺案肮昂盎凹敖2贝钡倍狈备惫焙被奔苯3熬翱袄傲奥懊澳芭捌扒3本笨崩绷甭泵蹦迸逼鼻4叭吧笆八疤巴拔跋靶把4比鄙笔彼碧蓖蔽毕毙毖5耙坝霸罢爸白柏百摆佰5币庇痹闭敝弊必辟壁臂6败拜稗斑班搬扳般颁板6避陛鞭边编贬扁便变卞7版扮拌伴瓣半办绊邦帮7辨辩辫遍标彪膘表鳖憋8梆榜膀绑棒磅蚌镑傍谤8别瘪彬斌濒滨宾摈兵冰9苞胞包褒剥9柄丙秉饼炳汉字编码12例54区12345678955区1234567890帧症郑证芝枝支吱蜘0住注祝驻抓爪拽专砖1知肢脂汁之织职直植殖1转撰赚篆桩庄装妆撞壮2执值侄址指止趾只旨纸2状椎锥追赘坠缀谆准捉3志挚掷至致置帜峙制智3拙卓桌琢茁酌啄着灼浊4秩稚质炙痔滞治窒中盅4兹咨资姿滋淄孜紫仔籽5忠钟衷终种肿重仲众舟5滓子自渍字鬃棕踪宗综6周州洲诌粥轴肘帚咒皱6总纵邹走奏揍租足卒族7宙昼骤珠株蛛朱猪诸诛7祖诅阻组钻纂嘴醉最罪8逐竹烛煮拄瞩嘱主著柱8尊遵昨左佐柞做作坐座9助蛀贮铸筑9汉字编码13例56区12345678957区1234567890亍丌兀丐廿卅丕亘丞0佟佗伲伽佶佴侑侉侃1鬲孬噩丨禺丿匕乇夭爻1侏佾佻侪佼侬侔俦俨俪2卮氐囟胤馗毓睾鼗丶亟2俅俚俣俜俑俟俸倩偌俳3鼐乜乩亓芈孛啬嘏仄厍3倬倏倮倭俾倜倌倥倨偾4厝厣厥厮靥赝匚叵匦匮4偃偕偈偎偬偻傥傧傩傺5匾赜卦卣刂刈刎刭刳刿5僖儆僭僬僦僮儇儋仝氽6剀剌剞剡剜蒯剽劂劁劐6佘佥俎龠汆籴兮巽黉馘7劓冂罔亻仃仉仂仨仡仫7冁夔勹匍訇匐凫夙兕亠8仞伛仳伢佤仵伥伧伉伫8兖亳衮袤亵脔裒禀嬴蠃9佞佧攸佚佝9羸冫冱冽冼汉字编码14例86区12345678987区1234567890觥觫觯訾謦靓雩雳雯0鳌鳍鳎鳏鳐鳓鳔鳕鳗1霆霁霈霏霎霪霭霰霾龀1鳘鳙鳜鳝鳟鳢靼鞅鞑鞒2龃龅龆龇龈龉龊龌黾鼋2鞔鞯鞫鞣鞲鞴骱骰骷鹘3鼍隹隼隽雎雒瞿雠銎銮3骶骺骼髁髀髅髂髋髌髑4鋈錾鍪鏊鎏鐾鑫鱿鲂鲅4魅魃魇魉魈魍魑飨餍餮5鲆鲇鲈稣鲋鲎鲐鲑鲒鲔5饕饔髟髡髦髯髫髻髭髹6鲕鲚鲛鲞鲟鲠鲡鲢鲣鲥6鬈鬏鬓鬟鬣麽麾縻麂麇7鲦鲧鲨鲩鲫鲭鲮鲰鲱鲲7麈麋麒鏖麝麟黛黜黝黠8鲳鲴鲵鲶鲷鲺鲻鲼鲽鳄8黟黢黩黧黥黪黯鼢鼬鼯9鳅鳆鳇鳊鳋9鼹鼷鼽鼾齄汉字编码15国标、区位、“准国标”、机内码94:美标中形象码的总数,33--126汉字区、位码各加上32，就会与美标形象码的范围重合,称为该字的“国标码”,与其相对应的两个美标符号，为该字的“国标符”如何区分国标符与美标符：国标码的两个数字各加上128，称“准国标”或“机内码”机内码=（区位码）H+8080H+2020H汉字编码16BIG5码针对繁体汉字的编码，在台湾、香港的电脑系统中得到普遍应用第一字节第二字节A1~A240~7E/A1~FEA340~7E/A1~E0C6A1~FE非汉字C7~C840~7E/A1~FEA4~C540~7E/A1~FE一级汉字C640~7EC9~F840~7E/A1~FE二级汉字81~A040~7E/A1~D5汉字编码17ISO/IEC10646一个国际标准编号,国际标准化组织（ISO）1993年正式颁布英文全称：Informationtechnology-UniversalMultiple-OctetCodedCharacterSet,简称UCS中文全称：信息技术--通用多八位编码字符集，亦称大字符集宗旨:全球所有文种统一编码汉字编码18Unicode英文UniversalCode的缩略语统一编码是对国际标准ISO/IEC10646编码的一种称谓是一个企业联盟集团的名称,由美国的HP、Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码就内容而言，Unicode和ISO/IEC10646是一致的，并行的汉字编码19CJK-中日韩统一汉字把中国、日本与韩国的英文称谓的首字母用于ISO/IEC10646中的中、日、韩统一编码汉字的简称UnihanCJKV或许更准确，V代表越南汉字编码20ISO/IEC10646的体系结构四维的编码空间总体上分为128个三维组（group）,group的值范围是从00到7F每一组包含256个平面(plane)，每一个平面包含256行(row)，每一行包含256个字位(cell)，又称为“列”,plane、row、cell的值范围都是从00到FF全编码整个编码字符集的每个字符都是由4个八位序列表示,(按照组八位、面八位、行八位、列八位的顺序)可编码空间为：128X256X256X256=32KX64K汉字编码21ISO/IEC10646体系结构图Group7FPlane00of7FGroup01Group00PlaneFFofGroup00Plane02ofGroup00Plane01ofGroup00Plane00ofGroup00BMP汉字编码22基本多文种平面第一个平面（00组中的00平面）称作BasicMultilingualPlane(基本多文种平面)，简称BMP，并在其上规定了双八位形式，它可以作为双八位编码字符集使用,即在此平面上仅用行、列两个八位就可以表示一个编码字符汉字编码23BMP的最新概貌A-Zone(00至4D行)：拼音文字编码区,拉丁文、阿拉伯文、日文的平假名及片假名、数学符号等都在此区域编码CJKUnifiedIdeographs，ExtensionA(3400-4DB5)(6000多码位)CJKUnifiedIdeographs(4E00-9FA5)(20902个编码汉字)韩文(AC至D7这44行（44X256=11264）)S-ZONE(D8至DF行)forUTF-16R-Zone(E0至FF行):限制使用区，一些兼容字符、字符的变形显现形式、特殊字符等均放在此区汉字编码24ISO/IEC10646空间分配现状00平面:BMP，被用于全球现已规范语种的基本文字编码，编码空间已基本饱和01平面:作为拼音文字辅助平面02平面:作为汉字辅助平面，CJKExtensionB即将放入该平面E0至FF平面:作为该标准的专用平面来使用其它空间尚未分配汉字编码25ISO/IEC10646中CJK汉字组成CJK统一编码汉字（20902）CJK扩充集A(6585)CJK扩充集B(4万--)汉字编码26什么是UTF?UnicodetransformationformatUCStransformationformat从Unicode码点到唯一字节序列的映射算法，一一映射，保证无损转换汉字编码27UTF-16Unicode标准的16位编码形式为每个字符指定一个16位的值编码形式与ISO/IEC10646中的定义形式相同以一个16位的值来编码映射到不大于65535数值的字符，映射到大于65535的数值的字符则被编码成一组16位的值（代用对）汉字编码28UTF-8为满足面向字节、基于ASCII码系统的需要而制定(主要用于数据传输、互联网)用最多达4个字节的序列来表示每个字符，为有效分析字符串，用第一个字节指明某个多字节序列中的字节数通常用于数据交换Unicode编码点和UTF-8编码字符之间的关系Unicode范围UTF-8编码的字节0x00000000-0x0000007F0xxxxxxx0x00000080-0x000007FF110xxxxx10xxxxxx0x00000800-0x0000FFFF1110xxxx10xxxxxx10xxxxxx0x00010000-0x001FFFFF11110xxx10xxxxxx10xxxxxx10xxxxxx汉字编码29UTF-32每个字符都表示成一个32位的整数码长相等，便于某些特殊情况的处理Unix系统使用汉字编码30字节顺序标记(BOM)指示处理器怎样把连续的文本放到一个字节序列中权值最低的字节位于开头叫做“little-endian”,权值最高的字节位于开头叫做“big-endian”可用作识别文本文件编码形式的依据特定编码的字节顺序标记的十六进制表示编码编码后的BOMUTF-16big-endianFEFFUTF-16little-endianFFFEUTF-8EFBBBF汉字编码31Windows对Unicode的支持Windows3.1,WindowsNT4,Windows2000,WindowsXP支持Unico