中文信息处理-复习提纲资料.精讲

zdjca123
3 ℃
2020-03-12

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1复习提纲《中文信息处理概论》徐润华，2014年秋季2语言信息处理语言信息处理就是用计算机对自然语言在各个层次（语素、词、短语、句子、段落、篇章）上的各种表现形式（图像、声音、文本）的信息进行处理：输入、输出、转换、存储、压缩、检索、抽取和提炼。涉及智能处理时往往是“用计算模型”而非仅仅是“用计算机”。3语言信息的抽取和提炼数据是具体的，知识是概括的。目前是数据太多而知识太少，信息爆炸但又面临知识获取的瓶颈问题。数据挖掘从数据仓库中挖掘知识，语言信息处理则要从语料库中挖掘语言知识。4中文信息处理的特殊性汉字的特殊性：字数多，简体、繁体和异体，与外文字符的协调处理。书面汉语的特殊性：需要进行词语切分。汉语语音的特殊性：语音系统简单。汉语语法的特殊性：形态贫乏。5中文信息处理的研究内容基础研究：包括汉字字符集的编码体系，中文信息处理的发展战略和基本方法，汉语计算模型，汉语语料库和语言知识库的建设，系统自动评测，等等。应用研究：面向最终用户的系统软件和应用软件的设计和研制。6中文信息处理的一些基础性技术研究课题自动分词：将口语或书面语中的词切开（词是基本的语言单位，很多应用研究需要先自动分词）。词性标注：标出词在具体上下文中的词类（词性序列目前是大多数句法分析器的输入）。词义标注：标出词在具体上下文中的义项或义类（服务于信息检索、机器翻译等应用研究）。句法分析：分析出句子中每个语法形式的结构关系和所处层次（服务于机器翻译等应用研究）。7中文信息处理的一些应用研究课题汉字识别（印刷体识别，手写识别，图片、视频中的汉字识别）汉语语音识别（自动听写，口语查询，口语命令）汉语语音合成（朗读机，自动查询中的口语反馈）汉语信息检索（搜索引擎，自动文摘，文本分类）汉外机器翻译（例如Google的在线翻译）其他：汉字输入法，自动校对，机器辅助词典编撰，机器辅助汉语、汉字教学，少数民族语言信息处理，古代汉语信息处理，等等。8基于规则的方法用确定性的规则来做问题求解。理性主义方法。优势：便于利用专家知识，无须先做人工标注。困难：专家知识可能不全面、不充分或不适用。自动分词的最大匹配法是一种基于规则的方法，用待切分汉字串中的子串去查词表，查到了就算是词（优先查找较长子串）。例如：这首诗太平淡了“太平淡”应该切成“太/平淡”还是“太平/淡”？汉语词汇学没有提供这种知识。9基于统计的方法把从语料库中得到的统计数据作为模型参数，用模型来做问题求解。经验主义方法。优势：系统容易构造，效果通常不错。困难：数据稀疏，领域转移困难。自动分词的概率方法是一种基于统计的方法，根据词频表将待切分字串中所有可能的词都找出来，然后求出一种概率乘积最大的切分。例如“太平淡”的各种可能切分中第一种概率乘积最大：太平淡太平淡太平淡10训练集、开发集、测试集通常把经过人工标注或人工校对的实验用语料库划分为训练集、开发集、测试集三个集合，训练集用于提供模型参数，开发集用于实验过程中检验和改进模型性能，测试集用于实验结束后最终评判模型性能。计算机只能从训练集里学习模型参数。开发集和测试集则都是作为评测的标准答案。例如，将实验用语料划分为10份，其中开发集和测试集各1份，其余8份作为训练集。11常用的性能评价指标正确率：又称精确率（Precision），正确处理的实例个数占所处理的实例个数的比率。例如，人名识别的正确率等于正确识别的人名个数除以系统认为是人名的个数。召回率：（Recall），正确处理的实例个数占应该处理的实例个数的比率。例如，人名识别的召回率等于正确识别的人名个数除以文本中实有的人名个数。调和平均值：（F-measure），正确率和召回率的综合表示，F＝(2+1)PR/(2R+P)，通常取＝1，则F＝2PR/(R+P).12测试封闭测试：运用从训练集里获取的数据（模型参数或规则）来测试训练集本身，目的是对模型的性能有初步了解。但是，封闭测试成绩可能主要反映模型对训练集的过度学习（学了太多琐碎的、依赖于罕见语境的数据）。开放测试：运用从训练集里获取的数据来对测试集进行测试，目的是检验知识的覆盖能力。开放测试成绩通常低于封闭测试，但能够更真实地反映模型性能。13字型用同一方法制作的字符造型的集合。根据造型方法可分为三类：点阵字型：用m×n像素阵列表示字符造型，占用空间大，缩放质量难以保证。矢量字型：用一组折线表示字符造型，占用空间小，但放大字号时不够美观。轮廓字型：用一组直线或曲线表示字符内外轮廓，字型质量高，占用空间小，可无级变倍，目前视窗平台一般使用轮廓字型。14字节、字符和编码字符集字节是计算机上信息存取的基本单位，一个字节是8个二进制位，可表示28＝256种状态。字符是文字单位，一个字符可以是一个字节，如ASCII字符，也可以由多个字节表示，如汉字。汉字字符集规模远大于256，因此不可能只用一个字节来表示。将一批字符统一编码，让字符跟整数一一对应，以便于在计算机上表示，就形成一个编码字符集。15ASCII字符在计算机上，西文字符的编码一般是由美国的标准信息交换码体系规定的，通称“ASCII码”，该标准已被国际标准化组织接受为国际标准。ASCII码的7位版本，包括10个阿拉伯数字、52个大小写英文字母、32个标点符号和运算符以及34个控制码，共计128个字符（27=128）。一个字节有8位，7位ASCII码只用后边7位，最高位是0，可以此区分ASCII字符与双字节字符。编码空间的争夺，“先入为主”：其他文字（包括中文）的编码需避开此一空间。16中国《信息交换用汉字编码字符集·基本集》（GB2312-80）信息交换用，与国际标准ISO2022相容。每个字符用两个字节编码，两个字节取值范围都是161～254，编码空间为94×94＝8836。按字形编码，多音字一码，同音字多码。6763个通用汉字，加其他字符共7445个。一级汉字3755个，按拼音排序；二级汉字3008个，按部首排序。第一个汉字“啊”，编码为176,161。最后一个汉字“齄”，编码为247,254。17Big5：台湾地区的汉字字符集编码通行于中国台湾地区和港澳地区。可用于信息交换和信息处理。通常叫做“繁体中文”。分为常用字和次常用字两个字面，每个字面都按照笔画数和部首来排序。编码空间为：第一字节161～254，第二字节64～126，161～254，共有14758个码位。也是94区，但每区有94+63位。18GB13000(GBK)：汉字内码扩展规范GB13000（GBK）是一个指导性规范，由电子部科技质量司和国家技术监督局标准化司于1995年12月颁布，可用于信息交换和信息处理。其编码空间为：第一字节为129～254，第二字节为64～254（缺127），共有23940个码位，其中汉字20907个。GBK兼容GB2312-80的所有汉字（6763个汉字的代码有简单的对应关系），而且在字汇一级支持CJK，涵盖Big5（但代码不一致）。GBK缓解了汉字编码空间窄小的困难，但还不够。19等长码对字符集中所有字符按固定的码长来编码，叫做等长码。例如ASCII码是每个字符占一个字节、国标码、GBK和UTF-16都是每个字符占两个字节。等长码的缺点是缺乏灵活性：编码空间小，则能够使用的字符少；编码空间大，则文本空间浪费大。例如，一个文本主要是英文字符，有少量汉字，用UTF-16则浪费大量空间。又如，一些中文古籍用GBK编码仍然不够，若汉字使用三字节等长码，由于绝大多数汉字只需两字节，因此文本存储空间浪费一半。20等长码：UTF-16（Unicode）各种字符（包括中英文）都是16位编码。每个字符映射为一个短整数（0～65535），计算机处理更方便。有Little-endian和Big-endian两种形式。前者低位字节在前，Word软件中简称Unicode；后者高位字节在前。例如“買”字的Unicode编码是36023，前者存储为16进制的B78C，后者存储为16进制的8CB7，即分别为二进制的：B78C(11×16+7)+(8×16+12)×256＝36023(8×16+12)×256+(11×16+7)＝360238CB721变长码若码长不固定，则称为变长码。如UTF-8和GB18030，其中ASCII字符用一个字节表示，汉字用2～4个字节表示。变长码的优点：能有效地解决编码空间与文本存储空间的矛盾。变长码的缺点：使用变长码时，要有办法识别字符界限。因此编程时比较麻烦。（麻烦留给程序员，方便留给用户。）22变长码：GB18030－2000《信息交换用汉字编码字符集基本集的扩充》，是由信息产业部和国家质量技术监督局在2000年6月17日联合发布的，并作为一项强制性国家标准在2001年9月1日后正式执行。单字节字符：0～127，兼容ASCII字符。双字节字符：第一字节129～254，第二字节64～254（不包括127），兼容GBK字符。四字节字符：第一字节129～254，第二字节48～57，第三字节129～254，第四字节48～57，共有1587600个码位。例如“𦗓”：151,50,217,5123GB18030如何表示字符界限？下面是一个GB18030编码的文本（每个字节用十进制整数表示）：1505520657185214206709748请问这里面有几个字符？每个字符由哪几个字节组成？24GB18030－2000的优点这一标准既解决了“汉字稀少文本”的存储问题，又解决了超大汉字字符集文本的存储问题。所有的ASCII文本当然也是GB18030编码的文本。兼容GBK编码，因此原先GB2312或GBK编码的文本当然也是GB18030编码的文本。Windows操作系统对GB18030支持不够。25变长码：UTF8UTF8是Unicode的另一种具体实现，字符长度不限，每个字节都有标志位，便于识别，如：单字节：0*******，表示ASCII字符双字节：110*****10******三字节：1110****10******10******四字节：11110***10******10******10******以英文字符为主体的文本，如果用UTF16存储则太浪费空间，变长码UTF-8解决了这一问题。汉字16位编码，用三个字节，将8个标志位去掉便是汉字的UTF-16编码。26常见编码字符集一览表字符集码长码位数汉字数备注ASCII1128/2560GB2312288366763简体GB1300022394020902兼容GB2312GB180301～4161179620902兼容GBKBig5214758繁体UTF-1626553520902Unicode，下同UTF-81～46553520902汉字码长3字节27汉字的输入码汉字输入法也叫汉字编码，所编的是输入码，又叫“外码”，指键位表示（击键序列），不同于字符集编码（“内码”）。外码是为键盘输入服务的，内码是为信息交换和信息处理服务的。输入法的目的就是要将汉字的外码转换为内码。一个汉字字形只有一个内码，但在一种输入法可以有多个外码，例如“我”在基于拼音的输入法中有“w”、“wo”等外码。28输入码中的“重码”一个内码只表示一个汉字。但在一些输入法中，一个外码可以表示几个汉字，这叫“重码”。重码就是输入码的歧义。例如在基于拼音的输入法中，“wo”可表示“我”、“握”、“窝”等。字符集编码以汉字字形为单位，输入码可以以字、词、字串和句子为单位。因此不仅单字有重码，词也有重码，例如“wm”可表示“我们”、“文明”、“外面”等。29汉字键盘输入编码码元：用来给汉字编码的汉字特征信息元素（如音素、声韵、笔画、字根、部件等），码元的集合叫做码元集。键元：输入汉字时的击键（如字母键、数字键等），键元的集合叫做键元集编码方案：码元集对键元集的映射，以及一组完整的编码规则。汉字输入编码