印刷体汉字识别方法的研究作者姓名xx专业电子信息工程指导教师姓名王导专业技术职务目录摘要...............................................1第一章绪论.....................................21.1汉字识别研究的意义....................................21.2印刷体汉字识别研究的背景..............................3第二章汉字识别技术.............................42.1汉字识别概述.........................................42.2汉字识别的原理........................................42.3汉字识别的一般方法....................................52.4印刷体汉字识别问题与困难.............................5第三章印刷体汉字识别的研究.....................73.1印刷体汉字识别技术的发展历程.........................73.2印刷体汉字识别的原理分析及算法研究...................83.2.1预处理.............................................93.2.2汉字特征提取......................................113.2.3汉字的分类识别....................................123.2.4后处理............................................153.3印刷体汉字识别技术分析..............................163.3.1结构模式识别方法..................................163.3.2统计模式识别方法..................................173.4印刷体汉字识别的分类................................18第四章系统的实现与仿真........................194.1系统的实现..........................................194.2系统的仿真..........................................20第五章总结与展望..............................235.1总结................................................235.2展望................................................23参考文献............................................25附录...............................................26致谢..............................................331摘要汉字识别技术是一种高速、自动的信息录入手段,成为未来计算机的重要职能接口,还可以作为办公自动化、新闻出版、机器翻译等领域的理想输入方式,有着广泛的应用前景。汉字识别的最终目的是使中文信息能更自然,更方便地输入计算机,以便于进一步处理.实际生活中,大量的书信、报纸、杂志内容需要输入计算机,这就是印刷体汉字识别要解决的问题。本文首先就汉字识别研究的意义及背景作了综述。第二章介绍了汉字识别的基本过程以及印刷体汉字识别研究存在的问题与困难。第三章对印刷体汉字识别作了详细阐述,论述了印刷体汉字识别的原理和预处理、特征抽取与分析、后处理过程;着重分析了统计模式识别方法、结构模式识别方法以及匹配识别;第四章用Matlab对系统进行了仿真;最后阐明了汉字识别技术研究今后发展的方向。关键词:印刷体汉字识别特征提取匹配识别统计模式识别Matlab仿真ABSTRACTChinesecharacterrecognitiontechnologyisakindofautomatichigh-speed,informationinputmethod,becometheimportantfunctionsofthecomputerinterface,2stillcanasofficeautomation,thepressandpublishing,machinetranslation,etc,theidealinputhaswideapplicationprospects.TheaimofChinesecharacterrecognitionistomaketheChineseinputmorenaturalandconvenientsothatthecomputercouldprocessChineseinformationmoreeasily.Inpractice,largevolumeofletters,newspaper,magazinesneedtobecoveredintoacodedrepresentationoftheinputcharacters.That'swhatprintedChinesecharacterrecognitioncando.Firstly,thisthesisgiveswhatisthesignificanceofresearchandbackgroundofChinesecharacterrecognition.Inchapter2,thebasicprocedureofChinesecharacterrecognitionanddefectsanddifficultiesofprintedChinesecharacterrecognitionisintroduced.Everystepofrecognitioniselaboratedindetails.Inchapter3,wedescribeprintedChinesecharacterrecognitionsystemindetails,discussingtheprintcharacterrecognitiontechnology,andlooksforwardtothedevelopmenttrendofChinesecharacterrecognitiontechnology.Discussestheprinciplesandprintedcharacterrecognition,featureextractionandanalysis,thepost-processingprocess,Emphaticallyanalysesthestatisticalpatternrecognitionmethod,structuralpatternrecognitionmethodandmatchingrecognition.Inchapter4,givingansimulationforthesystem.Expoundedcharactersidentificationtechnologyresearchdirectionsoffuturedevelopment.Keywords:PrintedChinesecharacterrecognition;featureextraction;Matchingrecognition;Statisticalpatternrecognition;MatlabSimulation第一章绪论1.1汉字识别研究的意义汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。同时也是世界上使用人数最多和数量最多的文字之一。现如今,汉字3印刷材料的数量大大增加,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,信息量均是爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题[1],也是关系到计算机技术能否在我国真正普及的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问题。但人工键入速度不仅慢而且劳动强度大,一般的使用者每分钟只能输入40—50个汉字。这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。因此,对于大量已有的文档资料,汉字自动识别输入就成为了最佳的选择。因此,汉字识别技术也越来越受到人们的重视。汉字识别技术已经呈现出了广泛的应用前景,它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。汉字识别是模式识别的重要应用领域,也是光学字符识别OCR(OpticalCharacterRecognition)的重要组成部分[2]。汉字识别是一门多学科综合的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的发展。因而有着重要的实用价值和理论意义。1.2印刷体汉字识别研究的背景印刷体汉字识别是汉字识别研究中的一个重要课题。在以往的研究中,均十分重视印刷体汉字特征点提取的工作。所谓特征点,是指反映汉字形体特征整体分布状况的关键点集,即构成汉字笔划骨架线的端点、折点、交点等。如图1-1所示汉字图像“大”:汉字图像“大”的特征点。圆圈标出的点为特征点表示图1-1图像“大”特征点通常,对大多数结构稳定的汉字,一旦获得了正确的特征点集,就可能顺利地按照一定的策略和步骤(比如汉字的连接笔划、结构匹配等),将汉字形体划归为正确的字类,印刷体汉字识别的正确性就能够得到保证。当前,印刷体汉字特征点的识别效率还有进一步改进的空间。特征点提取方法属于句法结构模式识别方法之一。4另一方面,随着数字图像处理技术的发展和实际应用的需求,许多问题不要求其输出结果是一幅完整图像本身,而是将经过特定处理的图像,再分割和描述,提取有效的特征,进而加以判决分类。这种技术就是图像的模式识别。随着数字图像处理和模式识别技术的不断发展与广泛应用,图像的编码技术得到了飞速发展,并以其优良的特性在图像处理领域得到越来越多的运用。第二章汉字识别技术2.1汉字识别概述汉字识别(CCR:ChineseCharacterRecognition)是用电子计算机自动辨识印刷在纸上和人写在纸(或者介质)上的汉字。汉字识别技术是计算机智能接口的一个重要组成部分。从学科上划分.汉字识别属于模式识别和人工智能的范畴。它涉及到模式识别和图像处理、人工智能、形式语言学、模糊数学等众多学科,是一门综合性的技术。2.2汉字识别的原理汉字识别的基本思想是匹配判别。汉字识别可简单的分为两个过程:学习(训练)过程和识别过程。学习过程就是让计算机通过样本学习或训练提取出每个汉字的特征并存储起来,作为标准特征库,即模板库。识别过程中,计算机首先按学习过程中的特征提取方法提取出输入模式的特征,然后再与标准特征库中的特征进行匹配,匹配程度最大的汉字即为识别结果。因此,如何确定表达待识别汉字模式的最佳特征(组合优化特征),如何进行特征匹配,从而进行高效、快速的识别,是汉字识别技术的关键所在。抽取代表未知汉字模式本质的表达形式(如汉字的各种特征)和预先存储在机器中的标准汉字模式表达形式的集合(称为字典)逐一匹配,用一定的准则进行判别,在机器存储的标准汉字模