教学课件1教学课件2OpticalCharacterRecognition文档图像电子文档教学课件3字符识别的历程概念的提出始于1929年国内的研究从70年代才开始,目前已经达到国际先进水平,其中汉字工作识别技术已经位居国际领先教学课件4字符识别的类型脱机联机教学课件5银行领域的应用教学课件6税务领域的应用-3/8224*-32/7302674/17*62+62091**8*108*-5/++425-0*52-975*3880029825-教学课件7电子政务领域的应用电子公文审批与流转电子公文的识别与查询教学课件8OCR应用的技术组成图像处理版面分析版面还原格式化输出字符识别字符分割表格识别字体识别语义后处理字符识别字符分割图像处理教学课件9图像处理去噪声、平滑、去黑边、倾斜校正等教学课件10教学课件11版面理解教学课件12表格识别教学课件13字符分割行分割字分割教学课件14字符识别教学课件15字体识别宋体仿宋黑体楷体隶书魏碑圆体教学课件16语义后处理中国触结解泼木岁济平光先疥天大发限屏永示晨乒年本乎绪讳屠水严申的创徘绳经络围牛图囤午印固先天中固光大图解本年水平中国经济发展展中国的经济发展水平教学课件17格式化输出教学课件18目前挑战性的课题脱机手写汉字识别超大字符集的印刷字符识别非定制版面分析教学课件19OCR涉及的模式识别问题一致性假设在统计意义下,一般假设:样本与分类对象具有同分布。给定的所有分类对象独立同分布。教学课件20样本的分析决策对样本空间划分的有效性。推广能力:决策对分类对象的有效性。教学课件21贝叶斯决策理论已知的先验概率需要决策的类别数是一定的基于模型的方法教学课件22人工神经网络缺乏充分的理论基础局部极小点问题过学习与欠学习的问题教学课件23支持向量机统计学习理论一种专门研究小样本统计学习规律的理论九十年代初取得重要进展教学课件24核技术可以证明,一定存在一个映射,称为核函数,将在欧式空间定义的样本映射到特征空间(一个更高维的空间),使得在特征空间上,样本构成两个不相交的闭凸集。研究核函数选择的技术称为核技术。教学课件25对比测试教学课件26弱分类器如果一个分类器的分类能力(泛化)稍大于50%,这个分类器称为弱分类器。这意味着,比掷硬币猜正面的概率稍好,就是弱分类器。教学课件27集成采用投票的方式决定新样本类别。由于每个分类器的分类能力不同,在集成时,需要对所有分类器加权平均进行分类。1990年Shapire证明,如果将多个弱分类器集成在一起,它将具有强分类器的泛化能力。教学课件28谢谢!