1票据OCR在银行后督系统的应用北京文通科技有限公司2014-08-112第一章引言银行业竞争日趋激烈,随着银行不断扩大自己的业务范围,产生了越来越多的纸质凭证,传统人工稽核票据模式在海量的凭证到来时已让银行稽核部门不堪重负。长期以来,银行档案管理工作因管理手段落后而造成的一系列麻烦和困惑,一直困扰着银行界,在票据处理方面,多数银行仍停留在“人工分散处理+纸质库房保存+人工查询”的阶段,成为阻碍金融电子化的薄弱环节。因此,建设“集中、统一、规范、高效”的电子化票据处理中心,已成为银行亟待解决的问题。北京文通公司凭借多年在OCR领域的绝对优势,应用文通银行票据识别系统,结合银行实际工作特点,和银行业内系统集成商密切合作,推出——银行票据事后监督解决方案。使票据处理达到“自动集中处理+电子安全保存+数据有效应用”的目标,不但保留了原始单据的图像文件,而且对图像文件进行识别后自动建立索引文件,进一步完成原始数据与单据的勾对工作,快速找出有问题的单据,并能根据建立的索引很快找出原始图像,进行查询和审核;能高效、快捷准确的完成事后监督的工作.3第二章系统概述对于大型商业银行以地、市级分行为单位,集中全辖业务档案,采用中高速扫描仪,批量录入文档影像,根据银行的具体需求可以选用不同档次的扫描仪。根据不同档案的特点、规范程度及查询需求,分别采用人工录入、版面自动分类、条码识别、精确要素识别等手段,为档案影像建立逐笔精确索引或小批量精确索引,可大大减少手工录入的工作量。在直辖市或省会城市分行,在本地建立电子档案中心。以日期为单位,将档案电子影像和索引数据刻录并保存至光盘,放入大容量光盘库中。银行管理部门、业务部门、营业网点可通过网络,在被允许的授权范围内,访问光盘库,自动查询相关的业务档案影像。其他地市级城市分行,可由省级管理部门牵头,建立区域性电子档案中心。地市分行完成档案扫描以后,通过网络,将档案影像及索引数据发送到区域电子档案中心,集中刻录光盘,设置大容量光盘库,集中归档存储,自动受理来自辖内各分行的档案影像查询请求。该模式适应了当前国内银行业由分散处理向集中处理发展的趋势。对于中小商业银行,电子化水平起点高,数据集中程度高,网络基础好,为建立全行电子档案中心提供了有利条件。以分行为单位,集中全辖业务档案,采用中高速扫描仪、平板扫描仪或摄像系统,批量录入文档影像。根据不同档案的特点、规范程度及查询需求,分别采用人工录入、版面自动分类、条码识别、精确4要素识别等手段,为档案影像建立逐笔精确索引或小批量精确索引。在总行(或异地)建立统一的电子档案中心。分行完成档案录入以后,通过网络,将档案影像及索引数据发送到电子档案中心,集中刻录光盘,设置大容量光盘库,集中归档存储。总行管理部门、业务部门、分行及营业网点,可通过网络,在被允许的授权范围内,访问电子档案中心的光盘库,自动查询并得到相关的业务档案影像。该模式适应了当前国内银行业由分散处理向集中处理发展的趋势。建立电子档案中心以后,可充分发挥电子影像记录准确、精度高、质量好、信息存储量大、节省空间、规格统一的优点,便于信息交流、传递和收集,并可更好地保护原始档案,减少因原始档案保管不当而引发的潜在风险。对部分重要客户,银行可开放查询接口。客户在授权范围内,可自行访问和查阅到自己的业务凭证影像。5第三章系统结构3.1系统结构系统结构分为两层,全部票据集中在分行进行处理,并集中保存缩微图像(部分票据可根据情况返还支行),各网点通过银行内部网络进行查询。扫描仪主要处理储蓄业务票据,结合OCR自动识别技术,实现票据图像经光刻机刻录成光盘后放入光盘库,供保管和查询中心服务器光刻机光盘服务器光盘库扫描仪扫描仪采用扫描方式,利用OCR识别系统,自动完成储蓄事后监督和建立逐笔索引。采用扫描方式,利用OCR识别系统,自动完成储蓄事后监督和建立逐笔索引。银行内部网络查询工作站查询工作站各网点可查询票据图像、报表及其它数据、经授权可打印。6自动储蓄事后监督。中心服务器负责整个系统的运行,光刻机负责缩微图像的光盘刻录工作,光盘服务器负责缩微数据的存储与管理。(二)、OCR识别流程及说明自动识别票据要素、自动勾对流水,自动建立图像索引,达到减员增效的目的。其运行如下图所示:说明:1.快速扫描仪获取图像并进行缩微处理,缩微后的票据提供给OCR识别系统进行自动识别。2.OCR识别系统确定票据种类。否票据快速扫描OCR识别处理是否通过OCR识别是自动勾对流水是人工补录并勾对是否通过流水勾对否特别处理自动建立索引73.通过OCR技术,提取票面信息,如日期、帐号、金额等,与复核文本进行核对(为保障OCR识别速度,需要较高的硬件配置)。4.核对通过后,建立票据索引。5.对于识别失败的票据,系统会自动将图像发送到补录机上,由人工依照票据图像进行补录,再与复核文本进行勾对。第四章文通银行票据识别系统特性文通银行票据识别系统是北京文通公司在TH-OCR识别核心的基础上开发的表格识别软件,其不仅可以完成金融领域风险监督系统中银行票据影像的OCR识别,并且可以实现其它表格类影像的自动识别(如各种申请表、测评表、定单、保险单等)。票据识别系统有两部份组成:表格模板编辑器和表格分类识别核心。其中表格模板编辑器完成表格模板的定制工作,并由识别模板指导识别核心进行影像分类和识别。4.1模板分类精细、准确率高:模板分类的准确率达到98%左右,规范凭证模板分类准确率超过99%;字段识别率高,单流水字段的识别率高于90%。银行票据识别系统不仅可以完成一种凭证打印同一种交易的模板分类,并可以完成同一种凭证打印多种交易以及同一种凭证分多联的凭证分类。本系统充分利于了凭证的标题、框线、打印文本等多种特征进行模板的区分。4.2支持多种字符类型的识别:印刷体汉字、印刷体英文数字、手写汉字、手写数字、磁码、复选框、条码识别(一维条码支持:Code39,8Code128,Code32,EAN-128,EAN-13andJAN,EAN-8,UPC-A,UPC-E,Add2,Add5,BCDMatrix等;二维条码支持:PDF417和DataMatrix)等。4.3模板编辑器便捷高效:可以很便捷的制作出高识别率的模板。第五章文通银行票据识别系统功能5.1模板编辑器5.1.1文通银行票据识别系统提供了便捷的模板制作工具:模板编辑器。模板为识别过程提供指导,包括分类标识、定位标识、识别要素等详细信息。分类标识信息包括:图像大小、版面特征文件、框线信息、标题信息、文本信息等多种分类信息。在识别过程中具体采用的分类算法可以通过模板编辑器在主模板中配置。识别区域支持多种字符类型:包括:印刷体汉字、印刷体英文数字、手写汉字、手写数字、磁码、复选框、条码识别等,可以快速灵活配置识别单元的类型。5.1.2票据分类功能强大:系统同时支持表格框线(位置、颜色)分类、标题单元(标题内容、标题颜色)分类、文本区域(文本内容、文本颜色)分类等,以最大限度发掘不同凭证之间的差异。如框线颜色、标题颜色均可以用来区分多联凭证的不同联;文本内容可以区分同一凭证打印多种交易的影像;文本颜色可以用来区分同一种凭证分多联并且不同联之间框线颜色和标题颜色均相同的影像。95.2识别预处理功能5.2.1文通银行票据识别系统在对影像进行识别前做了多项预处理操作,以为之后识别输出最优的图像质量,具体有纠偏、偏色校正、滤色、降噪、二值化、增强识别单元对比度等功能。这些预处理功能均可通过参数灵活配置、自由组合。5.3识别性能5.3.1适应性强:文通银行票据识别系统简体中文识别核心支持常用的宋体、仿宋、楷体、黑体、隶书、幼圆等汉字字体。印刷体英文和数字同样支持多种字体包括常见的:Arial、TimesNewRoman、AvantGarde、BookmanOldStyle、Helvetica、Verdana等多种字体。通过对银行的几轮测试对横纵向压缩后的数字识别有很好的适应性,能取得较高的识别率。5.3.2票据分类精准:文通银行票据识别系统有很强的版面区分能力,充分利于框线、框线颜色、标题内容、标题颜色、文本内容、文本颜色等多种特征来进行版面的区分,版面识别的准确率在99%以上。5.3.3识别类型丰富:系统支持印刷汉字识别、印刷英文识别、印刷数字识别、手写汉字识别、手写英文识别、手写数字识别、磁码识别、条形码识别、客户签字检测、附件章检测等多个识别引擎。5.3.4识别速度快:经过实际生产线运行计算,单张票据识别时间为300ms~900ms,平均识别时间约为500ms。105.3.5识别率高:印刷体汉字识别率达99.5%;印刷体英文和数字识别率>99.6%;规范手写数字识别率达99%;一维条码、二维条码(PDF417、DataMatrix)识别率>99%。