11HEX企业OCR票据识别产品介绍22大纲产品功能介绍产品特点介绍典型场景与案例介绍系统架构介绍我们的优势33OCR系统主要功能OCR模板配置工具•OCR模版创建•OCR模版修改•OCR模版删除•OCR模版测试•OCR模版更新•OCR模版同步•OCR模版发布OCR服务器•进程登记•进程监控•调度管理•负责均衡•故障恢复•故障重新识别•队列规则管理•任务队列维护•切片缓存清理•切片调阅•外部接口(WebService/Http)•影像系统接口•REST接口OCR引擎•印刷汉字识别•打印汉字识别•数字识别•字母识别•图像纠偏•模式识别•图像切片•自定义字库•自定义库训练44FormEditor器介绍55OCR表单编辑器功能•空模版影像:用来模式匹配表单•定位影像:用来定位识别组或栏位表单:普通表单:不含子表单共享表单:含有多个子表单,各子表单共用同一模式匹配子表单:与共享表单共用一个模式匹配组:栏位的组合,可根据静态栏位调整整体偏移静态栏位:用来校准栏位定位识别栏位:固定区域识别内容动态识别栏位:动态查找定位并识别内容模式匹配栏位:字符串模式捕捉内容66其他功能介绍模式识别表单模版识别:影像模式匹配、关键字匹配纠偏识别汉字、数字、字母一维条形码、二维条形码切片DropOut印章检测77大纲产品功能介绍产品特点介绍典型场景介绍系统架构介绍我们的优势88表单编辑器特点与内容管理产品集成与测试集成一体化良好的操作交互一体化的发布99OCR服务器特点—自动负载均衡高可靠性保证支持横向扩展:通过增加物理服务器,增强计算能力。支持热部署:新节点自动加入OCR识别集群,并可立即参与计算。自动负载均衡:保证平均分配计算任务到各节点多线程:充分利用CPU计算资源多进程:极端情况下进程崩溃可自动恢复,不影响其它进程错误自动恢复:意外终止的识别任务自动重启,保证每个识别任务都能正常完成1010影响识别率的因素图像质量分辨率:影像变形度:例如摄像头拍摄影像变形严重干扰因素:污迹、锯齿、背景底纹等识别内容位置印刷版本不一致:同一个票据多次或多个印刷厂印刷通用模版:打印存在行偏差和列偏差变形字体不同厂商的针式打印机字体偏差大断针打印色带色带变浅字符相近数字“1”和字母“l”,数字“0”和字母“o”111190%以上的识别率保证措施识别语言设定汉字数字英文自定义识别语言字库设定设定特定字符集训练字库设定正则表达式数据校验数据捕获变形字体识别宽字体长字体斜体字识别基本影像处理自动倾斜校正,自动检测页面方向背景纹理过滤自适应二值化图像去斑颜色过滤,印章去除•相机拍摄影像处理3D影像扭曲自动纠正模糊影像的自动修正ISO降噪双页拆分字体格式去除带下划线带文本框架梳状框架1212自动栏位位置纠正根据静态栏位纠正整体偏移纠正通过“栏位组”,可纠正局部栏位坐标扩展栏位识别范围横向扩展纵向扩展1313高识别速度测试环境配置:运行环境:WindowsServer2008内存:8GBCPU:Intel(R)Core(TM)i7-2600CPU@3.40Ghz网络带宽:100M6.8毫秒396.5毫秒157.6毫秒561毫秒影像处理耗时影像模式匹配耗时识别耗时总耗时测试内容与结论:识别影像数:1000张(3个栏位/张),平均:0.561秒/张1414通用模版支持多个业务凭证共用一种印刷模板影像模式匹配仅处理一次通过关键字识别具体凭证名称不同业务类别不同业务类别1515通用模版1616通用模版(业务一:取款)1717通用模版(业务二:存款)1818通用模版(原始影像)1919通用模版模式匹配2020通用模版识别结果2121通用模版识别结果2222通用模版识别通过“栏位组”+静态栏位,可纠正局部栏位坐标2323通用模版内容偏移模版内容识别凭证内容2424滤色—原始凭证2525滤色—滤色后的区域2626原始凭证内容倾斜2727自动纠偏:文字倾斜2828原始凭证2929整体纠偏后效果3030整体纠偏后效果3131识别模版3232整体纠偏后识别3333智能识别纠偏“栏位组”+静态栏位,纠正后的栏位效果3434栏位设定识别字典3535栏位设定识别字典通过设定识别字典,提升识别率3636栏位单独颜色处理通常一些栏位与印章区域较近,需要通过单独的颜色处理来过滤颜色。3737训练字库针对断针,变形字体等情况的处理3838正则表达式栏位校验典型使用场景:身份证栏位校验金额栏位校验编码校验等3939附件章识别4040大纲产品功能介绍产品特点介绍典型场景与案例介绍系统架构介绍我们的优势4141适用业务场合办公文字识别整页打印识别条形码识别财务票据识别发票识别财务报表识别事后监督业务票据识别帐号、金额、交易流水部分手写数字版本识别国际业务票据内容识别4242整篇文字识别4343事后监督票据识别柜面票据模式匹配重要票据切片支票、开户信息等栏位识别金额、帐号、流水号对手信息4444国际业务装箱单识别4545国际业务装箱单识别4646财务票据识别发票编号乘客姓名发票金额4747识别集成场景与业务系统集成嵌入识别现有影像控件OCR云服务识别API返回识别结果4848我们的优势1、高识别率:单字段识别率高于90%,正确率80%以上;2、系统在应用层实现自动负载均衡,采用普通PC可以实现高可靠性;3、核心算法识别、切片速度快,普通PC识别速度在1秒以内;4、对图像质量要求低,对与拍摄途径的影像具有高识别率;5、产品标准化程度高,开箱即用,建设、使用和改造成本低;4949系统性能规格进程数量硬件配置识别内容识别速度切片速度1Intel(R)Core(TM)i7-2600CPU@3.40Ghz内存:8GB票据201片/分钟961片/秒1Intel(R)Core(TM)2DuoCPUP7450@2.13Ghz内存:2GB票据158片/分钟385片/秒1Intel(R)Core(TM)2DuoCPUT8100@2.10Ghz1.19GHz内存:2GB票据67片/分钟48片/秒5050OCR比较测试案例测试内容:针对某银行提供的29类业务票据共进行了3次测试累计测试票据1200张,每张票据识别流水号+金额+帐号。指标定义:栏位识别正确率:该栏位识别内容与原是内容一致的比例正确率定义:同一张票据三个栏位全对比例凭证识别率:识别的凭证与实际的凭证相符的比例测试结论:HEXOCR单字段识别率在81.92%以上比其他厂商高出10%以上,全部正确率在76.6%,笔其他同行高出15%,由于识别率提升,提升了事后监督业务一次性勾兑成功率,并大大降低了客户人工补录、人工勾兑工作量。比较指标HexOCR测试结果其他厂商测试结果栏位识别正确率81.92%71.52%栏位完全正确凭证识别率76.61%61.72%凭证识别率89.31%81.28%5151Q&A