汉王PDF OCR使用说明及使用诀窍

51507395
1 ℃
2020-01-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

汉王PDFOCR使用说明及使用诀窍|浏览：1347|更新：2012-12-0917:213有用+1已投票1收藏+1已收藏全文阅读分步阅读步骤12345678汉王PDFOCR是汉王OCR6.0和尚书七号的升级版，本软件新增打开与识别PD「文件功能皮持文字型PD「的直接转换和图像型PD「的OCR识别:既可以采用OCR的方式，将PDF文件转换为可编辑文档;也可以采用格式转换的方式直接转换文字型PDF文件为文本。本软件系统应用OCR(OpticalCharacterRecognition)技术，为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。目前，许多信息资料需要转化成电子文档以便于各种应用及管理，但因信息数字化处理的方式落后，不但费时费力，而且资金耗费巨大，造成了大量文档资料的积压，因此急需一种快速高效的软件系统来满足这种海量录入需求。本软件系统正是适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。工具/原料.识别字符简体字符集:国标GB2312一80的全部一、二级汉字6800多个。纯英文字符集。简繁字集:除了简体汉字外还可以混识台湾繁体字5400多个以及香港繁体字和GBK汉字..识别字体种类能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体:并支持多种字体混排..识别字号初号小六号字体。表格识别可以自动判断、拆分、识别和还原各种通用型印刷体表格。方法/步骤1.安装扫描仪第一次使用扫描仪或者更换扫描仪时，都需要对扫描仪进牙7g区动安装和设置。请先按照扫描仪使用手册上的步骤正确安装扫描仪，然后打开应用程序，在应用程序界面内，按下“文件“菜单下的‘’选择扫描仪“命令，选择相应的扫描仪，如图所示:2.系统设置从“文件菜菜单中点“系统配置“命令，进入系统设置界面，设置扫描任务的语言。如图所示:支持的扫描任务语言有:中文简体、简繁混合、纯英文等。如果选中”灰度彩色图像总存为JPG，那么系统会自动将灰度彩色图像扫描保存成JPG格式。3.如果选中”识别”页中的“自动倾斜校正“，在版面分析时，系统会自动校正倾斜的图像文件。如图所示:4.操作界面工程图像识别界面包括主菜单、工具栏、图像文件管理区、侯选字区、识别结果区以及原图像显示区，如图所示:5.文件管理区:对文件进行管理和整理。1.打开文件:选择‘文件rL菜单，选择打开图像文件的路径，图像文件便显示在管理区用鼠标可将图像文件拖拽到管理区，也J1各打开的图像页复制、粘贴到管理区。2、删除文件:按键盘上的“Delete“键将文件删除。3.调整文件:选中一个文件或按住Ctrl可以选择多个文件，把文件拖放到要调。4.文件格式:本系统支持TIF,BMP,PDF，彩色灰度图还支持JPG格式。5.文件语言:本系统支持中文简体、英文、简繁体混排方式、以及中英文混排方式。6.图像文件重命名:选中文件，点击文件菜单选择可保存成TIF,BMP,JPG文件(说明:本系统不支持批量图像文件的改名)。7.图像文件保存路径:在阿.,lJ:g:%MIMX%othar%hw0中可以设置获取图像文件的路径、名称、格式。如该路径不存在，系统会提示是否创建该路径;如果要选择已存在的某个路径，可以点击’‘扫描到“按钮，弹出选择路径对话框，选择需要保存图像的路径。8、侯选字区:修改识别结果时，可以选择侯选区的字直接修改当前字。9、识别结果区:显示当前图像文件的识别结果。10.原图像区:显示当前正处理的图像。11.搜索区:百度、Google搜索。6.获取图像获取图像有四种方式:通过点击工具栏上的‘按钮打开已扫描好的图像文件;通过扫描仪批量扫描文稿;用鼠标将图像文件拖拽管理窗口;将打开的图像文件复制、粘贴到文件管理器中。扫描文稿时，先准备好扫描仪点击工具栏上的0进入扫描程序，1短要扫描的稿件放置在扫描仪的适当位置上，屏幕上显示扫描仪配置窗口(这里以扫描仪AV620C为例)。在扫描之前，可以通过扫描窗口选择扫描精度、扫描方式和纸张大小。本系统支持黑白二值模式、灰度模式以及彩色模式，即选择黑白扫描方式、灰度扫描方式和彩色扫描方式。建议不要大量采用灰度、彩色扫描模式扫描文件因为彩色图像文件占用大量的内存和CPU，操作速度会很慢;而且背景图案会影响处理效果。7.扫描亮度亮度选择是否恰当直接关系到图像的清晰度，而图像的清晰度又直接影响后续的识别质量，因此必须根据稿件的实际质量来选择亮度。所要达到的扫描质量为保证每个扫描汉字的图像清晰，不能出现过浓或过淡。8.扫描精度对于其它类型的扫描仪可参照相应的使用手册进行选择。对于本系统而言扫描精度控制在300dpi为好，这样既可保证良好的识别效果，又能减少扫描操作所需时间。扫描之后的图像直接传送回本系统的图像处理界面。图像文件自动存储到系统默认路径下的默认文件名，文件名和识别参数显示在管理条窗口内。(扫描的具体操作请参考扫描仪使用手册)。9.图像反白本功能只处理白底黑字的图像，若扫描得到的图像不是白底黑字，点“编辑“菜单中的‘’图像反白“命令作反白处理。10.旋转图像若发现当前图像不是正常位置显示，选择‘’编辑“菜单内的“旋转图像“菜单项，再选择相应的旋转方向，按90度旋转当前图像(可以连续旋转)，将当前图像旋转到正常位置。旋转图像若发现当前图像不是正常位置显示，选择‘’编辑“菜单内的“旋转图像“菜单项，再选择相应的旋转方向，按90度旋转当前图像(可以连续旋转)，将当前图像旋转到正常位置。11.倾斜校正自动倾斜校正:若扫描后的图像是倾斜的，按系统测定的角度自动倾斜校正。选择“编辑”菜单的“自动倾斜校正“，可以对倾斜的图像作自动倾斜校正使之正常显示。手动倾斜校正:若图像是倾斜的或自动倾斜校正效果不佳，可选择“编辑‘’菜单的“手动倾斜校正’’，出现界面如图所示:12.手工调整横竖坐标，用鼠标点住图中水平红线左边的小方块，上下移动，使得水平线条与文本图像的倾斜角度一致;也可以用键盘上的上下箭头在按钮间切换进行校正操作。13.去除噪声调整边框若发现当前的图像带有多余的版面噪音，可以调整当前图像的图像框范围，将多余的或影响版面分割和识别准确率的版面噪音(扫描过程产生的黑线条、黑污点等)删去，以提高识别准确率。点击r”使用鼠标将光标箭头移动到当前图像边框处，此时箭头变为卡住图像边框的上下双箭头。按下鼠标左键，将该位置的图像边框向内移动，将多余的版面噪音框掉，有效图像为当前图像框范围内的图像。14.剪切噪音点击工具栏中的哪按钮，按住鼠标左键，拖动鼠标选中图像中的噪音(黑点或黑框)，放开鼠标左键，就可以将噪音清除。15.缩放图像可根据操作需要调整当前图像显示的大小。选择工具栏【放大】按钮或【缩小】按钮，将当前图像做放大或缩小处理。如果在当前图像内双击鼠标“左键“大显示图像;双击鼠标“右键，’，会缩小显示图像。16.分析图像在版面分析前，先检查文件管理窗口内当前文件的语言，如果有误，请双击该参数，在下拉菜单内选定正确的识别参数。17.自动版面分析单击工具栏的..按钮，或选择“识别“菜单内选择“版面分析，’命令自动对当前文件或管理窗口内选定的一批文件进行版面分析。若单击咨按钮，或选择“识别，’菜单上的“选择全部文件“命令，将全部文件选中，进行版面分析时，系统自动对全部图像文件进行版面分析。18.调整分析结果移动光标箭头到文件图像上的待调整图像框，点击1,2,3,4,5键，将当前框的属性标识为横栏、竖栏、表格、图像、英文;若框切分不对，可单击工具栏中的吸按钮，或选择“识别，’菜单内的“取消当前栏，’，取消当前栏重新;若整页切分错误较多，可单击工具栏中的R&按钮，或选择”识别’，菜单“取消版面分析”，取消图像页的全部版面分析，手动进行版面分析。在调整分析结果时，如果框的范围包含了其它属性框，被包含的框自动消失;当框的范围与已有的属性框交叉时，调整框大小无效。19.手工版面分析移动光标箭头到文件图像上的适当位置(例如文章段首)，按住鼠标左键不放，拖动至另一适当位置(例如文章段尾)，再放开左键，划分出所要识别的图像框图(见图像框线)，重复此操作，以划分出全部图像框的框图。另外，还可以定义各图像框的版面属性为横栏、竖栏、表格、图像此外，移动光标箭头到文件图像上的待排序图像框内，按住鼠标左键不放显示出蓝色箭头拖动至另一图像框内再放开左键，以指定图像框的识别顺JR顺序标号在框线左上角)，重复此操作，以指定文件全部图像框的识别顺序。在已有版面分析的图像文件上重新画框时，如果框的范围包含了已有的属性框被包含的框自动消失;当框的范围与已有的属性框交叉时，手动画框无效。20.识别图像选中要识别的图像页，点击翻按钮或选择”识别“菜单上的“开始识别‘，命令，对所选图像进行版面识别。当然也可以用“F8‘’快捷键识别选中图像。识别处理窗口如图所示:21.检查识别结果识别过的图像，系统会将识别结果在识别窗口中显示出来。如果没有识别的图像，识别窗口为灰色，所以识别完图像后，应该检查有没有图像页是否有没识别的图像块。22.调整窗口显示单击”显示，’菜单，调出菜单如图所示:23.做横校时，可以根据需要选择显示/关闭工具条、状态条、管理条及文本窗口;也可以选择显示方式:如显示全部，只显示管理条，只显示图像、文本方式。另外，横校窗口中有三个控制窗口按钮，单击它们，可以调整文本窗口的结构和布局。如图所示:24.字符校对1、字符校对:对照随行显示的当前字符的原始图像校正识别结果。2、字符修改:选择当前字的候选字替换识别有误的字，也可以调出输入法输入正确的字符。3、字符编辑:在文本编辑区内可以进行退格、删除、撤消等操作，在窗口最下面的状态栏的}插入或!覆盖}处单击，可以切换字符的键入方式。在‘IN辑“菜单内选择‘剪切’“‘复制“或‘粘贴“，可以对选定的文字做相应的操作。25.保存图像在工程操作时，想将经过处理后的图像保存，可以点“文件”菜单下的”保存图像“命令进行保存;如果想将处理后的图像文件保存到其它位置，可以点“文件，，菜单下的“换名保存图像“命令，将图像文件换名保存。26.结果输出输出到指定格式文件校对完成后的图像文件可以输出保存成文字处理软件(如WORD,WPS97等)可处理的文件，还可以保存成文本文件。点“输出‘’菜单，选择‘，到指定格式文件”，在弹出的‘’保存识别结果”窗口中，用户可以选择文件要存储的路径和文件类型。本系统的识别结果可以保存成*.R丁「、*.丁X丁、和*.H丁ML以及*.XLS四种格式的文件。27.如果选中’‘输出到外部编辑器“，则系统在保存文件的同时调入相应的文字处理程序。比如选择输出日丁ML格式，系统马上进入IE浏览器。TXT格式只保存文字、表格部分，不保存图片RTF格式可以用WORD,WPS等文字处理软件编辑日丁ML格式可以输出到IE等网络浏览器XLS格式可以用Excel等软件编辑。28.PDF文件转换为RTF文件打开PDF文件转换:点击‘’输出‘’菜单中“PDF转换为RTF文件”选项或点击工具栏中“PDF转换为RTF“按钮，弹出下图对话框，您可以根据需要选择转换的图像页范围，点击‘确定”，系统自动导出文件。29.直接转换:在打开图像时，如果您选择的是PDF图像，打开对话框下方PDF转换为RTF文件“和“PDF转换为TXT文件“按钮可用，点击该按钮，直接将PDF文件转换为可编辑文件。30.特别提示:如果勾选转换后打开RTF文件，在转换后自动打开，如果不勾选则只转换保存文件，不打开。如果未安装Word，导出后不能正确打开浏览，只能生成文件。31.PDF文件转换为RTF文件打开PDF文件转换:点击输出菜单中PDF转换为TXT文件“选项或点击工具栏中“PDF转换为TXT“按钮，弹出下图对话框，您可以根据需要选择导出的图像页范围，点击‘确定’‘弹出保存文件对话框，添加文件名，并点击保存后导出文件。32.直接转换:在打开图像时，如果您选择的是PDF图像，打开对话框下方PDF转换为RTF文件“和”PDF转换为TXT文件“按钮可用