1推广工程数字资源联合建设地方文献数字化加工规则(2015)1术语和定义1.1双层PDF将标准资料通过扫描仪快速录入后,经过去污、纠偏和OCR识别,直接生成的可检索的PDF文件。该文件是双层的,上层是原始图像,下层是识别结果。1.2单版TXT文件由图像数据一一对应进行文本转换得到的TXT文件。一个单版TXT文件对应一个图像文件。1.3合并版TXT文件将单版TXT文件按顺序合并得到一册书的完整TXT文件。2图像数字化和命名规则2.1图像数字标准2.1.1扫描标准(1)黑白页和灰度页用灰度方式扫描色彩位深:8位分辨率:300dpi;小于5号字体用400dpi档案典藏级格式:TIFF不压缩(2)彩色页用彩色方式扫描色彩位深:24位2分辨率:300dpi;小于5号字体用400dpi档案典藏级格式:TIFF不压缩2.1.2拍照标准像素:不小于300万档案典藏级格式:TIFF不压缩2.2数字化要求数字化环境注意防护光源,避免透光或反射光的影响。数字化后的图像清晰,文件页码连续,没有重页、缺页、错页等情况(原书缺页、错页除外)。补扫的图像要与同册图像文件的大小一致,颜色接近。(1)以原文献的上边沿为基准,保持原文献的天头、地脚的尺寸不变,左右两边的尺寸基本不变。(2)数字图像放大至实际尺寸100%,图像不失真。(3)数字图像文件与文献原件颜色不一致,须先进行设备色彩校正,再重新进行扫描或拍照工作。2.3数字图像处理要求数字图像处理是在未改变原扫描图像的色彩、分辨率、格式、压缩等情况下进行。数字图像文件处理内容及要求如下:(1)纠偏处理。对出现偏斜的图像进行纠偏处理,图像歪斜度不可以超过一度,对方向不正确的图像进行旋转还原,以符合阅读习惯。(2)图像剪裁。图像保留到文献的外边缘。(3)不能进行锐化或者图像增强处理,不能更改图像的颜色,尽量3减少对图像文件的后期处理。2.4数字图像检查要求根据本项目要求,数字化单位检查各级别图像数据的质量,建议扫描完成后立即进行质检。数据检查的内容和要求如下:(1)图像文件(各种格式)放大到1:1状态,逐页检查。检查文件是否有透光、透字、彩点、彩线、太淡、太浓、黑边、污点、歪斜、模糊(马赛克等)或图像内容不完整等现象。若不符合图像质量要求应进行图像校正或重新扫描(拍照)。(2)发现文件漏扫时,应及时补扫并正确插入图像。(3)拼接图像接缝处无错位、无缝吻合,不应出现白边和内容缺失,没有明显的歪斜。(4)检查是否符合扫描(拍照)规格要求和技术参数。(5)所有文件保存位置正确,可以有效打开和显示。(6)图像名称必需正确,同一数据流水号不得有跳号情况,按顺序排列命名,图像文件的排列顺序应与原文献一致。2.5命名规则2.5.1加工编号(book_id)文献数字化加工过程中一册文献的唯一标识,它由11位数字和1位下划线组成。文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)、下划线(1位)、单位内部流水号(3位)。本规则针对图书的文献基本资料类型为0,文献语种为1,加工4年为公元年后两位数字(15年项目统一为15),机构代码见《推广工程数字资源联合建设机构代码》,单位内部流水号由各单位自行分配,从1开始,不足3位以0补齐。例:01150101_0012.5.2图像文件名(1)前封(含封一、封二)扫描文件名为Axxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。(2)前附页目录页之前的前附页扫描文件名为Bxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。目录页之后的前附页扫描文件名为Dxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。(3)目录页扫描文件名为Cxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。(4)正文有页码的正文扫描文件名为Txxxxx_00,其中xxxxx为5位数字,与原书页号一致,按原书顺序依次排序。正文中插页扫描文件名为Txxxxx_yy,其中xxxxx为5位数字,表示插页的前一页顺序号,yy为数字,表示插页,并按原书顺序依次排序。5(5)后附页扫描文件名为Yxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。(6)后封(含封三、封四)扫描文件名为Zxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。3双层PDF标准3.1双层PDF输出将处理完成后的TIFF图像进行OCR逐页识别校对。采用图在文上的模式进行双层PDF输出,包括单版PDF和合并版PDF两种,单版PDF命名与对应TIFF文件保持一致,合并版的命名同该文献的加工编号。PDF文件根据图像尺寸、颜色、数据存储量、按JPEG2000有损压缩,压缩因子适度动态调整,在确保图像清晰的情况下,尽量压缩图像文件所占空间至最小。3.2PDF目录提取将输出后的双层PDF进行目录标签提取,提取级别上限为三级。提取过程中应按照原书页面顺序进行提取,不可出现章节丢失或级别划分错误等情况。3.3PDF文件质量要求(1)双层PDF数据需完整,避免缺页、重页、页码顺序颠倒等问题。(2)双层PDF文件的图像层和文字层的文字对位准确,反显区域与6文字区域相差1毫米以内。(3)打开一本电子文献阅览并对文字放大时,保证在放大到百分之二百的时候,字迹清晰,笔画连续,无断裂、缺块的现象。(4)合并版PDF必须制作书签。书签是电子书的目录,内容和纸质书的目录一致。书签的功能是用户点击书签的某一章节,电子书会自动显示为相应页。打开PDF文件时,自动显示书签,书签只展开到第一级目录。(5)双层PDF错误率不超过0.3‰。4图像文本转换要求4.1单版TXT和合并版TXT(1)对图像数据逐页进行版式分析,并对版式分析结果进行质检。(2)对图像数据逐页进行文本转换,生成单版TXT文件,文件名与对应TIFF文件名一致。(3)对单版TXT文件进行校对。(4)经验收合格的单版TXT文件需合并生成合并版TXT文件,合并版文件的命名同加工编号。(5)图像中的注释、下划线等特殊情况需进行专门处理,表格、插图、空白页等需进行描述,描述内容用[==]进行标识([==]均用半角标识),并保存未转换文件对应的图像文件。4.2TXT文件质量要求(1)文本数据应如实反映原书内容、版面等所有原书相关信息。(2)文本数据保存格式为TXT纯文本格式。7(3)文件命名无误,且在数量上与TIFF图像一致。(4)文本数据内容与TIFF图像内容吻合,不存在乱码、转换错误等问题。(5)文本数据应如实反映原文的章节、段落,不应出现与文章不符的字符、段落、硬回车、空格等。(6)单版TXT文件与合并版TXT文件内容完全一致。(7)文本转换数据的文字、符号,其错误率不超过0.3‰。4.3特殊情况处理办法4.3.1注释注释分注释类和解说类,仅对有意义注释进行转换,无意义注释不做转换。(1)注释出现在当页,且明确标出与正文对应位置的将注释内容填入括号“()”内,插回到原文注释所对应的位置。(2)注释在一篇文章或章节结尾,以参考或引用等专项标题单独列出的按原文版式转换,不插回原文。(3)解说类注释出现在正文文字段落中间或左右两侧,在正文中无对应位置的将注释内容放在其出现的那段文字后,另起一段,段首标注“注释:”。(4)解说类注释出现在黑框或深色底框内,且在正文文字段落中间的将注释内容放在【】内,原位置转换。4.3.2空白页8为保持内容完整性和页面连贯性,正文中空白页需保留,并按照命名规则正确命名,内容标注为“[=此处为空白页=]”。4.3.3插图与插图页(1)插图仅对有意义插图进行转换和标注。在插图出现的段落后另起一段,标注为“[=此处为插图(图注)=]”。(2)插图页均需保留,并按照命名规则正确命名,内容标注为:“[=此处为插图页(图注)=]”;对于包含多个插图的插图页,内容标注为:“[=此处为插图页:图一(图注),图二(图注)…=]”。4.3.4表格与表格页表格只转换表格内文字及表注,任何形式表格边框不予转换。(1)表格简单的单列或横向排版表格应予转换;多列复杂表格,内容为分类列举的文字按列予以转换;其他表格不予转换,在表格出现的位置,标注为“[=此处为表格(表格说明)=]”。(2)表格页需保留,并按照命名规则正确命名,内容标注为“[=此处为表格页(表格说明)=]”。对未进行转换的图像和表格,需在其所属单版TXT文件目录内建立“未转换文件对应图像”子目录,将此插图/表格所在的图像文件以jpg格式保存在该子目录内,命名不变;多个插图/表格对应同一9个图像时,仅保存一个图像文件。同时对未进行转换的插图/表格在《文献全文转换未转换文件记录表》中进行记录。4.3.5拼音文字混编拼音文字混编分为对全文均做拼音标注和仅对个别文字做拼音标注两种情况。(1)全文均做拼音标注的(拼音一般标注在文字上方),只转换文字,不转换拼音。(2)个别文字做拼音标注的(拼音一般标注在文字后面),需按照原文版式,同时转换文字和拼音。4.3.6下划线(1)下划线标记的为单个字符或字母的,将标注内容填入【】,放在有下划线的字符或字母后。(2)下划线标注的为一句话或一段字符或字母的,将有下划线的内容放在()内,标注内容填入【】,放在有下划线的内容后。4.3.7其他无法录入的生僻字、公式、符号等内容用“〓”表示。同时将“〓”所对应图像文件保存在单版TXT文件目录内建立“未转换文件对应图像”文件夹内。文件夹建立方法:(1)子目录内应包含所有用“〓”表示的图像文件并以jpg格式保存。(2)图像文件删除其他信息,仅保留“无法录入的内容”信息,图像命名不变。10(3)多个用“〓”表示的内容对应同一个图像时,仅保存一个图像文件。5.数据库命名及加工5.1数据库命名对象数据所对应数据库。数据库名由8位数字组成:文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)。本规范针对中文图书其文献基本资料类型为0,文献语种为1,加工年为公元年后2位数字。例:01150101.mdb5.2数据库制作5.2.1对marc数据进行加工处理,制作文献基本信息表(book)。序号中文名称字段名称对应书目数据(MARC)内容1加工编号book_id2分类cat_id第一个690字段$a3书名book_name200字段$a.$h,$i,$e4作者author200字段$f5出版社pub_house210字段$c6出版时间pub_date210字段$d7ISBN号isbn010字段$a8001record_id001字段9条码号barcode10唯一标识符cdoi注:文献基本信息表(book表)除加工编号和条码号外,各字段内容原则上均取自书目数据(MARC)。对于相同“001”、不同“条码号”的图书,要进一11步标注“书名”字段,标注内容用“()”括起来。如:(上册)、(下册)。如果没有MARC数据,可人工添加。5.2.2目录信息著录,生成文献目录信息表(catalog)。序号中文名称字段名称备注1加工编号book_id2序号serial_num3章节号chapter_num4章节名chapter_name5作者author6页码page_num客观著录,如实反映目录页原貌(可为空)7绝对页码ppage_num文件名数字部分8页位置page_place文件名字母部分9属性page_prop1)“目录”属性为“1”;2)“无目录”属性为“2”;3)每册文献除第一条目录外,其余记录的属性默认为“0”。5.2.3文献版权页著录,生成文献版权信息表(copyright)。序号中文名称字段名称备注1加工编号book_id2书名book_name3作者author4001record_id5版权页位置copyright_place记录版权页文件名5.2.4不带页号插图信息著录,生成文献插页信息表(inset)。序号中文名称字段名称备注1加工编号book_id2插页前正文页号prior_text_page文献印刷页码123插页数量inset_num5.2.5文献缺页信息著录,生成文献缺页信