新闻出版内容资源加工规范第2部分:数据加工与应用模式2014-01-29发布2014-01-29实施中华人民共和国新闻出版行业标准Specificationofcontentresourceprocessinginpressandpublication—Part2:ModelofdataprocessingandapplicationCY/T101.2—2014ICS35.240.30L70发布中华人民共和国国家新闻出版广电总局I前言………………………………………………………………………………………………………………I1 范围…………………………………………………………………………………………………………12 术语和定义…………………………………………………………………………………………………13 数据加工等级………………………………………………………………………………………………33.1 数据加工分级…………………………………………………………………………………………33.2 内容索引级……………………………………………………………………………………………33.3 全文基础级……………………………………………………………………………………………33.4 全文标准级……………………………………………………………………………………………33.5 结构化基础级…………………………………………………………………………………………33.6 结构化复杂级…………………………………………………………………………………………33.7 版式基础级……………………………………………………………………………………………33.8 版式重构级……………………………………………………………………………………………33.9 版式复杂级……………………………………………………………………………………………34 数据加工的应用模式………………………………………………………………………………………44.1 应用模式说明…………………………………………………………………………………………44.2 面向长期保存…………………………………………………………………………………………44.3 面向一般电子书应用…………………………………………………………………………………44.4 面向高品质电子书应用………………………………………………………………………………44.5 面向内容数据库应用…………………………………………………………………………………45 数据加工与应用模式的关系………………………………………………………………………………4参考文献…………………………………………………………………………………………………………5目次CY/T101.2—2014ICY/T101《新闻出版内容资源加工规范》分为以下10个部分:──第1部分:加工专业术语;──第4部分:数据加工质量;──第5部分:资料管理;──第6部分:数据管理;──第7部分:数据交付;──第8部分:图书加工;──第9部分:报纸加工;──第10部分:期刊加工。本部分为CY/T101的第2部分。本部分由中华人民共和国国家新闻出版广电总局科技司提出。本部分由全国新闻出版信息标准化技术委员会归口。本部分起草单位:方正国际软件有限公司、北京拓标卓越信息技术研究院、新闻出版总署信息中心。本部分主要起草人:赵海涛、周长岭、安秀敏、刘成勇、蔡京生、周卫国、吴治强、张沫。前言──第2部分:数据加工应用模式;──第3部分:数据加工规格;11 范围CY/T101的本部分规定了新闻出版内容资源数据加工等级、数据加工应用模式和数据加工与应用模式的关系等方面的要求。本部分适用于新闻出版内容资源的数字化加工及电子资源的制作与应用。2 术语和定义CY/T101.1-2014中所界定的以及下列术语和定义适用于本文件。2.1 新闻出版内容资源pressandpublicationcontentresource新闻出版领域内任意形式、任何粒度的内容及其他有价值的资源。[CY/T101.1-2014,4.1.1]2.2 内容加工contentprocessing将大量分散、零乱、无序的内容资源进行整理、提炼,并按照一定的逻辑顺序和科学体系加以编排使之系统化的活动。[CY/T101.1-2014,5.1.3]2.3 数字化加工digitalprocessing针对纸质出版物、表单、公文、档案文献等,通过专业化的解决方案,加工成PDF、Html、Txt、Doc、Xls等多种可编辑的电子文件格式的活动。[CY/T101.1-2014,5.1.1]2.4 电子数据electronicdata出版物印刷前的计算机数据文件,包括完整的计算机排版文件、图片文件和补字文件等。[CY/T101.1-2014,6.3.1]2.5 电子书ebooks通过相关设备直接呈现文字、图像、音频、视频等内容的数字出版产品。注:电子书包括电子图书、电子期刊和电子报等。[CY/T101.1-2014,7.1.6]2.6 电子图书e-book通过相关设备直接呈现文字、图像、音频、视频等内容,具有相当篇幅的专题数字出版产品。[CY/T101.1-2014,7.1.7]2.7 内容数据库contentdatabase按照一定逻辑组织并集合内容的数字出版产品。[CY/T101.1-2014,7.1.4]新闻出版内容资源加工规范第2部分:数据加工与应用模式CY/T101.2—201422.8 电子样书electronicstylebook新闻出版单位以数字版式文件形式提供给机构用户,作为试读或采购参考依据的数字化样书版本。该样书与原书版式和内容一致,可通过专用软件浏览,可采用技术手段限制传播。[CY/T101.1-2014,7.1.8]2.9 按需印刷printondemand;POD即时印刷按照用户要求的内容和数量,在指定地点和时间,利用数码及超高速印刷技术设备进行数字印刷并装订成册的出版方式。[CY/T101.1-2014,7.1.11]2.10 版式文件fixed-layoutdocument版式文档排版后生成的,包含版面固化呈现需要的全部数据的一种文件。[CY/T101.1-2014,6.3.10]2.11 流式文件reflowingdocument流式文档按照内容逻辑顺序,内容呈现可适应终端设备屏幕或窗口变化的一种文件。[CY/T101.1-2014,6.3.11]2.12 单层图像版式文件imagedfixed-layoutdocument图像版式文件通过扫描方式,生成与原加工对象版式完全一致的图像文件集合,并打包成独立完整的可浏览的数字版式文件(含书签信息及书签信息和版式文件页面之间的链接关系)。[CY/T101.1-2014,6.3.12]2.13 双层矢量化版式文件vectorizeddual-layerfixed-layoutdocument双层版式文件在单层图像版式文件基础上,同时生成与图像层对应的透明字体模式的文字层,可支持选取、拷贝和查找的版式文件。[CY/T101.1-2014,6.3.13]2.14 单层矢量化版式文件vectorizedfixed-layoutdocument矢量版式文件按照原加工对象的文字位置,文字采用矢量字,修饰性图片、艺术字、底纹、线条、图表和公式等以图像形式显示的版式文件。[CY/T101.1-2014,6.3.14]2.15 全文fulltext出版物正文部分的全部文字。[CY/T101.1-2014,4.2.21]33 数据加工等级3.1 数据加工分级根据新闻出版内容资源数据加工流程的复杂性划分为内容索引级、全文基础级、全文标准级、结构化基础级、结构化复杂级、版式基础级、版式重构级和版式复杂级。3.2 内容索引级内容索引级是一种基础的初级加工方式,可实现通过索引信息快速定位数字内容对象,加工内容包括:a)基本元数据的加工:对描述出版物基本信息的元数据进行加工整理;b)基本对象数据的加工:对出版物的内容以扫描图像文件形式进行加工整理,或将电子数据转换生成版式文件的集合。3.3 全文基础级在内容索引级的基础上,对基本对象数据进行基本结构拆分,对全文内容进行识别处理,建立基于全文的索引。全文基础级加工不包括对正文部分进行文字校勘处理。基本结构拆分包括:a)图书、期刊:依据图书或期刊的目次结构进行拆分;b)报纸:依据报纸各版面的栏目和文章标题进行拆分。3.4 全文标准级在全文基础级的基础上,对正文部分进行文字校勘处理,使文字差错率符合相关出版质量标准。加工对象为电子数据时,需经转码处理,将版式文件解析后提取准确的文字信息并转换为流式文件。3.5 结构化基础级在基本结构拆分基础之上,对内容资源的结构进一步拆分,对显性内容进行标引,包括:a)图书的显性内容:篇、章、节和作者等内容;b)期刊的显性内容:栏目、标题、作者、摘要和关键词等内容;c)报纸的显性内容:日期、专刊、版名、栏目、标题和作者等内容。3.6 结构化复杂级在结构化基础级的基础上,对内容资源结构的进一步拆分和标引,包括:a)复杂的显性内容拆分如下:1)图书:条目、词目、参考文献、脚注、公式和图表等;2)期刊:参考文献、脚注、公式和图表等;3)报纸:分级标题、图表和广告等。b)隐性内容标引包括分类和主题词等;c)对链接关系进行标引,如参考文献、图表或脚注等。3.7 版式基础级专指单层图像版式文件。3.8 版式重构级在版式基础级的基础上,对文字内容部分进行加工处理,使文字部分可选取、拷贝和查找,包括:a)电子数据经转换处理,还原至与原出版物一致的全矢量的数字版式文件;b)纸质出版物经加工处理,可生成双层矢量化版式文件和单层矢量化版式文件,双层矢量化版式文件的全文部分分为采用全文基础级加工和采用全文标准级加工两种。3.9 版式复杂级对版式文件进一步加工,包括:a)文内链接关系标引:1)标引图书、期刊的脚注、参考文献、索引等并建立与正文链接点之间的关系;2)建立数字内容对象中“下转”“上接”的链接关系;CY/T101.2—201443)建立报纸版式文件与流式文件的链接关系。b)重新排版:因移动阅读设备屏幕尺寸限制而对原版式进行改编并重新排版的处理方式。该版式的调整不影响原语义关系或阅读顺序。4 数据加工的应用模式4.1 应用模式说明新闻出版单位可根据实际应用需求采用不同的数据加工处理等级和方式。数据加工的应用模式包括面向长期保存、面向一般电子书应用、面向高品质电子书应用和面向内容数据库应用等。4.2 面向长期保存面向长期保存可采用内容索引级加工,形成规范化和可管理的数字化存档,支持索引应用、长期保存和按需印刷应用等,并为后续的数字化加工处理提供数据基础。4.3 面向一般电子书应用面向一般电子书应用可采用索引级加工,可支持以版式呈现和浏览为主的电子书应用,可支持基本元数据检索和数字版式文件浏览。加工对象为纸质出版物时,数字版式文件可采用全文基础级、版式基础级加工,内容不经结构化处理。加工对象为电子数据时,数字版式文件可采用全文标准级、版式重构级,内容不经结构化处理。4.4 面向高品质电子书应用面向高品质电子书应用可采用全文标准级、版式复杂级加工,以流式为主版式辅助的方式呈现,支持浏览、检索、选取文字、拷贝、链接跳转等电子书应用。4.5 面向内容数据库应用面向内容数据库应用可采用版式重构级或版式复杂级、高精度全文级、结构化基础级或结构化复杂级加工,使内容可脱离原有载体的限制,以较小的颗粒度进行拆分、标引或重组聚合,形成新的内容体系并灵活支持各种检索和知识组织应用。5 数据加工与应用模式的关系数据加工等级与应用模式之间的关系,见表1。加工类型应用模式加工等级面向长期保存面向一般电子书面向高品质电子书面向内容数据库长期保存索引库POD电子样书库以阅读和浏览为主的数字图书馆移动阅读内容数据库或以内容检索应用为主的数字图书馆索引内容索引级▲▲▲▲▲▲▲全文全文基础级———△△——全文标准