文献片段标识符(DFI)2020-11-16发布2021-02-01实施中华人民共和国新闻出版行业标准DocumentfragmentidentifierICS 01.140.40A 19中华人民共和国国家新闻出版署 发 布CY/T 208—2020ICY/T208—2020目 次前言……………………………………………………………………………………………………………III引言………………………………………………………………………………………………………………V1范围……………………………………………………………………………………………………………12规范性引用文件………………………………………………………………………………………………13术语和定义……………………………………………………………………………………………………14文献片段标识符(DFI)……………………………………………………………………………………25DFI的分配……………………………………………………………………………………………………36DFI元数据……………………………………………………………………………………………………47DFI的管理……………………………………………………………………………………………………4附录A(规范性附录)功能代码定义和使用规则……………………………………………………………5附录B(规范性附录)DFI校验码的计算方法………………………………………………………………6附录C(规范性附录)DFI的使用……………………………………………………………………………8附录D(规范性附录)DFI元数据规范………………………………………………………………………9参考文献………………………………………………………………………………………………………10IIICY/T208—2020本标准按照GB/T1.1—2020给出的规则起草。本标准由国家新闻出版署提出。本标准由全国新闻出版标准化技术委员会(SAC/TC527)归口。本标准起草单位:中国新闻出版研究院、人民教育电子音像出版社、北京师范大学音像出版社、同方知网(北京)技术有限公司、中国版本图书馆。本标准主要起草人:蔡逊、王青华、邱恋、熊海涛、王庚梅、刘颖丽、香江波。前 言VCY/T208—2020信息技术的发展,使信息文献资源的使用方式产生了深刻的变化,其中最显著的特征之一,就是文献内容的碎片化应用。在各种应用终端设备上,对于文献应用的颗粒度已经明显地缩小,在诸多应用场景下,文献的片段都需要通过对片段的标识或标引以实现识别、检索和定位。信息技术的发展还给文献应用提供了共同呈现等复合应用的基础,这些应用往往需要在相关的内容片段之间建立对应关系,而建立这样的对应关系也需要通过标识对文献的片段进行有效地识别和定位。由此可见,在现代信息技术条件下,仅有对于一个信息资源的整体标识已经不能够满足数字化网络化发展的使用需求。虽然一些机构和组织较早就注意到了这一问题,并且采取了相应的技术对策,能够在特定的技术环境中有效地解决这个问题,但是迄今为止,这些手段和方法还难以做到在文献资源脱离或转移原有的技术环境时,仍然能够实现相同的标引和定位。如果文献的发布者或文献应用的开发者能够在原有的文献整体标识的基础上,遵循一种简便并且通用的规则,对文献片段进行(预先或追加的)标识,将会给各种技术系统引用该标识,使该文献在不同的技术环境下实现各种使用功能提供诸多的便利。本标准提供了这样一种方法,在原有文献标识符的基础上,辅之一种片段标识的工具(文献片段标识符),解决原有标识符不能标识文献片段的问题,即采用原有的整体标识+片段标识的二级标识方法。这种方法既可以继续发挥原有标识符的作用,不改变现有的标识符体系框架,又可以满足文献碎片化的各种使用需求,同时,这种二级标识架构还可以避免对片段的重新标识而产生大量标识符,导致标识符泛滥而难于管理的问题。引 言1CY/T208—20201 范围本标准规定了文献片段标识符(DFI)的构成、语法规则、显示、分配和管理。本标准适用于已被整体标识的文献进行片段标识。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T4894—2009 信息与文献术语GB/T17710—2008 信息技术安全技术校验字符系统GB/T18238.3—2002(idtISO/IEC10118-3:1998)信息技术安全技术散列函数 第3部分:专用散列函数3 术语和定义以下术语和定义适用于本标准。3.1文献 document在文献工作过程中作为一个单位处理的记录信息或实物对象。注:在档案中也称文件。[GB/T4894—2009,定义4.1.2.2]3.2片段 fragment文献(3.1)中可独立标识并使用的某个组成部分。3.3文献片段标识符 document fragment identifier(DFI)根据本标准分配的用于识别文献(3.1)中片段(3.2)的标识符。3.4登记者 registrant根将文献(3.1)分割为片段(3.2),并为此申请版本代码的组织或个人。3.5版本代码 version code区分同一文献不同片段划分方案的代码。文献片段标识符(DFI)2CY/T208—20203.6片段代码 fragment code由登记者(3.4)按照相关规则分配给文献片段的代码。3.7功能代码 function code确定片段代码(3.6)执行某一项特定任务的代码。3.8片段特征码 fragment characteristic code按照GB/T18238.3—2002第9章规定的算法生成的该片段的特征码。4 文献片段标识符(DFI)4.1 基本构成文献片段标识符(DFI)由标识符标志和以下四部分组成:a)版本代码;b)片段代码;c)功能代码;d)校验码。4.2 编码结构DFI的编码结构如图1所示:DFI000000000000…000标识符标志版本代码片段代码功能代码校验码图1 DFI的编码结构4.3 语法规则DFI的语法规则定义为:a)版本代码——版本代码由3位数字组成,以区别同一文献的不同片段划分方案。b)片段代码——片段代码每3位数字为一组,由左至右每一组代表的片段颗粒度级别由大到小;——由登记者决定采用的片段颗粒度级数,即采用多少组3位数;——当某一级别片段数量超过103(3位数字)时,可按3的整数倍增加该段的位数,即6位数字、 9位数字……,将该级别片段标识数量增加到106、109……;——当登记者认为无须区分片段颗粒度级数时,可按照全部片段的数量确定片段代码应选择的字 长,片段代码的字长必须是3的整数倍,此时须将全部片段代码不分段连续使用。c)功能代码——功能代码由2位数字组成,以00~99代表不同的功能,功能代码定义和使用规则见附录A。3CY/T208—2020d)校验码——校验码由1位数字组成,按GB/T17710—2008规定的方法生成,具体计算步骤见附录B。4.4 DFI的显示当需要在屏幕上显示DFI编码或将其打印出来时,应在各字段间加上连字符“-”进行分隔,并在数字编码前加上文献片段标识符标志“DFI”,“DFI”与编码之间空一个半角字符空格。DFI一般应与该文献的整体标识同时显示,该文献的整体标识在左,DFI在右,中间空一个半角字符空格,如示例1所示。示例1:ISBN、ISSN、ISRC与DFI同时显示 ISBN978-7-80702-357-0DFI002-226-003-057-00-0 ISSN1002-4166DFI001-019-010-015-133-00-5 ISRCCN-M01-14-00078DFI023-056-021-932-00-6片段代码不分段连续使用或其中连续使用的字段内不加连字符“-”,如示例2所示。示例2:片段代码分段和不分段时DFI的显示 片段代码分为3段,3段均为3位数字时:DFI006-226-003-057-00-8 片段代码分为2段,第2段增加至9位数字时:DFI021-322-023565377-00-7 片段代码分为4段,第2段和第4段增加至6位数字时:DFI010-023-102699-339-056723-00-4 片段代码为9位数字,不分段时:DFI005-159037252-00-54.5 DFI的使用DFI的使用见附录C。5 DFI的分配5.1 版本代码当登记者需要对一个文献进行片段分割并使用DFI标识时,可向DFI注册机构提出申请。DFI注册机构收到登记者的申请并确认符合本标准使用规范时,向登记者发放该文献标识符项下的片段标识符版本代码,注册版本代码从001开始按流水顺序编排。版本代码000作为特殊版本号码开放给未注册或不能注册的用户使用,DFI注册机构不对000版本号提供解析服务。当文献尚未获得整体标识或其他原因不能进行版本注册时,可使用特殊版本号码按照本文件的规则进行片段划分和标识,但仅限于组织内部使用,不可以开放给公众使用。未注册的片段标识版本可在具备注册条件后进行注册。当版本代码出现剩余可分配数量不足时,由注册机构决定是否增容和拟采取的增容规则。5.2 片段代码和功能代码由登记者根据需要决定片段代码使用几组和是否不分段连续使用,并为内容片段分配片段代码。由登记者按照附录A的规则确定功能代码,其中未定义字段可由登记者自行定义,并可在应用解析中实现其功能。5.3 校验码登记者使用DFI注册机构提供的工具计算出每一个文献片段标识符的校验码数值,并将该数值填入校验位。4CY/T208—20205.4 时限要求和变更登记者应在领取版本代码后90天内完成片段代码和功能状态码的分配,并向注册机构上传DFI注册和元数据表单。如遇特殊情况不能在90天内完成,可向注册机构说明并申请延期。当登记者向注册机构提交DFI注册和元数据表单后,该DFI即不可更改。如需变更,登记者可申领新的版本代码,并为该文献分配新的片段代码和功能代码。6 DFI元数据每个DFI编码都应有附录D中规定的DFI元数据。DFI编码和DFI元数据应录入到由登记者管理的注册表中。应用技术系统可通过该注册表对DFI进行解析,同时登记者应将注册表提交给DFI注册机构,由DFI注册机构管理和保存。DFI元数据见附录D。7 DFI的管理DFI系统由本标准的注册机构负责管理。DFI注册机构由本标准发布机构认定并授权。DFI注册机构应为使用者提供DFI解析服务。DFI注册机构应向登记者提供DFI校验码和片段特征码的生成工具。5CY/T208—2020附录A(规范性附录)功能代码定义和使用规则A.1 功能代码定义功能代码定义如表A.1所示。表A.1 功能代码定义表功 能代 码备 注该片段的整体标识00该片段的起始标识(起始定界符)0101和02须配对使用该片段的结束标识(结束定界符)02书签标识(定位符)03该片段的中间结束标识(中间结束定界符)0404和05须配对使用该片段的中间开始标识(中间开始定界符)05未定义(可由登记者定义)06~99A.2 使用规则功能代码的使用应符合以下规则:——当需要将文献分解为若干子文件片段,并且这些片段可以文件形式独立存在时,应使用功能代码“00”,对该片段整体标识;——当不需要或不能将文献分解为若干子文件片段,或不能形成这些片段的独立文件时,可使用功能代码“01”和“02”,标识所定义片段在文献中的起始和终止位置,功能代码“01”和“02”必须配对使用,不得单独使用其中的一个;——当出于某种目的需要确定一个文献中的位置时(例如插入注释等),可使用功能代码“03”;——当所表示对片段中存在不属于本片段的内容时,(例如在本片段中包含一幅插图,但该插图不属于本片段的内容,是其他片段的内容,由于排版等原因被放置在了本片段中)可使用“04该片段的中间结束