中华人民共和国国家标准术语与辞书条目的记录交换用磁带格式Magnetictapeexchangeformatforterminological/lexicographicalrecords(MATER)GB/T13726-92本标准参照采用国际标准ISO6156—1987《术语与辞书条目的记录交换用磁带格式》。1主题内容与适用范围本标准设计了一种信息交换用的框架,规定了术语与辞书条目数据项的内涵、组分以及标识方法,为单语种或多语种术语与辞书条目数据的交换提供了一种通用的格式。本标准适用于信息系统之间进行计算机可读数据载体的信息交换。2引用标准GB1988信息处理信息交换用七位编码字符集GB1989信息处理交换用七位编码字符集在9磁道12.7毫米磁带上的表示方法GB2311信息处理七位和八位编码字符集代码扩充技术GB2312信息交换用汉字编码字符集基本集GB2659世界各国和地区名称代码GB2901书目信息交换用磁带格式GB4880语种名称代码GB6550信息处理交换用9磁道12.7毫米宽63行/毫米调相制记录磁带GB7574信息处理交换用磁带标号和文件结构GB7589信息交换用汉字编码字符集第二辅助集GB7590信息交换用汉字编码字符集第四辅助集GB8565.1~8565.3信息处理文本通信用编码字符集GB10112确立术语的一般原则与方法GB11383信息处理信息交换用八位代码结构和编码规则GB/T13715信息处理用现代汉语分词规范《汉语拼音正词法基本规则》国家语言文字工作委员会1988年发布3概述本标准的目的在于促进术语与辞书条目数据库间的信息交换,使数据库拥有者能以标准格式向他人提供全部或部分数据,同时又能以标准格式从其他数据库获得自己所需的数据。本格式的作用还在于每个数据库拥有者进行数据交换时,只需编制两个转换程序:其一是将自己的内部格式转换成标准格式;其二是将标准格式转换成内部格式。本标准只规定格式的物理和逻辑结构,而对每个记录的长度和内容不作定义。在本标准中,术语与辞书条目数据应理解为:a.术语库所包括的内容;b.词表和重要语汇索引,包括术语词表、辞书式汇编和文本的索引;c.词典和百科全书的条目;d.文献处理语言,包括分类体系、叙词表、关键词索引。虽然本标准是为磁带设计的,它的结构也可以用于其他数据载体(如软盆)。本标准对系统内部组织与管理数据的方法不作规定。4定义4.1术语与辞书条目记录:数据字段的集合,包括记录头标、参考数据区、目次区和一个交换单位的术语数据与辞书条目数据。4.2目次区:记录中所有数据字段位置的索引,包括每个数据字段的字段标识符、长度、位置和说明符。4.3数据字段:记录中包含特定数据项的可变长部分,位于目次区之后并与其中一个目次项相联系。4.4目次区说明:说明目次区中目次项结构的一组参数。4.5数据项:构成术语与辞书条目记录并具有特定含义的数据字段。4.6数据项类别:描述术语与辞书条目的一组数据项。4.7字段标识符:用于标识一个数据字段的三个字符。4.8说明符:为相应数据字段内容提供附加信息的三个字符。4.9术语与辞书条目交换单位:描述某一术语(和它的各种含义)或某一概念(和与其相关的所有同义词)的数据字段的集合。5字符集应使用GB1988中的字符和按照GB2311规定的方法所调用的其他标准字符集(如GB2312,GB7589,GB7590)中的字符,以及其他在ISO注册的字符集中的字符。本标准规定GB1988为基本字符集。所有记录头标和目次区中的字符、代码型数据所用字符以及各种分隔符都取自GB1988。若使用非GB1988的某一字符集时,必须首先指明,然后才可调用它作为工作字符集。指明和调用的方法遵照GB2311的规定,具体执行方法可参照GB2901附录A第A2.6条。注:不同设备所使用的字符集的差别对于数据交换可能产生严重的障碍。并且字符集的不同版本(国家版本或应用者版本)之间进行自动转换是相当复杂的,如果没有对其内容的说明往往很难做到。因此,数据交换的双方应该就所用的字符集和字符代码达成协议,并在信息交换说明书(见附录c)中详尽地描述。6交换文件的结构本标准规定了术语与辞书条目数据交换的文件格式(见第7章)。如果需要交换其他类型的文件,其中书目数据应根据GB2901规定的格式单独存入一个文件予以交换,其他数据应以辅助文件的形式进行交换(见6.2.4)。用户处理交换文件所需要的但又不能以机读方式提交的信息必须填入信息交换说明书。6.1文件和带标磁带上的所有文件应按照GB7574规定的标号来标识。所有的记录都是可变长的,在GB7574允许的标记级别中,级别3用于变长记录。6.2交换文件构成交换文件的交换单位和记录的层次结构如图1所示。图16.2.1交换单位交换文件由一个可选择使用的信息记录和若干交换单位组成,每个交换单位包括一个或几个变长记录,每个记录的长度由记录头标的前5位十进制数表示(见7.1.1)。注:这里描述的记录长度是一个逻辑记录的长度。根据数据的机器处理的具体情况,当一个记录的信息记录在磁性载体上时,可能需划分成几个物理块。GB7574中规定了在磁带上实现跨块的标准技术。6.2.2信息记录信息记录使接收文件的机构能立即对交换文件进行自动分析。除了一般性信息(如生产者姓名和建立日期),信息记录还应包括所用的分隔字符、字符集名称(即由转义序列引入的字符集在ISO的国际注册号)和字符集参考表。信息记录的使用是任选的,如果使用信息记录,它应该是文件的首记录。为了唯一地标识该信息记录,记录头标内字符位置5(记录头标的第2项,即记录状态位)的所有8位应全置为“1”。6.2.3书目数据文件应使用一个单独的文件交换有关的书目数据,该文件中数据的记录结构应与GB2901规定的格式一致。6.2.4辅助文件该文件包括有关交换数据的辅助信息,例如数字化图示、用于数据处理的文字资料、数据处理程序等。该文件的记录结构不固定,交换机构之间必须对此达成一致意见,或者在信息交换说明书的附件中予以说明。7交换单位的结构本章只定义构成交换单位的逻辑记录结构,不规定任何专门的记录录入系统。本格式部分地参照GB2901,并且适合于术语与辞书条目。一个交换单位包含一个术语或辞书条目记录的数据(例如词典的词条),通常是交换文件中的一个变长记录。某些情况下,交换单位可以由几个记录组成,属于同一交换单位的记录应该具有相同的标识号,它们之间由在记录计数中的顺序编号相互区别。记录标识:参考数据区字符位置0~7(见7.1.2);记录计数:参考数据区字符位置8和9(见7.1.2)。7.1记录结构图2表示了记录的一般格式。记录头标参考数据区目次区数据区记录分隔符图2一个记录包含下列内容,次序如图3所示。记录头标:固定长;参考数据区:固定长;目次区:可变长;数据字段;可变数和可变长;字段分隔符:一个字符,应使用GB1988中定义的字段分隔符(RS);记录分隔符:一个字符,应使用GB1988中定义的记录分隔符(GS)。7.1.1记录头标记录头标是记录的第一部分,其内容是标识和处理该记录的关键信息(见表1)。表1编号字符位置长度类型含义内容10~45N记录长度记录中的字节数251C记录状态N=新的A=修正D=删除36~94C执行码0000(或指定的编码)4101N指示符长度35111不用0612~165N数据基地址717~193备用0008201N目次区中各目次项的“数据字段长度”所占的字符位数49211N目次区中各日次项的“起始字符位”所占的字符位数510221N说明符长度311231备用0注:1)C:左取齐,字母数字型;N:右取齐,十进制数字字符,如果必要前方填0。2)用以指明记录类型;术语的,辞书条目的,等等。3)数据字段区第一个字段相对于记录的第一千字节的位置。4)说明符共三位,第一和第二位表示数据的语种,第三位表示数据字段的重复性或所在的组(见7.1.4.1)。若不用,则说明符中总有一位置零。图37.1.2参考数据区为了能更加方便地对一个完整的交换单位进行存取,设置了一个总长为96字切的参考数据区(见表2)其位置紧随记录头标之后。这部分与GB2901有所不同。表2编号字符位置长度类型含义内容1234O~78~91O~1718~238286NNCN交换单位的标识号记录计数(交换单位内)提供数据的机构为交换单位分配的内部标识号交换单位的生成日期文件中交换单位的连续号,从十进制的00000001开始按升序排列见7.2由源机构分配源机构昀终的修改日期(YYMMDD)56724~4748~7l72~95242424CC学科领域代码交换单位的语种备用在“信息交换说明书”中注明本代码的含义应使用GB4880规定的代码注:1)C:左取齐字母数字;N:右取齐十进制数字字符。7.1.3目次区目次区反映各数据字段内数据的有关信息。目次区是记录的一部分,它只反映本记录中的数据,不反映同属一个交换单位的其他记录中数据的信息。每个记录都有自己的目次区。目次区中的目次项长度均为15个字节。记录中目次项的个数因记录而异,但应与本记录的数据字段个数相同并一一对应。目次项的结构如图4所示:字符位置类型意义0~23~67~1112~14NNNC字段标识符数据字段长数据字段的起始字符位置说明符(见7.1.1表1注释4))图4目次区中目次项的顺序应与该记录中对应的数据字段顺序相同。注:①目次区中的起始字符位置是相对于数据基地址而言的(在记录头标中第12~16字符位给出了基地址),第一个数据字段的起始字符位置为0。②目次区应以一个字段分隔符(GB1988中的RS)结束。③如若需要,可以重复出现相同的字段标识符。④数据字段长指的是包括指示符和字段分隔符在内的数据字段的总长度。7.1.4数据字段数据字段用于存储所交换的数据。每个字段只包含一个数据项。字段长度是可变的。数据字段的结构如图5所示。字符位旨类型含义O~23~(K-1)KNC指示符数据字段分隔符(RS)图5为了便于不依赖目次区就可检查输出数据,目次项中的字段标识符在此作为指示符重复出现。一个数据字段不能跨两个记录,必要时,使用溢出记录(见7.2)。7.1.4.1编组若干数据字段或数据字段组可以重复使用相同的字段标识符。说明符的第三位用于区分重复的字段或字段组。7.1.4.2示例例1:(单一语种)说明符字段标识符相应数据字段的内容LA0LA1LA2LA3LA0LA0100500500500400800以A语种表示的主条目以A语种表示的第一同义词以A语种表示的第二同义词以A语种表示的第三同义问以A语种表示的主条目的定义以A语种描述的定义来源例2:(多语种)说明符字段标识符相应数据字段的内容LA0LA0LA0LA0LB0LB1LB2LC0LC0LC0100500400800100500500100400800以A语种表示的主条目以A语种表示的同义词以A语种表示的主条目的定义以A语种描述的定义来源以B语种表示的主条目以B语种表示的第一同义词以B语种表示的第二同义词以C语种表示的主条目以C语种表示的主条目的定义以C语种描述的定义来源7.2记录类型本标准规定的交换单位,可以是单一记录,也可以由若干连续的记录组成。图6表示一个无溢出的单个记录构成的交换单位(记录计数:00):图6如果一个交换单位由若干个记录组成,这些记录可分为两种类型:a.主记录;b.溢出记录。第一个记录为主记录,其余均为溢出记录。例如,交换单位由三个记录组成(主记录的记录计数:01):第一个记录=主记录第二个记录=溢出记录第三个记录=昀后一个溢出记录图7昀后一个溢出记录的记录计数为99。如果一个交换单位包含不同语种的许多信息项,应把同一语种的所有信息项排列在一起,然后再连接各语种(见7.1.4.2中的例2);而不应把各语种的相应项目排列在一起。在下列情况下,一个交换单位可分解成若干个记录。a.若仅用一个记录表示一个交换单位时,其记录头标、参考数据区、目次区的总长度超过数据载体的昀大允许块长,用户又不打算将目次区置于不同块中,则可把该交换单位分解成一个