中华人民共和国国家标准术语工作计算机应用词汇Terminologywork—Computerapplications—VocabularyGB/T17532—1998eqvISO/DIS1087-2-2:19960导言本标准的条目按顺序给出,每部分设一个一般性的标题。在通常的情况下,后面的条目原则上应该由前面出现的条目来定义。条目的格式按GB/T1.6—1997的规定。条目的内容顺序如下:条目编号优先术语(黑体)缩写形式(黑体)许用术语拒用术语;括号中注明“(拒用)”专业领域用尖括号定义引用的术语用黑体标出,并在后面用括号注明条目编号例注除了条目编号之外,优先术语和定义仅在适当的地方出现。1范围本标准规定了在术语工作和术语编纂中用于语言和信息处理的术语。本标准适用于术语数据库的研究、开发、维护及管理工作,在其他涉及术语数据处理的工作中也可参考使用。2引用标准下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时,所示版本均为有效。所有标准都会被修订,使用本标准的各方应探讨使用下列标准昀新版本的可能性。GB/T12200.2—1994汉语信息处理词汇02部分:汉语和汉字GB/T12991—1991信息处理系统数据库语言SQL(idtISO/IEC9075:1989)GB/T15237—1994术语学基本词汇(neqISO1087:1990)GB/T5271.8—1993数据处理词汇08部分:控制、完整性和安全性(eqvISO2382—8:1986)ISO/IEC2382—1:1993信息技术词汇第1部分:基本术语ISO2382—4;1987信息处理系统词汇第4部分:数据的组织ISO2382—6,1987信息处理系统词汇第6部分:数据的准备和处理ISO/IEC2382—9:1994信息技术词汇第9部分:数据通信ISO/IEC2382—23:1994信息技术词汇第23部分:文本处理3一般概念3.1信息information信息处理)关于客体(如事实、概念、事件、思想、过程等)的知识,它在一定的上千文中具有特定的意义。注1本条引自ISO/IEC2382-1。2在其他的应用领域,信息的定义不同。3.2数据data为进行通信、解释和处理而使用的信息(3.1)的形式化表现形式。注:本条改自ISO/IEC2382-1。3.3数据处理dataprocessingDP对数据(3.2)进行的系统操作。例:对数据进行算术运算或逻辑运算,数据的归并(9.5)或分类(9.4),程序的汇编或编译,以及对文本(3.6)的操作,如文本编辑(12.3)、分类、归并、存储、检索、显示(9.6)、打印等。注:本术语不能作为信息处理(3.4)的同义术语。3.4信息处理informationprocessing对信息(3.1)进行的系统操作,它包含数据处理(3.3)。注1本条改自ISO/IEC2382-1。2本术语不能作为数据处理(3.3)的同义术语。3.5语言处理languageprocessing对语言进行的系统操作,它包括数据处理(3.3)。3.6文本text以字符(6.1)、符号、词、短语、句子、段落、表格或其他的符号序列的构成的用于表达意义的结构化数据(3.2)。其解释主要根据阅读文本的人对于某种自然语言或人工语言的知识来进行。注:本条引自ISO/IEC2382-1。3.7文本语料库textcorpus语料库corpus自然语言处理根据预先确定的规则所准备、编码或存储的机器可读文本(参阅7.4)或文本的某些部分的有组织集合。注:文本语料库可按专业领域、容量或时代做不同的限定,例如,从1986年以来的某些特定的期刊、数学文本等。文本语料库可用作进一步的语言分析或术语工作的原材料。3.8类型type自然语言处理文本(3,6)中代表一个确定类别的浯言单位。注:这种语言单位通常是未用定界符(3.10)隔开的不间断的字符串。3.9类例token自然语言处理类型(3.8)在文本中的具体表现形式。例:在英语中,如果把good的所有词形定义为类型,那么good,better和best等都是词形good的类例。3.10定界符delimiter分隔符separator用于指明一个字符串(6.13)的开始或结尾的一个或多个字符(6.1)。注1本条引自ISO2382-4。2空白或标点符号经常用作定界符。3.11词形wordform给定词的任何形态句法变体。例:在英语中,indicate;indicates,visitor:visitor'S.注1在屈折语中,词形经常是屈折形式,例如,英语的go,goes;以及go,went,gone。2这个定义不包含正词法方面的变体。3.12词形变化范型paradigm自然语言处理属于某一给定词的各个词形(3.11)的类聚。3.13基本词形baseform参照词形referenceform根据词典编纂学的惯例选出的用以表示一个词形变化范型(3.12)中的各个形式的词形(3.11)。例:在英语中,bind是bind,bound,binds,binding等的基本词形。注1本条改自GB/T15237-1994。2术语“基本词形”也可以应用于词组型术语。3.14词组型术语multi-wordterm包括两个以上词的术语。3.15压缩形compressedform规定形normalizedform(拒用)缩减形reducedform(拒用)经过压缩(8.4)的字符串。例:字符串“input/output-algorithm”变成其压缩形“inputoutputalgorithm”。注:术语“缩减形”和“规定形”可能会导致误解,建议避免使用这两个术语。3.16屈折deinflection取消词形(3.117)中的屈折成分。3.17取消屈折的词形deinflectedwordform在取消屈折(3.16)之后余下的词段(3.18)。3.18词段wordpart词片wordsegment为了某种特殊用途从一个词形(3.11)中取出的字符串(6.13)。3.19词形还原lemmatization从某一给定词形(3.11)生成基本词形(3.13)的过程。例;在英语中,“go”是“goes”通过取消屈折(3.16)而得到的基本词形(3.13);而“go”是“went”通过不规则动词变换得到的基本词形(3.13),这种变换不符合标准的屈折规则。注:这样的结果也称为词形还原。3.20剖折parsing根据给定的算法,将给定的结构分解为其组成成分的操作。例:在英语句子“allunsaturatedfattyacidsarenotdegradablebybiologicalmethods”中,“allunsaturatedfattyacids”和“biologicalmethods”可看成是词组型术语(3.14),它们可以被抽取(8.9)。注:剖析不一定必须提供对某一句子的完整分析。3.21术语数据集合terminologicaldatacollection包含特定专业领域有关各种概念的信息(3.1)数据(3.2)集合。3.22术语条目terminologicalentry术语数据集合(3.21)中所包含的关于一个概念的术语数据(3.2)。注:一个术语条目可以包含两个以上的记录(7.9)。3.23同形词homograph两个以上的具有相同书写形式但表示不同的概念(语义同形)或不同句法功能(句法同形)的词形或词。例:在英语中,lead(铅Pb)和lead(领导);bark(吠)和bark(树皮)。在汉语中,仪表(人的外表)和仪表(测量温度、压力等的仪器);杜鹃(布谷鸟)和杜鹃(映山红)。注:具有不同书写形式但经过压缩(8.4)2后变为同形的词形(3.11)不算同形词。3.24歧义消解disambiguation通过赋予同形词贴切的概念或贴切的句法功能从而分化同形词(3.23)的过程,或者通过赋予同形词组以不同的语言解释来分化同形词组的过程。例:在汉语中,分化“白跑”和“白纸”中的“白”分别为副词和形容词;分化“学习文件”的句法结构分别为动宾结构和偏正结构。4数据组织4.1分类值sortvalue排序值sortingvalue根据预先确定的顺序,字符集(6.2)中某一元素的位置。例:在法语中,字母A具有比字母B较低的分类值。一个小写字母是否与它相应的大写字母具有相同的分类值,取决于实际应用的需要。带发音符号的字母有时按其相应的基本字母来处理,有时按不同的字母来处理。4.2分类关键字sortkey排序键用于满足分类(9.4)和归并(9.5)操作要求的字符串(6.13)。例:当给图书数据分类以便产生作者目录时,作者的姓是第一分类关键字,作者的名是第二分类关键字。如果同一个作者有两个题目,则把出版年份或题目作为附加的分类关键字。4.3字母排序alphabeticalordering在组织字符串(6.13)时,表中的每一个串(6.12)的位置唯一地由从该串(6.12)头部开始的分类值(4.1)来确定。注1带有发音符号和连音符号的字母以及带有数字、上标、下标的其他符号都可以作为特殊的分类值。2字母排序的规则可以因语言的不同而不同。4.4逆字母排序reversealphabeticalordering在组织字符串(6.13)时,表中的每一个串(6.12)的位置唯一地由从该串(6.12)尾部开始的分类值(4.1)来确定。4.5频度顺序frequencyorder在特定的文本(3.6)或文本语料库(3.7)中,根据类例(3.9)出现频度上升或下降的顺序来排列的类型(3.8)的顺序。注:在通常情况下,表的类型是词形(3.11)频度表或原形词频度表。4.6轮排permutation使词组型术语中每个实词都作为关键词进行的排序。例:在英语中,对字符串“millionsofinstructionspersecond”[MIPS]轮排时,“instructions,millionsofperseconds”,“second,millionsofinstructionsper”等形式分别出现在“instructions”和“second”等实词的排序表中,这样可以保证术语中任何想要的成分都可以出现在相应字母的排序位置。注:本条改自GB/T15237-1994。4.7毗连concatenation两个以上的字符串(6.13)按特定的顺序合并,形成一个新的串(6.12),其长度等于各个字符串(6.13)长度的和。5术语数据的筛选5.1非用词表exclusionlist停用词表stopwordlist在数据处理(3.3)中任意选择的不予考虑的字符串(6.13)组成的表。注1在术语工作中,产生忽略功能词(代词、冠词等)的词表可能是有益的。2有时,非用词表中的字符串可以被保留下来(例如在词语索引(5.4)中),但是不注明其频度。5.2拟用词表inclusionlist加用词表pluswordlist要保存或认为要进一步数据处理(3.3)的字符串(6.13)组成的表。例:凡包含“bank”(银行)或“creditinstitution”(信用机构)的所有的句子都抽出;凡以“M”起头的所有的条目在名字索引中都检索出来;凡以“anti-”开头的所有的单词都选出来。注:如果适合的话,拟用词表也可以包含词段(3.18)或其他的字符串(6.13)。5.3自由文本搜索free-textsearch在文本语料库(3.7)中进行的,能够检索任何类型(3.8)的搜索(8.7)。5.4词语索引concordance自然语言处理按字母顺序排列的词形(3.11)表,其词形(3.11)是从原文中抽取(8.9)出来的,包括要检索的词形(3.11)以及该词形(3.11)在原文中的前面部分和后面部分。注:词语索引通常的形式是KWIC(上下文关键词)词语索引和句子词语索引。5.5索引index自然语言处理从一个出处摘出的并属于同一类数据元的有序字符串(6.13)汇集表。注:本条改自GB/