1第五章专利信息检索综述5.1专利信息检索概述自专利文献诞生以来,由于专利文献中记载了有关发明创造的技术信息和有关专利权的法律信息,人们就在不断地使用专利文献,从事专利文献工作的人们在长期的工作实践中概括出的一种特指查找专利资料活动的术语,即:专利文献检索。随着信息存储与检索技术的发展,人们可以把杂乱无章的信息按照一定的方式组织和存储起来,并可以根据需要找出相关信息,从而产生出信息检索的概念。人们开始把“文献检索”也称作“信息检索”,并且将“信息检索”定义为:使用特定的检索指令、检索词和检索策略,从数据库中检索出所需要的信息。1986年(前)苏联国家发明与发现委员会出版的《发明专利许可证工作及专利情报术语词典》把“专利信息检索”定义为:根据一项数据特征,从大量的专利文献或专利数据库中挑选符合某一特定要求的文献或信息的过程。随着计算机与网络技术的不断完善,今天人们所说的“专利信息检索”特指利用计算机查找专利信息的过程。然而,专利信息检索是一项复杂的工作,专利信息检索效果如何,会受到客观因素和主观因素的制约和影响。专利信息检索的客观因素主要指专利信息检索的系统因素,包括:专利信息数据库、专利信息检索软件;专利信息检索的主观因素主要包括:专利信息检索目的、检索种类、检索技术、检索策略等。这些因素共同制约着专利信息检索的过程,直接影响着专利信息检索的结果。5.1.1专利信息数据库专利信息数据库是构成专利信息检索系统的最重要的组成部分,是专利信息检索的物质基础,是影响专利信息检索效果的重要客观因素。数据库是指基于计算机的、根据一定需要进行信息传递而建立的一种有序化的信息集合体。而专利信息数据库正是为传递各种专利信息而建立的有序的专利信息集合体。5.1.1.1专利数据专利信息数据库中的数据大体可以分为两类:专利著录数据和专利全文数据。专利著录数据是指基于专利文献著录项目而建立的数据;专利全文数据则是指基于专利说明书全文而建立的数据。专利著录数据是为便于检索而建立的,因此专利著录数据是编码型数据,是可检索数据。而专利全文数据主要是为浏览而用,因而专利全文数据,特别是早期专利全文数据,是图像型数据,是不可检索的数据。随着数据加工技术的不断进步,特别是OCR技术的应用,专利全文数据亦被加工成编码型数据,用于全文检索。因此专利全文数据被处理成两类:图像型数据和编码型数据。虽然编码型专利著录数据的数据库是基于专利文献著录项目而建立的,但数据库加工者并不会把每件专利的所有专利文献著录项目都收录到一个数据库中。数据库加工者会根据检索需要,把专利著录数据的数据库分别处理成专利检索数据库、专利法律状态数据库、同族专利数据库、专利权转移数据库等。专利检索数据库通常包括:专利号或文献号、申请号、申请人或专利权人、发明人或设计人、专利分类号、优先权信息、发明名称、文摘等专利数据;专业化的专利检索数据库还会包括经过标引的关键词、细分的专利文摘等数据,特别是专利文摘数据会进一步细分成新颖性、用途、优点、技术描述等若干个子字段。专利检索数据库主要供人们查询专利对比文献或参考文献。专利法律状态数据库通常包括:不同公布级别的公布时间和公布类型等数据。专利法律状态数据库主要供人们查询专利当前是否授权、是否有效等状态,以及失效原因等。2同族专利数据库通常包括:同一专利族中各个同族专利的文献号、公布种类、公布时间等数据。同族专利数据库供人们查询同一专利族的专利数量、所属同族专利种类等信息。专利权转移数据库通常包括:专利号、专利出让人名称、专利受让人名称、专利权转移生效时间等数据。专利权转移数据库供人们查询专利权转移信息。5.1.1.2专利记录与字段在以编码型专利文献著录项目构成的专利著录数据的数据库中,每件专利被处理成一个记录。专利信息数据库根据检索需要,将其所收录的每个专利记录的专利文献著录项目处理成若干字段,每个字段设有字段名称和字段代码,供编制检索软件时设立检索入口。专利检索数据库中的专利记录常设字段有:文献号、申请号、申请人、发明人、专利分类号、发明名称、文摘、申请日、公布日等。其中文献号、申请号字段为数字型数据;申请人、发明人、发明名称、文摘字段为文本型数据;专利分类号为代码型数据;申请日、公布日为日期型数据。专业化的专利检索数据库中的专利记录还设有关键词字段,关键词字段为关键词型数据。5.1.2专利信息检索软件专利信息检索软件是供人们运行专利信息数据库、实施专利信息检索的计算机应用软件。当它与专利数据库结合到一起时,就组成了完整的专利信息检索系统。因此,它与专利数据库一起构成专利信息检索的物质基础,是影响专利信息检索效果的重要客观因素。公众了解一种专利信息检索系统时,主要通过专利信息检索系统所配备的检索软件,特别是通过检索软件中设置的检索方式、检索入口、检索功能来认识和使用它。5.1.2.1专利信息检索方式为适应不同用户对专利信息检索的需求,一般检索软件采用以下检索方式中的一种或多种:命令检索方式,格式化检索方式和辅助检索方式。命令检索方式是指由检索者直接输入检索命令代码、检索字段代码和检索提问字符串并执行检索的方式。在命令检索方式的检索界面上,没有提示性语句,检索者需熟悉检索命令,熟知专利数据库中的检索字段及其代码,了解检索系统设置的各种检索功能。同时对于检索者来说,命令检索方式自由度大,可在检索系统规定的范围内任意组织检索提问式,并进行多逻辑关系的复杂检索,因此它比较适合在专业化专利信息检索系统中使用,更适于专业检索人士使用。格式化检索方式是指检索系统为检索者设置了固定的检索提问式输入窗口及各检索窗口之间固定的逻辑关系选项的检索方式。在格式化检索方式的检索界面上,检索者只能按照固定设置进行检索,无法任意组织检索提问式,也无法进行多逻辑关系的复杂检索,因此它比较适合在大众化专利信息检索系统中使用,更适于普通公众使用。辅助检索方式是指根据检索提示进行专利信息检索的检索方式。在辅助检索方式的检索界面上,检索系统为检索者不仅设置了固定的检索提问式输入窗口、检索字段代码选项和检索词索引选项,还设置了执行检索步骤的提示,检索者可根据一步步提示来完成检索,因此它比较适合在大众化专利信息检索系统中使用,更适于初学者使用。5.1.2.2专利信息检索界面检索界面是专利信息检索系统根据检索方式设置的供检索者实施检索的一种互动平台。我们可以在这个互动平台上组织检索提问式,实施检索。由于检索界面是根据检索方式来设置的,一种专利信息检索系统如果仅设置一种检索方3式,通常也只设置一种检索界面;如果设置两种以上检索方式,则同时会设置两种以上检索界面。通常,命令检索方式和辅助检索方式所设置的检索界面都较为固定,只有格式化检索方式的检索界面会根据不同需要来变化式样。如一些检索系统根据需要设置了格式化检索方式的多检索入口的检索界面,同时还设置了格式化检索方式的单一主要检索入口的检索界面。如美国专利商标局网站上的美国授权专利检索系统既设置了命令检索方式又设置了格式化检索方式,因此即有适应命令检索方式的高级检索界面(AdvancedSearch),也有适应格式化检索方式的快速检索界面(QuickSearch)和专利号检索界面(PatentNumberSearch)。5.1.2.3专利信息检索入口检索入口是专利信息检索系统为专利数据库中的、用于检索的字段而设置的检索项。通常专利数据库中有那些检索字段,检索软件就可设置那些检索入口。作为专利检索数据库的检索软件通常设置的专利检索入口有:文献号、申请号、申请人、发明人、专利分类号、发明名称、文摘、申请日、公布日等。作为专业化的专利检索数据库的检索软件还会设置更多的检索入口,如关键词、专利权人代码、化学代码等检索入口。文献号、申请号是从专利的号码角度检索专利文献的检索入口。文献号包括:公开号、公告号(如申请公告号、审定公告号、授权公告号)、专利号。人们可以从某一专利的申请号、公开号或申请公告号、审定公告号、授权公告号、专利号入手,直接调阅专利文献,或检索同族专利,或查询该专利的法律状态。申请人、发明人是从与专利有关的人(包括自然人和法人)的角度检索专利信息的主要检索入口。与专利有关的人检索入口包括:专利申请人、专利受让人、专利权人、专利出让人、发明人、设计人等。人们可以从某一专利申请人或专利受让人、专利权人、专利出让人、发明人、设计人、专利代理人等入手检索出属予该专利申请人或专利受让人、专利权人、专利出让人、发明人、设计人的一件或一批专利文献。专利分类号是从技术主题角度检索专利信息的主要检索入口。人们可以从某一专利分类号入手检索出同属于该分类号所代表的技术领域的一组专利文献。发明名称、文摘、关键词是从技术主题角度检索专利信息的最重要检索入口,在计算机检索中普遍使用。在发明名称、文摘、关键词检索入口中进行的检索属于主题词检索。主题词可分为标引词和非标引词。标引词是指经过专门标引加工筛选出来的主题词,它包括机器标引和手工标引生成的主题词。非标引词也称自由词,在中文计算机检索系统中自由词还包括字。人们可以利用计算机从主题词入手检索包含该主题词的专利文献。有些计算机检索系统允许从标引词入手检索包含该主题词及其同义词的专利文献。公布日、申请日多数情况下不单独使用,通常作为限定性检索项在检索中使用,主要与其他检索入口进行组配检索。作为格式化检索方式的检索界面上设置的检索入口通常是以固定的窗口模式设计的,检索者在检索时先选择检索入口名称,再在检索入口名称对应的检索窗口输入检索提问字符串,即可进行检索。作为命令检索方式的检索界面上设置的检索入口通常是开放式的,检索者在检索时除了要输入检索提问字符串,还要输入检索字段代码,以确定检索是在特定字段中进行的,才可进行检索。5.1.2.4专利信息检索功能专利信息检索功能是指专利信息检索系统为使检索软件满足检索者的需求、使专利数据库中的各种相关信息能够被有效地检索出来而做的特殊设置。通常检索软件在检索专利数据库中的数据时,通过将一个个检索词和特定字段中的词进4行比较,将含有相同词的记录作为检索结果提取出来,从而实现检索目的。然而,无论是在单一字段中检索,还是在多字段中检索,总有许多信息需要经过特殊组织或较为复杂的比较才能找到。因此许多检索软件设置了能够满足各种检索需求的检索功能,如逻辑组配检索、通配检索、范围检索、位置检索、二次检索、以及统计等功能。5.1.2.4专利信息检索功能1、逻辑组配检索功能逻辑组配检索功能,也可称作布尔逻辑检索技术,是指检索软件设置了利用“或、与、非”等逻辑运算符将同一个字段内的两个以上被检索词进行逻辑组配,从而组成逻辑检索提问式的检索功能。用“或”运算符将同一个字段内的两个被检索词(A或B)进行组配并检索的检索方式称逻辑“或”检索,其检索结果将包括所有带有A或B两个检索词中任意一个检索词的记录。逻辑“或”检索功能有助于扩大检索范围,提高查全率。用“与”运算符将同一个字段内的两个被检索词(A与B)进行组配并检索的检索方式称逻辑“与”检索,其检索结果将包括所有同时带有A和B两个检索词的记录。逻辑“与”检索功能有助于增强检索专指性,缩小检索范围,提高检准率。用“非”运算符将同一个字段内两个被检索词(A非B)进行组配并检索的检索方式称逻辑“非”检索,其检索结果将包括所有带A检索词而不带B检索词的记录。逻辑“非”检索功能有助于缩小检索范围,增强检索的准确性。2、通配检索功能通配检索功能,也可称作通配检索技术,是指检索软件设置了在某一检索字段内用“截断符、强制符、选择符”等通配符替代某一检索字符串中的任意字符,构成通配检索式的检索功能。用截断符通配的字符串构成检索词并进行检索称截断检索,截断检索可分为前截断检索和后截断检索,前截断检索还可称为后方一致检索,后截断检索还可称为前方一致检索。在一个检索词中只能出现一个截词符,或前截断,或后截断,该截词符通常代表任意数量的字符。用强制符通配的字符串构成的检索词进行的检索为强制检索。在一个检索词中可以使用一个以上强制符,一个强制符代表一个字符。用选择符通配的字符串