2006-05-15复旦大学图书馆文献检索教研室1第九章信息处理与分析第二节文献检索策略与案例分析2006-05-152复旦大学图书馆文献检索教研室一、文献检索策略概述二、文献检索效果评价三、文献检索策略构建案例分析2006-05-153复旦大学图书馆文献检索教研室一、文献检索策略概述(一)检索策略的定义(二)常用的检索策略类型2006-05-154复旦大学图书馆文献检索教研室(一)检索策略的定义广义的检索策略指为实现检索目标而制定的全盘计划和方案,是对整个检索过程的科学规划和指导。具体而言就是在明确检索目的、分析课题特征的基础上,选择合适的数据库和检索系统,拟定检索方案,确定检索词,构建检索提问式,执行检索并调整检索式,直至获得较满意的检索结果的全过程。2006-05-155复旦大学图书馆文献检索教研室检索策略的制定流程满意用户检索课题检索目的分析1.侧重检全2.侧重检准3.检全检准平衡课题内容特征分析1.所属学科2.主要概念面3.各概念面的分支概念课题形式特征分析1.检索年限2.文献类型3.文献语种等选择数据库及检索系统跨库检索系统核心检索系统全文数据库侧重查全适用各种情况侧重查准拟定检索词编制检索式浏览并优化检索结果获取全文输出检索结果不满意2006-05-156复旦大学图书馆文献检索教研室(一)检索策略的定义狭义的检索策略特指检索过程中构建检索式的环节包含检索词的确定,运算符的选择,检索字段的设定及限制选项的设置等。2006-05-157复旦大学图书馆文献检索教研室(二)常用的检索策略类型积木型(BuildingBlock)把检索课题剖析成若干个不同的概念面,逐个查找各个概念面在每个概念面检索时尽可能全地列举同义词、近义词和相关词,用“OR”连接,构成针对每个概念面的检索式,即多个子检索式最后根据课题要求,选用合适的布尔算符把所有子检索式连接起来,构成一个总的检索式。这种策略类似把各个积木块拼成完整图案,因此称为积木型检索策略。2006-05-158复旦大学图书馆文献检索教研室(二)常用的检索策略类型引文珠形增长(CitationPearl-Growing)首先检索课题中较为核心的、最专指的概念面,以便至少检出一篇命中文献或相关信息。浏览检出文献,从中选出新的相关检索词,补充到检索式中,重新检索出更多的命中文献。然后再重复进行浏览选词再检索的过程,直到获得理想的最终检索结果为止。这种策略最具交互性,检索词更具针对性,检索式在变化中完善,不足是检索费时较多。2006-05-159复旦大学图书馆文献检索教研室(二)常用的检索策略类型逐次分馏(SuccessiveFractions)先用较宽泛的检索式,确定一个范围较广的命中文献初始集。然后逐步利用各种检索限制或限定措施,逐渐提高校索式的专指度,缩小命中文献集,直到得到数量适宜、用户满意的命中文献集为止。这种策略有利于平衡检索的全面性和准确性,如能较好地掌握检索限制和限定的尺度,可取得相当好的检索效果。2006-05-1510复旦大学图书馆文献检索教研室(二)常用的检索策略类型最专指面优先(MostSpecificFacetFirst)首先从课题中最专指的一个概念面入手检索,得到初步检索结果后再决定是否要加入其他概念面。这些其他概念面只有在要提高查准率时才需输入,各概念面在检索式中是逻辑“与”的关系。如果觉得命中文献太少,通常不需要再把其他概念面加到检索式中去。这种策略比较灵活,检索用时也相对较少。2006-05-1511复旦大学图书馆文献检索教研室(二)常用的检索策略类型最低登录量面优先(LowestPostingFacetFirst)登录量是指一个索引词在标引中的使用次数用户在索引词表界面查询课题中每个概念面对应的检索词的登录量,用登录量最少的概念面为入口开始检索。如命中文献相当少,则完成检索。如结果较多,再选择登录量较低的概念加入到检索式中,逻辑关系为“与”。这种策略与最专指面优先策略极为相似,不同的是在计算机检索中,很容易明确哪个概念组面的登录最小。2006-05-1512复旦大学图书馆文献检索教研室二、文献检索效果评价(一)查全率(二)查准率(三)查全率与查准率的关系(四)影响查全率和查准率的因素2006-05-1513复旦大学图书馆文献检索教研室数据库检索结果距阵用户数据库相关文献非相关文献总计检出文献数a(命中)b(噪音)a+b未检出文献数c(漏检)d(合理拒绝)c+d合计a+cb+da+b+c+d2006-05-1514复旦大学图书馆文献检索教研室(一)查全率查全率(RecallRatio,简称R)是检索系统中检出的相关文献数量(a)与检索系统中相关文献总量(a+c)的比率,即:%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(2006-05-1515复旦大学图书馆文献检索教研室(二)查准率查准率(PrecisionRatio,简称P)是检索系统检出的相关文献数量(a)与检出的文献总量(a+b)的比率,即:%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(%100baa%100P检出文献总量检出相关文献数量)查准率(2006-05-1516复旦大学图书馆文献检索教研室(三)查全率与查准率的关系查全率与查准率之间为互逆的关系通常采取措施提高查全率时会降低查准率反之,采取措施提高查准率时则会降低查全率在检索中很难实现查准率和查全率均逼近100%在检索中要根据课题的实际需求,确定以查准为主还是以查全为主,或是寻求查准与查全之间的平衡。%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(2006-05-1517复旦大学图书馆文献检索教研室(四)影响查全率和查准率的因素%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(提高检全度的方法将检索词限定到文摘、全部字段等使用截词符。如:transplant*使用同义词。如:(lungcancerorlungcarcinoma)查全同义单词的不同拼写方式如:fibreorfiber查全缩写与全称如:“ang17”OR“angiotensin17”变词组检索为邻近检索。如:“acutepancreatitis”改为acuteadj2pancreatitis2006-05-1518复旦大学图书馆文献检索教研室(四)影响查全率和查准率的因素%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(提高检准度的方法将检索词限定到标题、关键词字段设定在数据库的某个或若干个子集中检索例:coreclinicaljournals子集(Medline)ClinicalMedicine大类(Elsevier)变and检索为邻近算符:near,adj…例:acuteandpancreatitis改为:acuteadj2pancreatitis(OVID)使用词组精确匹配运算符“”例:“renalfailure”2006-05-1519复旦大学图书馆文献检索教研室(四)影响查全率和查准率的因素%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(%100caa%100R量系统中全部相关文献数检出相关文献数量)查全率(寻求查准和查全平衡的方法使用规范主题词表选词检索没有对应规范主题词的概念首先使用上级概念对应的规范词检索再结合自由词检索。例:肾盂肿瘤放射学诊断主题词:kidneyneoplasms副主题词:放射学诊断对应的副主题词结合自由词:kidneypelvis没有词表的数据库:调整检索字段和运算符2006-05-1520复旦大学图书馆文献检索教研室三、文献检索策略构建案例分析【案例1】有读者要撰写“国内外舌根肿瘤手术治疗新进展”的综述,需查阅相关文献。【案例2】有读者要申报关于“血管紧张素1-7对心肌作用”的科研项目,需了解国外是否有相关研究,对课题的新颖度作出评价。【案例3】有读者在配制中成药过程中,要使用龙涎香,他想了解国内外有关“龙涎香在配制中成药中应用研究”的文献。【案例4】有读者在撰写“双酚A对生殖系统毒性研究”的论文,要查找国内外相关论文作为参考。2006-05-1521复旦大学图书馆文献检索教研室【案例1】有读者要撰写“国内外舌根肿瘤手术治疗新进展”的综述,需查阅相关文献。检索目的:撰写综述,作文献普查,侧重查全。课题内容特征:所属学科:口腔疾病中的舌肿瘤。包含概念面:“舌根肿瘤”、“手术治疗”,均无分支概念。2006-05-1522复旦大学图书馆文献检索教研室【案例1】有读者要撰写“国内外舌根肿瘤手术治疗新进展”的综述,需查阅相关文献。课题形式特征:检索年限最近五年。文献类型:期刊、会议文献。文献语种:中外文各种语种。选择数据库及检索系统CBM万方中国学术会议论文全文数据库OVID-MEDLINEISI-ISTP2006-05-1523复旦大学图书馆文献检索教研室【案例1】有读者要撰写“国内外舌根肿瘤手术治疗新进展”的综述,需查阅相关文献。拟定检索词和检索式CBM:舌肿瘤/外科学and舌根万方会议论文:积木型策略全部字段=(舌根肿瘤或舌根部肿瘤或舌根癌)and全部字段=(手术或外科)OVID-MEDLINE:tongueneoplasms/surgeryandtongueadj3baseISI-ISTP:积木型策略Topic=((tonguesamebasesamecancer)or(tonguesamebasesamecarcinoma))and(surgeryoroperation*)2006-05-1524复旦大学图书馆文献检索教研室【案例2】申报“血管紧张素1-7对心肌作用”的科研项目,了解国外研究情况,判断新颖性检索目的:新颖性评价,侧重查全。课题内容特征:所属学科:神经肽类物质对人体脏器的作用包含概念面:“血管紧张素1-7”、“心血管系统”分支概念:“心肌”有分支概念“心肌细胞”、“乳头肌”、“心成肌细胞”。2006-05-1525复旦大学图书馆文献检索教研室【案例2】申报“血管紧张素1-7对心肌作用”的科研项目,了解国外研究情况,判断新颖性课题形式特征:检索年限:全部年份。文献类型:期刊、会议文献文献语种:外文各种语种。选择数据库及检索系统:OVID-MEDLINEISI-ISTP2006-05-1526复旦大学图书馆文献检索教研室【案例2】申报“血管紧张素1-7对心肌作用”的科研项目,了解国外研究情况,判断新颖性拟定检索词和检索式:OVID-MEDLINE:引文珠增长型1950-present:expmyocardium/and(“angiotensin-(1-7)”or“angiotensin1-7”or“ang-(1-7)”or“ang1-7”)In-Process&OtherNon-IndexedCitations:最专指面优先“angiotensin-(1-7)”or“angiotensin1-7”or“ang-(1-7)”or“ang1-7”2006-05-1527复旦大学图书馆文献检索教研室【案例2】申报“血管紧张素1-7