科技文献检索与利用哈工大图书馆信息咨询部参考书1于双城等,科技信息检索与利用,北京:清华大学出版社,20122于光等,信息检索,哈尔滨:电子工业出版社,20103徐庆宁等,信息检索与利用,上海:华东理工大学出版社,20044符绍宏等,因特网信息资源检索与利用,北京:清华大学出版社,2000成绩评定方法1上课考勤占30%2检索实习作业70%教学大纲1、计算机信息检索基础知识(2个学时)2、国外两大文摘数据库的检索与利用(2个学时)3、引文索引及其检索方法(2个学时)4、特种文献资源的检索与利用(2个学时)5、专利文献信息资源(2个学时)6、外文全文数据库的检索与利用(1个学时)学习文献检索课的目的信息检索既是一门科学,又是一门技巧,在某种程度上也是一门艺术。1、拓宽获取与利用信息的途径。2、可以获取学术动态,寻找未知问题的答案。3、写论文、做课题能积极主动有意识地利用信息。4、培养从主要记忆信息到主要应用信息和创新信息的能力。以最少的时间、精力获取自己需要的信息学习文献检索课的目的Whereisit?获取信息的总路线快速地准确地最有用的信息•计算机信息检索技术•计算机信息检索的常用方法与步骤•我馆引进资源总体介绍•网络搜索引擎的利用计算机信息检索基础知识科技文献的定义•记录有科技信息知识的纸张、胶片、磁带、磁盘、光盘以及一些网络资源,称为科技文献。计算机信息检索技术文献的类型按文献的出版形式划分(1)科技图书(6)科技报告(2)科技期刊(7)政府出版物(3)会议文献(8)标准文献(4)专利文献(9)科技档案(5)学位论文(10)产品样本文献的类型按文献的出版形式划分(1)科技图书是对已发表的科研成果,生产技术和经验总结性的概括和论述。是存储和传播科学文化知识的主要载体。阅读型:教科书(Textbook)、专著(Monograph)、文集(Anthology)等工具性:词典、百科全书及手册等著录格式:(版权页)书名、作者、内容、出版社、出版时间、价格、页次、ISBN号特点:带有总结性、成熟定性(内容详实)传授知识,而不是报道最新信息(发表滞后)(2)科技期刊(journal,periodic)采用统一名称的周期性出版刊物。特点:名称固定有连续的卷、年月顺序号数量大,内容丰富;出版周期短,报道速度快;在科学家和专家们所利用的全部科技信息中,由期刊提供的占70%左右。期刊是获取信息的最重要来源。著录格式:刊名、卷、期、年、月、页次、ISSN号ISSN1005-1805Vol26No2;V26n2;26(2)EI数据库举例:(3)会议文献是科技人员在各级学术会议上,交流科技新成果、新进展及发展趋势的讨论记录。特点:内容新颖、传递及时、针对性强著录格式:会议名称、会议地址、会期、主办单位。conference(大会)、meeting(小型会议)、symposium(讨论会)、proceeding(会议录)、paper(单篇论文)、transaction(汇报)等。IEEE(TheInstituteofElectricalandElectronicEngineers)最大的电子、工程类的专业技术学会,宗旨,召开各种学术会议,主持编辑多种出版物,期刊几百种,标准:1000多个,会议1000多个最大的电子、工程类信息源例如:图书馆收藏地点一区五楼网上万方和CNKI有专门的会议论文数据库EI中会议文献举例:(4)科技报告是科研成果的总结或各阶段进展情况的实际记录。有科研项目的研究方案、实验记录、实验数据、图表等。特点:独立成册;内容新颖;内容详实专深;保密性;著录格式:报告名称、年代、顺序号。美国政府四大报告:PB报告AD报告NASA报告DOE报告(NTIS、NTRL)PB报告(美国商务出版局)PB+年代+顺序号民用工程、科学技术、城市规划、环保、生物医学等AD报告(美国军事国防部)AD+A(B、C….)+顺序号A非密公开B非密限制C绝密机密导弹、火箭、遥感、雷达、高能燃料等NASA报告(美国宇航局)N+年代+顺序号空间动力学、飞行器及结构材料、试验设备、飞行器制导、航天与宇宙飞行DOE报告(美国能源部)DE+年代+顺序号涉及核能、原子能、核安全、风能、电能和能源管理系统的报告。(5)专利文献是一切与专利制度有关的专利文件的统称。如专利说明书和专利请求书。专利文献反映了当前最新的技术成果。专利文献识别:国别代码+专利号中国专利:CN97223700.3美国专利:US6691162(6)学位论文作者为获取某种学位而撰写的论文称之为学位论文。可分为学士、硕士、博士三种形式。著录格式:学校名称、授予学位学校、导师姓名、地址时间、页次特点:硕士、博士论文具有较高的参考价值一般偏重于理论,附有大量的参考文献,借此可以看出有关专题的发展,一般不出版发行,而是保存在授予单位的图书馆里。万方中学位论文全文库和CNKI中优秀博硕论文全文库PQDT国外博硕论文全文库(7)标准文献是对工农业产品及工程建设的质量、规格及其检验方法等所做的技术上的规定。可划分为:ISO(国际标准)、国家标准、机构和企业标准著录格式:标准代号、种次号和公布年代(8)政府出版物(略)是各国政府部门及其设立的专门机构所发表、出版的文件。(9)科技档案(略)是科研生产活动中形成的有具体事物对象的技术文件、图纸、图表、照片和原始记录等的总称。(10)产品资料(略)是厂商为推销产品而印发或放在网站上介绍产品情况的文献,包括产品样本、产品说明书、产品目录、厂商介绍等。文献的类型按文献的加工程度划分•零次文献:口头信息、未公开发表的文字资料(手稿、书信、笔记、博客等);时效性强;大量而无序•一次文献:期刊论文、专利文献、科技报告、会议录等;研究人员最终索取的文献类型•二次文献:检索工具;如EI、SCI、ISTP等•三次文献:选用大量有关的文献,经过综合、分析、研究而编写出来的文献。如:综述、评论、评述、进展、动态等;研究人员最终需要的文献类型计算机信息检索技术哈尔滨工业大学文摘数据库哈尔滨工业大学全文数据库信息检索的基本概念广义的信息检索指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索指用户找出有关信息的过程。计算机信息检索技术计算机信息检索技术信息检索语言是信息组织与信息检索时所用的语言,也称文献检索语言、情报语言等。题名语言著者语言号码语言分类语言主题语言描述文献外部特征的语言描述文献内部特征的语言检索语言计算机信息检索技术(一)分类检索语言是按学科范畴和体系来划分事物而构成的一种检索语言,集中体现学科的系统性,反映事物的从属、派生关系,由上至下,从总体到局部层层划分、展开,是一种等级体系。用分类号表达概念广泛用于图书资料的是图书分类法•中国图书分类法•中国科学院图书分类法•杜威十进制分类法•国际十进制分类法计算机信息检索技术中国图书馆分类法类目简表5个基本部类22个基本大类马列、毛泽东思想A马列、毛泽东思想哲学B哲学、宗教社会科学C社会科学总论;D政治、法律;E军事;F经济G文化、科学、教育、体育;H语言、文字;I文学;J艺术;K历史、地理自然科学N自然科学总论;O数理科学和化学;P天文学、地球科学;Q生物科学;R医学、卫生;S农业科学T工业技术;U交通运输;V航空、航天;X环境科学、劳动保护科学(安全科学)综合性图书Z综合性图书计算机信息检索技术(一)分类检索语言TV水利工程TK能源与动力工程TB一般工业技术TB3工程材料学(二)主题法检索语言是利用词语来表达信息资源中论述的主题概念。用来表达信息内容的词语称为主题词。主题词:通过文献内容的分析,从中找出那些具有实质意义的,能够表达事物特征的,并经过规范化处理的词或词组。主题词表是对主题词进行规范化处理的依据,也是文献处理者和检索者共同参照的依据。计算机信息检索技术关键词、主题词的比较计算机信息检索技术关键词Keyword主题词Subject未经规范化的名词例如:脚踏车、单车土豆、洋芋规范化的名词例如:自行车马铃薯必须是直接从文献或标题中抽出的词汇可以是文献中的词汇,也可以不是外文文献调研是开题前必须做的工作:从文中选词检索易漏检或误检由于作者的用词习惯不同,会发生如下情况:一个概念会有多种表示——导致漏检检索时需要收集同义词,费时麻烦且易漏检一个词可以表示多个概念——导致误检cell细胞、电池cellwnti检出的文献中有solarcell,tumorcells等除了用文中词汇检索外:还有无更好的办法?Ei的解决方案:对文献进行主题标引采用规范化词组对文献进行主题标引做到标引词与概念一一对应标引词源于词表,故EI的标引词也称受控词如“计算机层析”这一概念在文中可以有如下表示:CT,computettomography,computedtomography,computerizedtomography,computerisedtomography,computer-aidedtomograpyEI主题标引时,统一表示为“ComputerizedTomography”Ei同时采用受控词和非受控词进行主题标引采用受控词标引—提高主题检索效率标引词取自叙词表相应字段EIcontrolledterm,CVEImainheading,MH非受控词标引字段—解决词表更新滞后的问题标引词直接取自文中词,如关键词及摘要相应字段uncontrolledterm,FL信息检索技术信息检索技术是指利用现代信息检索系统,如联机数据库、光盘数据库和网络数据库检索有关信息而采用的相关技术,主要信息检索技术有:布尔逻辑检索、截词检索、位置检索、字段限定检索。计算机信息检索技术1.布尔逻辑检索布尔逻辑检索算符有以下三种:(1)逻辑与AND(2)逻辑或OR(3)逻辑非NOT计算机信息检索技术(*)(+)()计算机信息检索技术1)逻辑与AND(*)逻辑与AND(*):这是一种用于交叉概念或限定关系的组配,可以缩小检索范围,提高查准率。【例】查找“高强度低合金钢”方面的文献,可以将概念分解为:“highstrength”、“lowalloy”和“steel”三个基本概念。如用A、B、C三个圆分别代表“steel”、“highstrength”和“lowalloy”,则三圆交叉的斜线部分才是三个检索词同时存在的文献记录。ABCsteel*highstrength*lowally计算机信息检索技术2)逻辑或OR(+)逻辑或OR(+):这是一种用于并列概念的组配,可以扩大检索范围,避免漏检,提高了查全率。【例】查找有关“太阳能”方面的文献,不能确定主题词用“sun”或“solar”,则采用“或”组配。如用A、B两圆分别代表“sun”或“solar”,则斜线部分为其中任何一个词或两个词同时存在的文献记录。BAsunsolar计算机信息检索技术3)逻辑非NOT(–)逻辑非NOT(–):用于从原来的检索范围中排除不需要的概念或影响检索结果的概念。用逻辑非,能够缩小命中文献范围,提高查准率。【例】查找“不包括核能的能源”的文献,用A、B两圆分别代表“energy”、“nuclear”,斜线部分从energy中排除了nuclear的文献。ABenergy-nuclear布尔逻辑运算的优先执行顺序:NotAndOr括号可以改变其执行顺序三个逻辑运算符和括号的运用可以将检索词组配成比较复杂的逻辑提问式,以满足复杂的信息检索的需要.例如:A*(B+C)2.截词检索•是将检索词在被认为合适的地方用截词符进行截断的方法。•截词符用?或*表示,前者通常表示有限截断,后者表示无限截断。1)后截断•例如–输入computer*computers,computered,computerize,…–输入computer??computer,computers,computered注意:使用后截断有可能检索出无关词汇,尤其是在使用无限后截断时,所选词干不能太短,否则将造成大量误检,或发生溢出,导致检索失败。2)前截断•例如–输入*compute