信息检索在数学建模中的应用1文献信息检索简介本世纪以来,人类创生的信息量高速增长,如何从这浩如烟海的信息中找出所需信息,就成为信息检索的重任,自80年代以来,伴随计算机进入多媒体时代、信息科技也步入多媒体发展时期,手工检索靠“手翻、眼看、大脑判断”的检索方式已难以全面适应当今信息的发展,计算机信息检索必然地提到了应用与发展阶段,以Internet为代表的全球性网络的实际应用更进一步推动了这一发展,这既是对手工检索的扩展,也是时代的需要。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,所以它的全称又叫“信息的存储与检索,这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻。信息检索在数学建模中的应用计算机信息检索,是指以计算机技术为手段,通过光盘和联机等现代检索方式进行信息检索的方法。与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要,一个善于从电子信息系统中获取信息的科研人员,必定比不具备这一能力的人有更多的成功机会,美国报道生活新方式的期刊POV也将交互网络检索专家作为未来十大热门职业之一,这些情况都说明了计算机信息检索越来越重要,故值得大家对这一技术予以重视。2文献(1)科技文献的结构等级一次文献(primarydocument):是指作者以本人的研究成果为基本素材而创作或撰写的文献,不管创作时是否参考或引用了他人的著作,也不管该文献以何种物质形式出现,均属一次文献。大部分期刊上发表的文章和在科技会议上发表的论文均属一次文献。信息检索在数学建模中的应用二次文献(secondarydocument):是指文献工作者对一次文献进行加工、提炼和压缩之后所得到的产物,是为了便于管理和利用一次文献而编辑、出版和累积起来的工具性文献。检索工具书和网上检索引擎是典型的二次文献。三次文献(tertiarydocument):是指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的产物。如大百科全书、辞典等。也有研究者在以上分类基础上再加上零次文献,它是指未经过任何加工的原始文献,如实验记录、手稿、原始录音、原始录像、谈话记录等。零次文献在原始文献的保存、原始数据的核对、原始构思的核定(权利人)等方面有着重要的作用。(2)十大情报源所谓“十大情报源”,是指人们在进行科研及技术工作时使用频率比较高的十种情报来源的总称。信息检索在数学建模中的应用a.科技图书:是对某专门知识或某学科进行系统的论述或概括的一种情报来源。其主要特征是内容比较成熟,但相对比较陈旧。合法出版的图书均有版权页。b.科技期刊(periodical):又称连续性出版物(serials),是一种定期或不定期连续出版的文献载体,它一般有同样的名称,按一定时间编定卷号,每一卷又分若干期。其类型有:i.学术性、技术性刊物,是科技期刊的核心部分。刊名一般为:Acta(学报)、Journals(杂志)、annales(纪事)、Bulletin(通报)、Transactions(汇刊)、Preceedings(会刊)、Review(评论)、Progress;Advancesin...(进展)等。ii.快报型。Communication(通讯)、letters(通讯)、bulletin等。iii.消息性(newsyjournals)。news(新闻)、newsletters等。iv.资料性(datajournals)。data、event等。科技期刊是最重要的一类文献来源。信息检索在数学建模中的应用c.科技报告:报道(记录)研究和开发调查工作的成果或进展情况的一种文献类型,一般都编有号码,供识别报告本身及其发行机构可以说,报告是一种典型的机关团体出版物,常用的报告名称有:科技报告按按报告的形式可分为:report(报告书),technicalnotes(技术札记),memorandum(备忘录),papers(论文),bulletin(通报),technicaltranslations(技术译丛),specialpublications(特种出版物)。按研究的进展情况分:primaryreport(初步报告),progressreport(进展报告),interrimreport(中间报告),finalreport(中间报告)。科技报告与其它文献的显著不同为根据科研水平的高低,科技报告分为若干密级,如topsecret(绝密)、secret(秘密)、confidential(保密)、restricted(非密限制发行)、unclassified(公开)、declassified(解密)。信息检索在数学建模中的应用d.会议文献:是指学术会议文献,它往往反映出科学技术的发展趋势,其特点是与最新成果的间隔时间短,但其内容与期刊相比可能不太成熟。会议类型大致可分为国际会议、全国性会议及地区会议等。会议和会议文献常用的主要名称有conference(大会)、meeting(小型会议)、symposium(讨论会)、proceeding(会议录)、paper(单篇论文)、transaction(汇报)等。e.专利文献:在实行专利制度的国家,凡是本国或外国的个人和企业有了创造发明,都可以根据专利法的规定,向本国或外国专利局提出申请,经审查合格,批准授予在一定年限内享有创造发明成果的权利,并在法律上受到保护,这样一种受到法律保护的技术专有权利叫做专利。专利是与产业活动密切相关的,因而其实用性非常强。根据专利的技术水平和应用情况,其类型有invention(发明)、utilitypatent(实用新型)、和designpatent(外观设计)等。信息检索在数学建模中的应用f.标准文献:标准化主要包括三个方面:Ⅰ.产品标准化,即产品质量要符合技术规定;Ⅱ.产品规格化和系列化,即产品按型号大小来分档,成系列的发展,从而保证以较少的品种来满足广泛的要求;Ⅲ.零部件通用化,即同类机型零部件,特别是易损件要做到最大限度的通用互换性经过公认权威当局批准的标准化工作成果,可以采用文件形式或规定基本单位(物理常数)这两种形式固定下来、以文件形式出现的标准化工作成果,就是标准文献。g.学位论文:是高校研究生、毕业生为获得学位进行科学研究而写出的学术性论文。博士学位论文中,常含有独创性的学术性文献资料。h.产品资料:一般是指品样本,即产品说明书。好的产品说明书含有丰富的内容,包括产品规格、产品特点、产品专利号等多种对生产有用的信息。信息检索在数学建模中的应用I.技术档案:是指在生产建设中和科技部门的技术活动中形成的,有一定的工程对象的技术文件的总称。j.科技报纸:一些专门刊登科技类文献的报纸对了解当前的学科前沿和水平以及科学新闻很有益处。十大情报源中,最重要的是期刊、会议论文和专利。3文献的特征一篇文章、一本书、一份报告等一般都有以下特征:(1)外表特征:题目、作者、作者工作单位,专利和科技报告还有专利号或报告号等,这些可以表征一篇特定文献的特征可以在文献的封面或扉页,即不打开书本,或不看文献的具体内容就可以确定一篇文献。(2)内容特征:假如我们深入到文献内容中间,则可以发现还可用另外两种方法来表征它:a.一般,一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的频率较大。主题词或关键词即称为文献的主题特征信息检索在数学建模中的应用b.另外,一篇文献还可以按照各种自然科学和社会科学的分类方法进行归类,如《中图法》:是我国图书馆和情报单位普遍使用的一部综合性的分类法。《中图法》共分5个基本部类、22个大类。采用汉语拼音字母与阿拉伯数字相结合的混合号码,用一个字母代表一个大类,以字母顺序反映大类的次序,在字母后用数字作标记。为适应工业技术发展及该类文献的分类,对工业技术二级类目,采用双字母。新生入馆教育A马列毛邓B哲学类系C-K社会科学N-X自然科学Z综合性图书简表:马克思主义、列宁主义、毛泽东思想A马克思主义、列宁主义、毛泽东思想哲学B哲学社会科学C新生入馆教育DE军事F经济G文化科学教育体育H语言文字I文学J艺术K历史地理自然科学NO新生入馆教育PQRSTUVX环境科学、劳动保护科学综合性图书Z综合性图书信息检索在数学建模中的应用NOPQR……自然科学总论数、理、化天文、地理生物医、卫O1O3O4O6O7……数学力学物理化学晶体O11O12O13……古典数学初等数学高等数学O121O122O123O124算术初等代数初等几何三角这样,我们可以把某一篇文献归入某一类中,如有关三角方面的文献可归入O124中,O124即可称为该文献的分类特征。信息检索在数学建模中的应用T工业技术(这是最为庞大的一个类目,下面又划分许多子类目)TB一般工业技术TH机械仪表工业TN无线电电子学,电信技术例如:《电视图象信号处理》TN941.1TP自动化技术,计算机技术TP311程序设计,软件工程(数据结构,数据库理论)TP312程序语言TP316操作系统TP391信息处理(文字,图像处理软件方面)TP393计算机网络《中图法》适用公共图书馆和高校图书馆。信息检索在数学建模中的应用文献的外表特征与文献是一一对应的,即一组外表特征只对应一篇唯一的文献,而文献的内容特征与文献却是一种模糊的对应关系,即一篇文献有多个主题词(关键词)或分类号,一个主题词(关键词)或分类号也可对应多篇甚至几百篇文献。正因为存在这两种对应关系,使得两种特征的用途大不相同。利用外表特征只能检出很少的文献,有时只用于特定情况下(如已经知道作者名等)。利用内容特征一次能检出一批文献,这对研究者来说是极其有用的。二计算机基本检索方法一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。二、截词检索截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。下面以无限截词举例说明:(1)后截断,前方一致。如:comput?表示computer,computers,computing等。(2)前截断,后方一致。如:?computer表示minicomputer,microcomputers等。(3)中截断,中间一致。如?comput?表示minicomputer,microcomputers等。截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。四、加权检索和聚类检索1.加权检索加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。加权检索的基本方法是:在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词