计算科学导论报告2013年12月Dec.20131中国地质大学(武汉)计算机科学院计算机导论论文课题名称:信息搜索技术浅析姓名:黄静学号:20131001758专业班级:193133系(院):计算机科学院计算科学导论报告2013年12月Dec.20131信息搜索技术浅论黄静(中国地质大学(武汉)计算机学院193133班,湖北省武汉市430070)摘要:旨在通过浅析信息搜索技术,结合信息网络的现状,浅析在社会发展环境下,信息网络的发展。结合平时生活现象及详细资料统计来研究,得出自己的结论及感受。了解现代的信息搜索技术,从中窥探到现代社会的进步与发展。信息网络发展与社会发展两方面,社会经济发展推动信息技术包括网络信息技术的发展,信息网络的发展亦推动社会经济的飞速发展。信息搜索技术是当今社会不可或缺的一部分,不仅仅是日常生活,更包括在工作、学习方面,信息搜索技术又只是信息网络的一部分,所以从这点可以看出信息网络对整个社会发展的作用,对推动社会发展所做出的巨大贡献和它的重要地位。关键词:信息搜索技术;信息网络;现代社会;社会进步发展;贡献;重要地位InformationsearchtechnologyHUANGJing(ChinaUniversityofGeosciences(Wuhan)ComputerCollege193133class,WuhanCity,430070,China)Abstract:Inordertosearchthroughtheanalysisofinformation,combiningwiththecurrentsituationofinformationnetwork,inthesocialdevelopmentenvironment,thedevelopmentofinformationnetwork.Combiningwiththelifephenomenonanddetailedstatisticstostudy,drawstheconclusionandexperiencetheirown.Understandthemoderntechnologyofinformationsearch,getaglimpseintotheprogressanddevelopmentofmodernsociety.Twoaspectsofinformationnetworkdevelopmentandsocialdevelopment,socialandeconomicdevelopmenttopromotethedevelopmentofnetworkinformationtechnology,includinginformationtechnology,developmentofinformationnetworkistopromotetherapiddevelopmentofsocialeconomy.Informationsearchtechnologyisapartoftoday'ssociety,notonlyaboutdailylife,includingwork,study,informationsearchtechnologyisonlypartoftheinformationnetwork,soitcanbeseenthattheinformationnetworkonthedevelopmentofthewholesociety,greatcontributionstopushingthesocialdevelopmentanditssignificance.Keywords:informationsearchingtechnology;informationnetwork;modernsociety;socialprogress;contribution;theimportantposition引言:在学习《计算机导论》后,在计算机方面的知识得到了一些普及,于是对信息网络方面也产生了兴趣,着重对信息搜索技术进行分析。归纳总结关于信息搜索技术的知识和前人的见解,发表自我的理解。1信息搜索与信息搜索技术发展状况1.1信息搜索的发展状况信息检索经过先组式索引检索、穿孔卡片检索、缩微胶卷检索发展到计算机信息检索。计算机信息检索大致可分为脱机检索、联机检索、国际联机检索、光盘检索、超文本的网络检索几个阶段。60年代运行的脱机批处理检索用磁带作存储介质,借助于受控词表,采用人工标引、人工编制检索策略进行信息检索;而计算机分时技术、数据库技术、远程终端和通信网络技术为联机检索提供了可能性,空间技术的发展又使之实现了信息、计算机、卫生通信三位一体的国际联机检索;光盘检索也是一种联机检索,它是在计算机、激光、高密度存储及精密伺服电机等高新技术成果的基础上发展起来的。目前,以文献单元描述体结构为基础、手工检索方式为主导的传统文献检索已发展到以信息单元组织结构为基础、网上浏览式信息查询方式的信息检索,计算机信息检索呈现联机检索、光盘检索以及网络检索多元并存的格局,面对用户群体、互相竞争、互相融合,谋求个性化基础上的共同发展。1.2信息搜索技术的发展状况照片尺寸为20mm*30mm;最好不用红色背景二级分段标题,5黑,固定行距15磅,段前段后3磅·2·2信息检索技术发展了几十年,除了MARC格式、倒排文档等基础知识外,1929年,波兰著名的逻辑学家J.卢卡西维兹研究出联机检索系统的逆波兰算法;1968年,日本科技情报中心的菊池敏典研究出介绍脱机批处理检索信息的菊池敏典算法,这两种算法都属于传统的布尔逻辑检索模型,都基于文本信息,特别是二次文献信息的检索。随着计算机技术的不断进步和信息量成倍地增加,人们对检索技术的要求也越来越高,尤其是网络技术和多媒体技术的出现,信息检索技术的软硬件环境极大提高,信息检索技术从传统的线性检索向超文本支持的非线性检索发展,传统布尔逻辑检索模型已不在信息检索中占统治地位,文本信息也只是各类型信息中的一种,即使在文本信息检索模型中,概率推理模型和空间向量模型也正在占据越来越重要的地位。2网络信息搜索与网络信息搜索技术通过计算机网络,人们可方便地获取信息,特别是因特网上的信息。Internet是全球最大的信息资源宝库。根据Internet发展的实际情况,网上信息资源可谓是通过国际互联网可以利用的各种信息资源,Internet作为一个整体,其根本价值就在于它能提供越来越多和越来越完善的信息服务。2.1网上搜索工具及相关技术为了快速、有效地获得网上信息,人们非常注重网上检索工具及相关技术的研究。搜索引擎是Internet上提供公共检索服务的Web网站,它是新一代信息检索工具。搜索引擎的关键技术主要是“自动跟踪技术”和“指引库”。搜索引擎专用的是自动跟踪标引软件,其标引的网罗性和检索词的专指性主要取决于机器人,只有完善机器人的标引机制,才能提高搜索引擎的检索效率。指引库在网络中处于核心地位,指引库中存放的是有关主题或用户所需信息的数据库或服务器的地址等信息。指引库的建立是突破传统信息资源建设的一项关键技术,也是对网络上信息服务模式的一种探索。随着网上自动标引、自动文摘、自动跟踪和自动漫游技术的逐步完善,会有更多的信息资源指引库和专业指引库,方便用户检索信息。目前,网上检索工具正向多语种化、综合化、专业化方向发展,已出现元检索工具(即检索工具的检索工具),对选择和评估更新检索工具有着不可替代的作用,多元搜索引擎(集成式的搜索引擎)具有去重功能,对检索结果进行统一的相关评估,能实现搜索引擎间的优化组合,通过电子邮件向用户随时提供网上信息。检索界面简洁、易学易用,检索结果格式清晰、内容充实、数据更新及时,检索所提供的网页链接可靠。2.2网上信息搜索系统的关键技术网上信息检索系统的关键技术主要包括:(1)信息收集和存储技术,分人工和自动两种方式,其中自动方式是由“网络机器人”来完成的。(2)信息预处理技术,包含信息格式支持、转换和信息过滤,其中信息过滤是一项关键技术。(3)信息索引技术,涉及信息语词切分和语词语法分析、进行词性标注及相关自然语言处理、建立检索项索引、检索结果处理技术,其中检索结果处理技术是关键技术,其核心是依据计算结果与查询词的相关程度来排序。3多媒体搜索和多媒体搜索关键技术3.1文本搜索与多媒体搜索按照检索的信息形式,信息检索分为文本检索和多媒体检索。即使在文本信息检索领域,全文本和超文本检索技术的作用和重要性也正在超越二次文献文本信息的检索。文本检索现在比较实用的技术是全文检索和自然语言检索。全文检索采用对全部文本内容建立索引信息的方法实现对海量文本信息的秒级查询。自然语言检索是指使用文献作者和文摘提要的编写者原来使用的语言,利用计算机进行自动标引(或少量人工干预)和自动检索文献的方法,包括文本检索、关键词检索、自然语言和自然语言与人工语言并用的检索方法。目前面向中文的全文检索已是一种成熟的技术,得到了广泛的应用。自然语言检索方面也取得了进展,主要问题集中在中文语词的切分技术上。传统的信息检索技术和数据库技术能有效地解决文本文献的管理和检索问题,但不适用于多媒体数据的管理和检索。多媒体信息包括文本、图像、音频、视频、动画等,其数据具有数据量大,语义表达形象,语义线索复杂等特点。所谓多媒体信息检索是对图像、文本、声音、动画等多媒体信息进行识别和获取所需信息的过程。多媒体信息检索与传统信息检索相比,具有信息类型复杂、交互、同步、实时、界面友好、操作简单等特性。多媒体信息检索系统并不是简单地对多种媒体进行检索,它必须既能对文本信息为代表的离散媒体进行检索,也能对以图像、声音等为代表的连续媒体的内容进行检索。·3·33.2多媒体信息搜索的关键技术对多媒体信息检索早期的方法是基于文本描述(即对多媒体信息添加文本说明),现在主要研究基于内容的多媒体检索技术。基于内容的检索指根据媒体和媒体对象的内容语义及上下文联系进行检索,它利用图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法作为部分基础技术,首先进行特征抽取,再计算其相似性。多媒体文档不同于文本文档只有单一的线性结构关系,收录一个多媒体文档,首先要对其进行内容和结构分析,提取多媒体文档的视听、语义和结构特征,作为用户浏览和检索的依据,同时为自适应的网络传输、互动式操作提供基本依据。目前,计算机识别技术的不成熟,以及不存在通用、高效的算法已成为多媒体基于内容检索技术发展的障碍。对多媒体内容的分析、自动摘要、索引和查询方法的研究已取得较大的进步。为解决多媒体数据的检索问题,除了可以分别利用基于关键字和基于内容等检索方法各自的优势外,还可以通过相关反馈技术(RelevantFeedback)、语义传播技术(SemanticPropagation)以及交互学习技术(InteractiveLearn2ing)把这两种方法有机地结合起来,从而大幅度地提高检索系统的检索效率。压缩编码技术比增加存储器容量、通信信道的带宽及提高计算机的运算速度等方法来解决多媒体数据量大的问题更有效。压缩编码技术是指用某种方法使数字化信息的编码率降低的技术,其核心工作就是去掉信息中的冗余,即保留不确定的信息,去除确定的信息(可推知的)。目前静止图像的压缩主要采用JPEC(JointPhotographicExpertsGroup)静止图像的压缩算法,视频图像的压缩常用MPEG(MovingPicturesExpertsGroup)动态图像压缩编码算法系列,MPEG标准系列不断升级发展,已有的MPEG-4,MPEG-7正在研制,它将有利于对多媒体信息进行分类、检索、识别和加工制作,对多媒体数据库和多媒体信息检索的发展至关重要。多媒体存储管理一般采用客户机/服务器模式,此模式管理系统涉及到多媒体信息的传送技术,图像一般是压缩传输,音频和视频的传输一般采用流技术。为保持媒体对象之间固有的时间关系,多媒体同步技术的研究也倍受关注。新一代多媒体技术研究的目标是开