主题WEB搜索引擎优化与实现研究

tq094cc
1 ℃
2020-04-18

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

合肥工业大学硕士学位论文主题WEB搜索引擎优化与实现研究姓名：刘兵申请学位级别：硕士专业：计算机技术指导教师：胡学钢;黄玉春20090901://://://://://://://://://://://://://://://://://://://://://://://://://://://主题WEB搜索引擎优化与实现研究作者：刘兵学位授予单位：合肥工业大学相似文献(10条)1.学位论文袁毅核心网站评选的理论与方法2005D．普赖斯认为对科学家工作影响最大的资料中，80％左右是他在这些资料正式报道之前通过会议，讨论会、预印本或者其它非正式渠道获得的。如今，我们已经有了一套非常成熟的获取图书、期刊、学位论文等正式交流信息的理论与方法。但对于能够提供更加广泛多样的、即时的、正式或非正式的交流信息的Web资源来说，无论是图书情报人员还是用户均感到力不从心，因特网展现了信息广袤与检索能力低下的尖锐矛盾！为了解决这一矛盾，各类网站评价及网络信息指引服务应运而生。这些服务为用户发现新资源起到相当大的作用。但是，据文献显示及实际调查了解，大多数信息导航所指引的网站未经过认真的评价，有的只是感性了解或对其它网站已有的链接再次设链，更多的是根据搜索引擎检索结果配合少量人工识别而建立的，这类方法难以达到导航的真正目的。因此，目前迫切需要建立一套有效而实用的面向学术用户信息需求的核心网站评选的理论与方法，这种方法既能帮助学术用户面向主题的Web资源发现，弥补搜索引擎的不足，同时也为图书情报部门导航库建设、个性化服务、定题服务、信息检索提供新的科学而有效的方法。当前的网站评价主要有以下特点：1．网站评价主体多是商业性评价机构或调查机构，评价的对象是一般性网站，评价方法主要采用定性方法、调查评议法及流量监测法。这类评价的目的通常是为了网站的推广及各种商业目的，而非网站内容评价，其使用的方法及某些评价指标并不适宜于学术网站评价。2．学术网站的评价大多采取定性评价方法，评价主体通常是商业性评价机构、图书情报机构、基金资助的项目及个体研究者，有的评价指标多达100多个。但是，单纯地利用大量的定性指标去评价网站是不现实、不经济且难以保证评价的连续性的，同时定性评价也往往带有评价者的主观性。3．学术网站的定量评价处于单指标评价阶段。定量指标主要涉及Web链接、Web影响因子、相关网页、Web共引（co-citation）。但是，由于链接机理的复杂性，定量指标用于学术网站评价的可靠性及可行性仍在争议之中。目前尚无有效的、科学的、系统的网站评选的理论与方法，为此，本文从以下几个方面系统研究了核心网站评选的相关理论与方法：1．融合多学科“核心”相关的概念及测度，在此基础上分析万维网的各种源（resource）与项（item），给出更具通用性的核心网站定义，并利用Egghe提出的核心资源确定理论，进行了核心网域（domain）确定的实证研究；2．系统化中外有关核心网站评选的方法，并与核心期刊的评选方法进行对比和归类；3．指出了学术网站内容评价关键的定性指标以及指标应用的原则和方法；4．提出若干学术网站定量评价指标，并对指标的可靠性、可行性及存在的问题进行了研究；5．最后，提出集“发现、过滤、评价、扩展和更新”于一体的核心网站确定的方法，并对其中关键的部分进行了实证研究。本文集成多学科相关理论及方法，侧重于情报学理论和研究方法，采用理论研究与实证分析相结合的方法，对核心网站评选的理论和方法进行了探索。2.期刊论文杜光芹.张化祥.赵瑞东.DUGuang-qin.ZHANGHua-xiang.ZHAORui-dong主题Web挖掘研究-计算机技术与发展2008,18(2)网络已经成为人们获取知识的一个重要途径.然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情.通用搜索引擎返回大量的无关信息,不能满足用户的特定信息检索需求.针对这个问题,Web信息检索领域出现了一个新的研究方向--主题驱动的Web资源发现.介绍了通用搜索引擎的基本结构、工作原理及现状.阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨.对通用搜索引擎和主题Web挖掘的关系进行了分析.3.学位论文谢群英基于Web的主题信息采集系统研究与设计2005本文以主题搜索引擎和元搜索引擎技术为背景，研究了基于Web的主题信息采集系统(聚焦爬行系统)的几个问题：首先，研究了Web主题词典的建立问题，提出一种自动动态建立Web主题词典的方法；其次，针对主题信息采集策略问题，提出了一种基于元搜索引擎的改进的SH(SimpleHeuristics简单启发)算法，该改进的算法比原算法更适应于中文环境。同时，由于它是基于元搜索引擎的，根集合的形成不需要耗费太多的资源，并且可以实现用户实时动态的查询请求；第三，在采集系统结构方面，采用了非递归的爬行器结构，且各个功能分别通过松耦合关系的不同类组来实现，使得该系统的可扩展性良好；最后，以敦煌学*主题为样本设计和实现了一个基于Web的主题信息采集系统，并对该系统的采集效果进行了比较分析，证明该系统采用的主题搜索策略良好，可以较好地解决主题用户“资源迷向”的问题。4.会议论文谢群英.蒙应杰.谢月英.杜希云基于元搜索引擎的主题信息采集系统的研究与设计2009设计和实现了一个基于元搜索引擎的主题信息采集系统，该系统在搜索策略方面采用了改进的SimpleHeu-ristics算法。以“敦煌学”主题为样本用不同的算法进行了数据采集，并对采集效果进行了比较分析，证明了改进算法比原算法更适应于中文环境。系统可以较好地满足主题用户的个性化需求。5.期刊论文林其东.陈传波.郑乐丹.张一曼.LINQi-dong.CHENChuan-bo.ZHENGLe-dan.ZHANGYi-man数字图书馆主题搜索引擎的设计与实现-计算机应用研究2009,26(8)提出构建数字图书馆主题搜索引擎的总体系统设计.利用一个预处理系统尽量选择高质量的种子站点,从而产生Web主题定义数据;在系统控制器的协调下,各主题爬行器同步地采集爬行器所推荐的Web资源,对下载的资源进行文本分类与主题识别;将已经下载的Web资源按学科分类存储在Web主题资源库中,通过全局信息库建立索引,接入通用接口进行依主题检索.依赖数字图书馆各方面特点,提出支持多线程主题爬行器的设计,并提出一种新颖的URL主题相关性剪切算法EPR,为实现数字图书馆主题搜索引擎原型提供重要的设计.基于开源Lucene平台进行系统扩展而形成最终系统,实验结果表明该工作是相当有效的,尤其是提出的相关性判别算法EPR,具有相当的创新性和实际应用价值.6.学位论文段一飞垂直搜索引擎主题特征提取及相关度算法研究2007搜索引擎是人们获取海量网络信息的首要工具，是网络研究和应用的关键内容。目前随着Internet信息的爆炸增长以及信息多元化的发展，快速有效地获取需要的相关信息变得越来越困难，综合性的搜索引擎已不能适应用户对信息检索的准确性要求，专业化的、面向主题的垂直搜索引擎正成为研究的热点与发展趋势。本文重点研究中文Web主题信息获取与检索技术，设计和实现了一个以计算机专业技术文献信息采集为核心的垂直搜索引擎CTLS(ComputerTechnicalLiteratureSearcher)。论文分析了搜索引擎国内外目前的研究现状及发展趋势，探讨了专业搜索引擎目前主要存在的问题及现行专业搜索引擎所采用的搜索策略存在的缺陷。针对中文分词中歧义字段的切分问题，提出一种对中文句子进行分词预处理的方法，在预处理的基础上实现了一种改进的MM算法，使分词系统在机械分词阶段具有比MM算法更好的效果。针对垂直搜索引擎网络蜘蛛搜索路径的选择策略问题，提出了非贪婪的V-Page-Rank搜索策略，指引网络蜘蛛动态调整下载方向，优先下载可能包含有相关主题内容的页面，有效地实现搜索引擎的专业化。在信息检索方面，提出了基于向量空间模型的自适应分类算法IVSM对网页从内容和结构两方面进行相关性过滤。论文提出了基于网页分块的爬行算法。解决了网页多主题的困难，并有效地去除了网页中的噪音信息，使得网络爬行的启发信息能准确地被收集。提出了一种比较理想的垂直搜索引擎设计方案，并实现了一个面向计算机主题的垂直搜索引擎系统CTLS。研究并设计出了适合专业资源采集的分布式Robot体系结构。最后总结了面向计算机专业技术主题的垂直搜索引擎系统的研究和开发经验，并指出了系统的应用前景以及下一步研究的方向。学位论文肖展飞个性化的互联网信息获取技术研究2004随着信息技术的发展,互联网(Internet)在今天已经渗透到人们的日常生活、娱乐、工作和学习等各个方面,越来越多的人在互联网上发布和获取信息.为了有效地检索和利用互联网上的信息,人们研究开发了包括搜索引擎在内的多种信息获取技术,以Google为代表的通用搜索引擎已经成为今天人们在Web上检索信息的主要方式.这类基于关键词检索的搜索引擎在一定程度上满足了互联网用户的信息需求,但是在信息的覆盖率和精确度上还不能满足用户的实际需要.互联网上的信息搜索、抽取问题是互联网迅速发展与普及的过程中一个急待解决的问题,引起了国内外研究人员的广泛兴趣.互联网的无限空间对于用户如何更方便地获取自己真正想要的内容带来了很大困扰.用户迫切需要一种能够根据用户的特点自动组织和调整信息的服务模式,帮助用户得到适应性的信息和服务,即个性化的互联网信息获取服务.该论文包含四个部分内容.第一部分介绍了互联网信息获取技术和个性化技术的总体情况、国内外的研究和应用现状,以及与此相关的重要理论及技术.第二部分综合了多种人工智能的理论和方法,包括半结构化模型理论、启发式搜索方法、机器学习以及信息的智能抽取技术等,对互联网信息抽取问题进行了深入的研究,并提出了一种新的方法.第三部分则在前面研究的基础上,探讨了个性化在互联网信息获取方面的应用,详细介绍了我们研制的两个个性化的互联网信息获取系统:互联网中文信息智能采掘工具和个性化Web主题信息监控系统.第四部分对该论文的工作进行了总结,并提出了进一步研究的方向.该论文主要的工作特色有以下三个方面:1)该文在相关研究成果之上,提出了一种基于路径树学习的信息抽取技术,该技术结合了归纳学习、网页结构分析等多种技术的特点,可以基本满足一定的互联网信息抽取的要求.2)该文提出了一种基于关键词加权重的用户建模技术,能够快速、准确、有效地获取用户的短期和长期的兴趣信息.采用该技术建立的用户模型准