基于中文分词的搜索引擎设计实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

北京工业大学硕士学位论文基于中文分词的搜索引擎设计实现姓名:王常星申请学位级别:硕士专业:软件工程指导教师:何泾沙;张天山20081201基于中文分词的搜索引擎设计实现作者:王常星学位授予单位:北京工业大学相似文献(10条)1.期刊论文林乐然.陈德龙基于云计算的分布式企业搜索引擎研究-电脑知识与技术2009,5(33)当前企业搜索引擎多采用基于全文检索技术设计,随着索引的膨胀和客户端并发查询的增加,有限的物理存储、CPU周期、内存容量和网络带宽带来了巨大瓶颈.随着云计算概念的提出和发展,为企业搜索引擎提供了更加优化的解决方案.本文将简要介绍现阶段基于分布式存储和分布式计算的云计算研究成果,以及其在企业搜索引擎中的应用.2.学位论文常庆风险主题搜索引擎相关技术的研究与应用2008主题搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合。其中的关键技术包括中文分词、主题爬虫、索引、分布式存储等,本文重点研究网络资源的爬虫和索引的主题搜索技术,具有重要的应用价值。主要工作包括:1.提出了一种基于内容和链接分析相结合计算主题相关度的搜索策略。基于Web超链接评价算法考虑了链接结构和页面之间的引用关系,但忽略了页面与主题的相关性。基于内容评价的算法只注重文本在主题搜索中的重要性,而忽略了Web结构的作用。综合的搜索策略利用基于内容的评价来提高搜索内容与主题的相关度,同时利用基于链接结构的评价来提高主题资源搜索的覆盖率。2.改进了Shark-search算法。从队列维护和检索时间的角度出发进行算法的改进,提高了Shark-search算法的时空效率,在主题相似度计算方法上应用了向量空间模型;与主题的相关性判定中,综合运用了网页文本内容和Web结构图的启发策略,从待访问网站的时间性能因素出发,改进了PageRank算法。3.给出了基于改进倒排表的索引器设计方案,从索引文件本身的结构出发进行改进,采用分级的倒排表索引组织结构,提高了索引创建的效率。在索引更新部分设计了索引器的批量索引方法与增量索引方法,实现了索引文档的动态更新。将改进后的算法与基于Nutch的索引技术相结合,在此基础上实现了一个风险主题搜索引擎索引的建立与维护。4.基于开源项目Nutch,设计并实现了一个风险主题搜索引擎,把自己建立的主题搜索引擎查询结果和网站现有的搜索结果进行比较分析,证明了系统可以为用户提供完整准确的风险主题信息查询服务。3.期刊论文祝凯.ZHUKai基于P2P的分布式存储系统研究-中国传媒大学学报(自然科学版)2008,15(3)对等网(Peer-to-Peer,简称P2P)技术是21世纪的技术热点之一.P2P的出现将互联网的存储模式由以前的内容位于中心模式转变为内容位于边缘模式,正适应了宽带互联网和更稳定、更高性能的个人电脑的现状,使得个人电脑重新焕发活力,大大提高了网络资源的利用率.目前P2P在文件共享、协同工作、对等计算、搜索引擎、电子商务、在线游戏,即时通信等方面的应用越来越广泛,并显示了良好的应用前景.分布式存储以其低成本、容错性强、易于管理、安全性等特性一直受到业界的青昧.由于P2P网络的发展,基于P2P的分布式存储系统也应运而生并以极大的速度发展.4.学位论文康达祥图像搜索引擎的存储与索引技术研究与实现2006随着的急剧增长以及多媒体技术和通讯技术的飞速发展,快速有效地进行互联网多媒体信息检索/查询和浏览,成为人们的迫切需求。现存的图像搜索引擎,大多是采用基于文本关键字和链接信息来进行图像的搜索和检索,并没有利用图像本身的视觉内容信息,其检索精确度受到一定的限制。而一些基于内容的图像检索系统则仅仅利用图像的内容信息来进行图像检索,难于解决语义鸿沟的问题。针对上述缺陷,研究了Web图像中文本语义和图像视觉内容特征的综合关联等关键技术,并开发出视觉与语义相结合的图像搜索引擎VAST(VisuAl&SemanTicImageSearchEngine),从而提高Web图像搜索的准确度,同时提供给用户多样的查询方式。图像搜索引擎VAST的存储与索引系统对网络图像进行视觉信息和语义信息的融合索引,为图像数据管理和检索请求提供操作接口。自适应模糊聚类是图像搜索引擎VAST存储与索引系统的基础算法,也是图像索引树构建的关键所在。自适应模糊聚类及其动态层次索引树具有动态灵活/不依赖样本数据对象等特点,很好地克服了模糊C-均值聚类对聚类中心的敏感性以及聚类的局部性,该结构对网络图像数据各种分布特性的高维特征集都具有较好的平衡对称性。VAST图像搜索引擎存储与索引系统的并行存储架构是另一个研究重点。该并行架构通过Linux物理文件系统与服务之间的接口VFS来屏蔽存储系统的实际物理操作,当上层发出图像文件操作的系统调用时,系统核心执行图像搜索系统特有的系统调用。该架构使得索引数据可以分布式存储/并行处理,这样可以增加I、O速度,从而加快检索速度。系统采用JAVA语言实现了网络图像的聚类索引库的建立,并为用户检索界面的JSP代码提高了检索接口,另外系统通过JNI技术调用图像处理包完成了16维图像特征的提取以及语义融合。并行存储架构的建立是由集群系统和C代码以及部分SHELL代码共同实现。系统测试表明,VAST视觉与语义图像搜索系统的检索准确率较常见的图像搜索引擎有所提高,检索性能方面很好的满足了用户的需求。5.会议论文刘峰.施水才.肖诗彬.王弘蔚基于RSS的分布式新闻博客搜索引擎设计2006随着网络信息发布速度的提高,搜索引擎要想得到完整及时的信息变得越来越难,尤其是针对频繁更新的新闻和博客网站。本文提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloomfilter数据结构压缩索引文件,构建一个P2P分布式的新闻博客搜索引擎。最后分析表明,该系统具有良好的性能,应用前景广阔。6.学位论文宋智基于P2P的分布式存储研究2005对等网(Peer-to-Peer,简称P2P)技术是21世纪的技术热点之一。P2P的出现将互联网的存储模式由以前的“内容位于中心”模式转变为“内容位于边缘”模式,正适应了宽带互联网和更稳定、更高性能的个人电脑的现状,使得个人电脑重新焕发活力,大大提高了网络资源的利用率。目前P2P在文件共享、协同工作、对等计算、搜索引擎、电子商务、在线游戏,即时通信等方面的应用越来越广泛,并显示了良好的应用前景。分布式存储以其低成本、容错性强、易于管理、安全性等特性一直受到业界的青睐。由于P2P网络的发展,基于P2P的分布式存储系统也应运而生并以极大的速度发展。但在快速发展的同时也出现了一些问题,如文件在网络上的分布问题、节点的负载平衡问题、路由热区问题等。本文在研究了当前已有的基于P2P的分布式存储系统的基础上提出一种基于完全哈希定址思想和多重选择思想的文件分布式存储策略。通过文件分布式存储策略的改进提高了网络各节点的负载平衡性能,减少了路由的热点现象,实现了文件的高效查找性能。本工作得到了上海市科委发展基金项目“基于对等计算(P2P)技术的虚拟研究平台”的支持。本文主要对对等网中的分布式存储进行了有益的探索和实践,做了以下工作:1.分析了现有的基于P2P的分布式存储系统。2.提出了一种基于完全哈希定址和多重选择的文件存储策略。3.提出两种不同的文件搜索策略。4.实现一个基于JXTA的P2P分布式存储系统——Hiber。7.学位论文刘玮垂直搜索引擎的存储系统设计与实现2009垂直搜索引擎是相对通用搜索引擎无用信息多、信息挖掘深度浅、查询结果不精确等问题提出的新搜索引擎模式。相比通用搜索引擎,垂直搜索引擎固定范围采集、精准信息抽取和深入信息处理。在大规模的分布式垂直搜索引擎的系统中,高效的海量数据存储系统是整体系统的基本保证。垂直搜索引擎的存储问题是如何利用应用系统的数据特点和数据存储访问模式,如何从海量存储数据中迅速获取需要的信息,海量数据的分布式广域网存储问题。目前的存储系统设计目标不同,重点不是解决特定系统的存储问题。本文针对垂直搜索引擎的存储需求及其数据存取模式特点,以普通计算机作为基础存储设备,在文件存储及数据库存储系统的基础上,设计、实现应用于广域网环境的分布式集群应用存储系统。本文的研究成果和创新点:1)应用系统的存储负载分析。通过理论分析和实际测量系统,进行了系统负载的分析统计。研究了应用系统的负载信息,数据特点,为系统的设计实现提供了基础的数据支持。应用系统的负载信息利用,为存储系统设计提供了重要的基础支持。2)基于对象存储思想进行网络存储系统的设计。依据应用存储负载特性,分析了系统的基本存储对象,使用对象存储思想设计存储系统。本文改进了对象存储思路,扩展元数据,差异化存储。系统同时提供了内容查询功能。3)为适用广域网环境,进行了存储系统的优化。针对垂直搜索引擎的分布式部署的需求,在设计的存储系统的基础上,进行了分布式存储和集中查询的优化。将存储客户端,读取客户端分离,根据网络分布情况来划分存储系统。利用就近部署原则,减少网络传输负载,设计适用于广域网环境的分布式网络存储系统。4)根据系统的设计思路,实现了垂直搜索引擎的存储系统。详细介绍了系统的实现细节,对系统进行了性能的测试。通过系统的分析和性能的测试,系统的实现满足了应用系统的需求。系统使用的对象存储思路和广域网优化策略,使系统获得了较好的整体性能。关键词:垂直搜索引擎;应用负载;网络存储;分布式存储8.期刊论文刘峰.施水才.肖诗斌.王弘蔚.LiuFeng.ShiShuicai.XiaoShibin.WangHongwei基于RSS的分布式新闻博客搜索引擎设计-现代图书情报技术2007,(1)针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloomfilter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索引擎,从而达到对频繁更新站点的实时性搜索,同时减少存储成本.9.学位论文陈明著三维搜索引擎系统研究2007随着信息技术的飞速发展,机械CAD、计算机视觉、虚拟现实、游戏、分子生物学和电子商务等三维数字技术在各领域的广泛应用,三维模型数据正在成爆炸性的增长,三维模型数据的识别与搜索已成为人们关心的热点研究课题.本文以数字化虚拟人为背景,结合国家自然科学基金重点项目跨媒体海量信息的综合检索与智能技术的研究等课题,对三维搜索引擎系统技术做了研究.主要的工作和成果如下:1.基于测地距离的形体分布算法:在普林斯顿大学的ROBERTOSADA等提出的形体分布算法中,直接采用欧几里德距离计算,而欧几里德距离是拓扑无关的,不能反映三维形体分布的真实情况.本文提出使用测地距离来表示两点距离,建立了一种新的形体分布算法.这种测地距离方法能表达出模型的拓扑关系.实验表明,测地距离提高了检索精度.它和采用欧几里德距离可能各有不同的应用.2.网格技术在3D搜索引擎系统中的应用:通过网格技术我们可以使存储的空间问题无限扩大,速度问题得到改善.而存储与速度正是3D搜索引擎系统中的关键问题.本文探讨了网格技术在三维搜索中的应用,提出了通过网格技术对3D搜索中数据进行分布存储和对3D搜索过程进行分布计算,实验了其中的分布式存储,且将普林斯顿大学的3万多数据下载进行测试.3.实用的3D搜索引擎系统:经过近几年的发展,三维模型搜索技术已经取得了一些研究成果,研究人员已经开发出三维模型搜索系统,但是到目前为止,这些系统还只是一些实验系统,它们都没法投入商业实际应用.本文从实用的角度出发,提出一种三维搜索引擎系统的解决方案.对于一个能实用的三维模型搜索引擎必须解决好四个方面的问题.第一是相似算法,第二是存储,第三是速度,第四是实用的交互接口.本文给出了一个实用的三维模型检索系统的设计框架,并对其中的3D数据模型作为关键字的搜索进行了实现.10.学位论文周源基于分布式计算的百万数量级相

1 / 68
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功