基于Web的图像搜索引擎+杨振汉+张龙

月夜零辰
1 ℃
2020-01-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1论文大赛编号：安徽师范大学本科生科研论文大赛报名表作品名称：基于Web的图像搜索引擎第一作者：杨振汉指导老师：卞维新所在学院：数学计算机科学学院年级专业：2010级计算机科学与技术（师范）手机号码：18226708018电子信箱：1174306152@qq.com作品分类：哲学社会科学类□自然科学类√2012年3月制2独创性声明本人声明所呈交的论文或调查报告是本人或在有关老师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果。论文作者签名：日期：3参赛作者信息表作品名称基于Web的图像搜索引擎第一作者杨振汉性别男出生年月1989年5月指导教师卞维新类别√个人作品□集体作品所在学院数学计算机科学学院年级专业2010级计算机科学与技术（师范）学号100703078手机号码18226708018电子信箱1174306152@qq.com作品字数4500合作者情况姓名性别学号所在单位（学院、年级、专业）张龙男100703059数学计算机科学学院作品分类□哲学社会科学类√自然科学类作品是否公开发表√未发表□已发表（报名材料中需附期刊，电子期刊附复印件）4基于Web的图像搜索引擎摘要：现代影像和图像处理技术的深入发展使图像检索已经运用在很多领域，未来的互联网是一个多媒体的网络，图像、视频将很快同文本一样成为互联网上主要的信息。在这种背景下，传统的文本搜索方式已经不能满足用户的特殊需要，如何能更方便快捷地从网络上找到需要的图像或多媒体文件成为当前网络应用亟待解决的问题。各种基于Web的图像搜索引擎应运而生，它们各自以不同的工作方式，使我们对网上图像信息的搜索变得非常简单，给我们的工作和生活带来了更多的方便和快捷。本文将从搜索引擎的工作原理，图像搜索引擎的工作原理，图像搜索引擎的搜索方法三个方面进行分析和讨论。关键词：搜索引擎；图像搜索引擎；Web1引言搜索引擎的基本原理是通过网络机器人定期在web网页上爬行，然后发现新的网页，把它们取回来放到本地的数据库中，用户的查询请求可以通过查询本地的数据库来得到。搜索引擎的实现机制一般有两种，一种是通过手工方式对网页进行索引，比如yahoo的网页是通过手工分类的方式实现的，它的缺点是Web的覆盖率比较低，同时不能保证最新的信息。查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配，而不是通过全文的匹配进行的。第二种是对网页进行自动的索引，像AltaVista则是完全通过自动索引实现的。这种能实现自动的文档分类，实际上采用了信息提取的技术。但是在分类准确性上可能不如手工分类。具体的网页的获取步骤是这样的：我们可以设定我们的搜索程序最大可以开的线程的数目，然后这些线程可以同时在网上进行搜索，它们根据数据库中已有的关于网页的信息，找出那些需要更新的网页（如何判断哪些网页需要更新是一个值得研究的过程，现在有很多启发式和智能的算法，基本上是基于统计规律进行建模。最简单的当然是设定一个时间范围，在某个时间范围以前的网页被重新搜索一遍），然后判断那些网页是否在屏蔽表中，如果是的话，就从关于URL的表中删除该条记录。否则，我们就到相应的指定的文件(这里需要注意的是根据不同的URL的特点，需要使用不同的协议，比如对于FTP站点要采用FTP协议，对于HTTP站点要采用HTTP协议，新闻站点要采用NNTP协议等等)。事实上，我们先得到关于该网页的头信息，如果该网页的最新修改时间和我们最近提取的时间是一样的话，表示该网页内容没有任何更新，则我们就不必去得到它的内容，只需要修改最近一次更新它的时间为当前的时间就可以了。如果该网页最近做了修改，我们就要得到该网页，并对它的内容进行分析，主要包括和它相关的链接，把它们加到相应的数据库中，同时判断网页所包含的各种其他的文件，如文本文件、图形文件、声音文件和其他多媒体文件是否是我们所需要的文件，如果是的话，就把它加到我们响应的数据库中。同时要根据网页的内容提取所有的有意义的单词和它们的出现的次数，放到相应的数据库中。为了更好的描述这个过程，5我们来看跟这个过程相关的主要的几个对象和数据结构。对象主要是针对三个层次：第一层是针对服务器，第二层是针对每一个页面，第三层是针对每一个页面的全文的索引。2图像搜素引擎2.1图像搜索引擎的工作原理图像搜索引擎是专门用来查询图形、图像（照片）的搜索引擎。同文字搜索引擎一样，它提供一个分类目录，并提供关键词检索的功能。用户可以通过分类在网上浏览，或者使用关键词检索，来查找想要的图片。与文字搜索引擎不同的是，查到的最终结果不是文字形式的网站名、网站内容，而是一幅幅缩微图片及其网站链接。2借用文本检索技术，人工图像分类早期的图像检索借用了文本索引技术。文本搜索引擎是将网站、网页的内容索引为一系列关键字。当用户输入关键字后，系统可以根据数据库中的倒排文件将关键字映射为网站或网页的地址。对于图像文件，一样可以根据其内容手工将其标注为一系列关键字，并对关键字建立索引。这样，图像检索就转化为文本检索的问题。由人工对网上的图像及站点进行选择这种方法可以产生准确的查询体系。但是，这种方法很不实用：一是必须由人工完整地标注所有图像，随着图像数目的增加特别是网络上的图像是无穷无尽的，劳动强度太大，限制了处理图像的数量，这种方法显然不可行；第二个问题在于图像所包含的信息量庞大，由于图像不同于文本，不同用户对于同一张图像的看法不尽相同，人们可以按照各自的理解来说明其蕴含的意义。因此，图像检索比起文本的查询和匹配要困难得多，导致对图像的标注没有一个统一标准，检索出的结果不能很好符合用户的需求。3可视属性检索(1)基于图像外部信息的检索。即根据图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息等外部信息进行检索，这是目前图像搜索引擎采用最多的方法。在找出图像文件后，图像搜索引擎通过查看文件名或路径名确定文件内容，但这取决于文件名或路径名的描述程度。(2)基于图像形式特征的检索。由图像分析软件自动抽取图像的颜色、形状、纹理等特征，建立特征索引库，用户只需将要查找的图像的大致特征描述出来，就可以找出与之具有相近特征的图像。这是一种基于图像特征层次的机械匹配，特别适用于检索目标明确的查询要求(例如对商标的检索)。产生的结果也是最接近用户要求的。但目前这种较成熟的检索技术的实现有一定的困难。(3)基于内容的图像检索。鉴于上述因素，人们提出了一种新的检索技术，基于图像内容的检索。通过分析图像内容的自身特征（如物体、背景、构成等内部元素）来决定最终搜索结果。通常，可以抽取图像库中所有文件的特征，具有较强的客观性。检索时，用户一般提供一个样例图像，系统先进行采样抽取该样例图像的特征，然后同数据库中所有的特征进行比较，并将与样例特征相似的图像返回并作为最终搜索页面出现。这种查询方式是比较准确的，一般来讲可以获得较好的查准率。但问题在于需人工参与基于图像内容特征的描述，劳动强度大，因而限制了可处理的图像数量，并且需要一定的规范和标准，搜索效果取决于人6工描述的精确度。因此，同样的搜索结果，也许对某些用户很适用，但对于另外一些用户则效果不佳。当前研究图像检索的重点和难点集中在如何在抽取的图像特征和图像内容所表示的语义特征间建立很好的联系，直到今天，这仍然是基于内容图像检索的一个没有解决的问题。也就是说，由于我们所拥有的特征并不能很好地体现图像真正的语义信息，以至于检索的结果往往不能令人满意。4相关反馈和自动标注技术如何解决上述问题？相关反馈和图像的自动标注技术在解决上述问题中取得了重大突破。该方式吸取了前面两种技术的优点，大幅度地提高了系统搜索的精确度。相关反馈是在信息检索系统中的一种指导性学习的技术，用以提高系统的检索能力。在基于内容的图像检索中，通常检索的结果不能令人满意，这时用户可以告诉系统哪些是符合用户需求的正反馈图片，哪些是不符合检索内容的负反馈图片。系统将不符合“内容”的条件标注出来并排除在“搜索条件”外，并根据用户提交的指导信息，对内部检索参数进行调整，从而优化检索结果并提供给用户新的检索结果。对于图像的自动标注，则是通过数据库的支持，将用户因反馈而标定的信息不断加入数据库并进行扩展。在这个过程中，可以手工标定很小一部分图，即作为“样品”出现的那部分文件，利用相关反馈的方法，使具有相似内容的图像因为这些图的相似性而得到标注。实验表明，此方法使检索精度得到了很大提高。或许，这些搜索引擎没有哪一种是完美无缺的。一般来说，理想的搜索引擎应该是：允许用关键词搜索图像内容、日期和制作人；能通过颜色、形状和其他形式上的属性进行搜索；搜索站点内的数据库；把显示一张略图、图像的URL、存放图像的站点的URL以及有关图像的某些信息作为搜索结果显示；能找出持有各项图片权利的持权人；提供允许使用各项权利的状况和条件。3图像搜索引擎的搜索方法(1)查找关键词。以263的搜索引擎为例，它采用了refinedImageSearchCNV110索引技术，是可以使用中文查询大量网络图片的搜索引擎。该引擎针对用户对图片的不同喜好、使用习惯与文化差异，能够智能化地进行分选与筛取操作，还具有敏感图片过滤、分散式搜索、相关反馈排序等行之有效的搜索功能，从而大大提高了搜索的精确度。在输入框里输入想要查询的词，然后用鼠标点按右下边的“图片搜索”，就可以看到查询结果了。现在我们输入“树”，表示要查找与“树”有关的图片，并点按“图片搜索”按钮，每个图像只是原图的缩略图，只需点击它或其下的“原始页面”字样，就能在新的窗口看到原图。263的图片搜索还具有热门关键词查询功能。先点“搜索引擎”，在弹出的页面顶部，有一个“热门关键字”选单，其中有“图片”栏目，点按后弹出最热门的图片资源窗口。(2)查找图形文件。这种查找方法的目的是把图像文件与其它类型的文件区别开来，但是不一定能确定其内容。它可以通过两个HTML标签。即IMGSRC和HREF检测到是否存在可以显示的图像文件。IMGSRC表示“显示下面的图像文件”，而HREF标签则表示“下面是一个链接”，这两种标签经常导向一个图像文件。搜索引擎通过检查文件扩展名来确定链路所连接的是否是图像文件，如果文件后缀是GIF或JPG，那它就是一个可以直接显示出来的图像。那么，图像搜索引擎是如何确定图像内容的呢？它可以读文件名，这种文件名经常是含义模糊并且经过删减的。它也可以查看文件名使用的路径。这些搜索方法可以逐步7引向要搜索的文件，但是这在很大程度上取决于文件名和路径名的描述程度，而且有些还要进一步查找描述信息。(3)查找标题。嵌入式或被链接的图像可能有也可能没有正规标题，即使存在正规标题，可能还是缺少可以让搜索引擎识别这些标题的一致性标志，如跟有冒号的“Caption”或“Photo”一类的词。但是HTML的ALT标签可以起标题的作用，而且有些搜索引擎就是依靠它来描述图像的。要是存在着ALT标记，它肯定会跟在IMGSRC标签后面。Webmaster就是用这个标签为使用不能浏览图形的浏览器或浏览器图形显示功能已关闭的用户描述图像的。在装载图像时，如果浏览器图形显示功能关闭了或者查看源代码时，用户就可以看到这个标签。4总结由于影响图像搜索的基础设施正在快速改变，中国电信、中国网通等都在加大对高速宽带市场的投资，这些将带动网站服务向数码图像、音频、视频等多媒体方面发展。未来提供多媒体服务是交互图形、图像的网站会变得越来越多。基于Web的图像搜索引擎的技术虽然已经发展了很多年，检索方法不断地完善和拓展，但是仍存在很多不足，离实际应用还有一定距离，很多方面值得深入研究。在图像检索领域中，基于语义的检索是最符合用户要求的方式，而现今的障碍在于图像的底层视觉特征与高层语义特征之间存在一条“鸿沟”，更多的研究将投入到如何建立起底层特征和语义特征之间的“桥梁”之中来。图像检索系统最重要的问题是检索的准确性。而当今此类系统在该问题上还难以达到使用的标准，如何进一步发挥人的主观性在图像