网络信息采集与利用6

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

网络信息采集与利用搜索引擎lcjlib@nuaa.edu.cnStandontheshouldersofgiants许多学术研究都建立在他人发现的基础上网络信息采集与利用•学术信息•资讯信息学术数据库–Elsevier、IEEE馆藏资源-科技报告学术团队-导师论文、相关团队学术搜索引擎-GoogleScholar信息资源成为战略资源-竞争资源、“马太效应”、可持续发展能力学术研究中的时间分配网络信息采集与利用•学术信息•资讯信息新闻资讯-新闻网站社交咨询-Twitter、Facebook搜索引擎-Google、Baidu搜索引擎(SearchEngine)2002年,华尔街一位著名的分析师指出:Internet作为一种现象,本质上可以用三个单词来表示:Search、Find、Obtain竞价排名赢利模式(Overture、百度)Freemium商业模式(WolframAlpha)主要内容搜索引擎发展搜索引擎原理搜索引擎技术搜索引擎分类常用搜索引擎搜索引擎应用一、搜索引擎发展搜索引擎发展1990年以前,没有搜索引擎现代意义上的搜索引擎的祖先,是1990年由Montreal的McGillUniversity学生AlanEmtage、PeterDeutsch、BillWheelan发明的Archie搜索引擎发展最早现代意义上的搜索引擎出现于1994年7月。当时CarnegieMellonUniversity的MichaelMauldin将JohnLeavitt的Spider程序接入到其索引程序中,创建了大家现在熟知的Lycos同年4月,StanfordUniversity的两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了超级目录索引Yahoo!(!.com)。并成功地使搜索引擎的概念深入人心搜索引擎发展第一代搜索引擎,是以雅虎为代表的目录式搜索引擎第二代搜索引擎,是以“关键词”搜索技术为代表的综合搜索引擎增加细化分类:搜索精度=符合条件的资讯总量/细化分类之数目;垂直搜索引擎整合搜索百度的创始人李彦宏认为,未来搜索引擎的发展方向是类似于“百度知道”;而GOOGLE认为,未来搜索引擎的发展方向是“人工智能”搜索引擎发展手机搜索:移动搜索引擎(Map+Location)实时搜索、语声搜索和本地搜索实时搜索:OneRiot、Topsy、Scoopler和Collecta搜索引擎发展语音搜索:://首批使用中文语音搜索的46款诺基亚机型包括:N73|N75|N76|N77|N78|N79|N80|N81|N82|N85|N86|N91|N93|N93i|N95|N96E50|E51|E52|E55|E61|E61i|E63|E65|E66|E71|E71x|E75|E905320|5630|5700|5730|6110|6120|6121|6124|6210|6220|6290|6650|6710|6720|6730|6760|6790搜索引擎发展计算型知识引擎:WolframAlphaWolframAlpha搜索引擎将直接向用户返回从结构化数据计算而得的答案,而不是提供一系列的可能含有用户所需答案的相关网站的清单实时搜索:与Facebook和Twitter合作,SoLoMo:Social+Local+Mobile搜索引擎发展未来搜索技术将朝着三个方向发展:包括联想在内的语义搜索,检索图像、语音、动画内容的感性搜索,通过传感技术搜索现实世界对象的现实挖掘未来搜索引擎应提供问题答案而非链接未来的搜索引擎将集合多种不同来源的内容,并提供即时而丰富的答案搜索是一种信息和内容的抓取机制,而Facebook和Twitter等社交网站则提供了一种推送机制二、搜索引擎原理搜索引擎原理搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库搜索引擎只能搜到它网页索引数据库里储存的网页文字信息搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序搜索引擎原理目前所有实用的搜索引擎技术都是以“关键字匹配”为最基础的原理的。所以搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的文字谷歌搜索结果的排名是由机器学习的排名算法(RankingAlgorithm)。排名算法由PageRank™(网站信誉度)、文字匹配度、用户点击概率等数十项函数的加权综合决定。搜索引擎技术PageRank在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是PageRank的核心思想当然Google的PageRank算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重搜索引擎技术PageRank考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗?Google的两个创始人拉里•佩奇(LarryPage)和谢尔盖•布林(SergeyBrin)把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。搜索引擎技术先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值值得一提的事,这种算法是完全没有任何人工干预的搜索引擎技术理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天Google的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多三、搜索引擎技术搜索引擎技术现代搜索引擎技术要用到信息检索、数据库、数据挖掘、系统技术、多媒体、人工智能、计算机网络、分布式处理、数字图书馆、自然语言处理等许多领域的理论和技术,成为一种综合性的技术搜索引擎研发设计课程搜索引擎技术•algorithms•artificialintelligence•compileroptimization•computerarchitecture•computergraphics•datacompression•datamining•filesystemdesign•geneticalgorithms•informationretrieval搜索引擎技术•machinelearning•naturallanguageprocessing•operatingsystems•profiling•robotics•textprocessing•userinterfacedesign•webinformationretrieval•andmore!四、搜索引擎分类搜索引擎分类搜索引擎按其工作方式主要可分为三种:全文搜索引擎(FullTextSearchEngine)(Google、Fast/AllTheWeb、百度)目录索引类搜索引擎(SearchIndex/Directory)(Yahoo,DMOZ,LookSmart,etc)元搜索引擎(MetaSearchEngine)(Dogpile,Profusion)五、常用搜索引擎常用搜索引擎GoogleYahoo!AllTheWebAskJeevesBaidu中搜()五、搜索引擎应用搜索引擎应用网页搜索学术搜索特色搜索关键词网页搜索(Google)GoogleInc.创建于1998年9月Google的使命是整合全球信息,使人人皆可访问并从中受益Google是全球最大的搜索引擎Google.com是互联网上5大最受欢迎的网站之一网页搜索(Google)搜索引擎最基本的语法“与”“非”和“或”,这三种搜索语法Google分别用“”(空格)、“-”和“OR”表示通配符问题关键字的字母大小写搜索整个短语或者句子搜索引擎忽略的字符以及强制搜索网页搜索(Google)在某一类文件中查找信息filetype:对搜索的网站进行限制site:搜索的关键字包含在网页标题中intitle:搜索的关键字包含在网页内文中intext:搜索的关键字包含在URL链接中inurl:搜索的关键字包含在锚点标记中inanchor:网页搜索(Google)搜索和指定页面类似的网页related:搜索与某个URL地址存在链接的网页link:高级搜索图片搜索(Google)号称“互联网上最好用的图片搜索工具”图像搜索的工作原理:Google分析页面上图像附近的文字、图像标题以及许多其它元素来确定图像的内容。Google还使用复杂的算法来删除重复的内容,并确保在搜索结果中首先显示质量最好的图像。图片搜索(Google)Google图像搜索目前支持的语法包括基本的搜索语法如“”、“-”、“OR”、“site”和“filetype:”。其中“filetype:”的后缀只能是几种限定的图片类似,如JPG,GIF等搜索图片一般性结论:如果要搜索的图片是分散的,则用google图片搜索;如果要搜索的图片通常是处于某个图片集合中的,则不适合用google图片搜索地图搜索(Google)Google地图是Google提供的服务,为使用者提供强大、使用者友善的地图技术以及本地公司资讯,包括公司位置、联络资讯以及行车路线指示Google地图通过很多来源收集信息,从而提供最佳的地图视频搜索(Google)Google.cn的视频索引内容非常广泛,包含数百万个已编制索引并可观看的视频Google.cn的视频搜索漫游器会定期抓取中国的热门视频网站,将这些网页纳入索引并扫描其中的视频。Google使用先进的抓取技术分析视频旁的文字、视频标题和其他数十种因素,以确定视频内容。Google还使用复杂的算法删除重复视频,确保在搜索结果中先展示质量最高的视频博客搜索(Google)“博客搜索”是Google搜索技术针对博客内容所提供的服务“博客搜索”的目标是收录每一个发布了站点种子(以RSS或Atom方式)的博客“博客搜索”通过站点种子对博客内容进行收录,并及时查看是否有新的内容发布网页搜索(Google)资讯搜索生活搜索图书搜索代码搜索学术搜索PatentSearch特色搜索(Google)查找Flash文件网页快照货币转换8人民币换成泰国的货币计算器sqrt(-4)天气查询南京天气金融信息中国石化手机号码特色功能(Google)GmailGoogleDocsGoogleCalendarGoogleEarthGoogleTalkPicasaYouTube学术搜索(Scirus)Scirus是迄今为止因特网上最全面的科技专用搜索引擎,曾被著名的《搜索引擎观察》(SearchEngineWatch)评为“最佳专业搜索引擎”。'BestSpecialtySearchEngine''BestDirectoryorSearchEngineWebsite'Scirus覆盖了450million个以上与科技相关的网页迄今为止Internet上最全面的科技专用搜索引擎学术搜索ResearchIndex(

1 / 70
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功