二十年搜索引擎发展史12我们熟悉的搜索引擎•百度•谷歌•雅虎•搜狗•上网搜信息,首选搜索引擎•网络蜘蛛程序:爬取网页•网页信息抽取,智能分析,建立索引数据库•用户输入搜索词,到索引数据库匹配•评价相关性,输出结果搜索引擎的原理345搜索引擎的诞生背景•计算机网络的诞生•网络规模变大•网络资源数量增长•人们搜索信息的刚性需求•信息搜索技术的不断提高6搜索引擎的发展轨迹•从美国发端•从人工组织到爬虫自动爬取•从简单排序算法到智能排序算法•从摸索阶段到成熟商业模式•从提供信息到智能反馈知识•从检索网页到检索多样资源7Archie•1990年出现了Archie,是archives的缩写版,档案的意思。•采集FTP文件信息8•Web的诞生•TimBerners-Lee•1989年,他开发出世界上第一个Web服务器和Web客户机。命名为WorldWideWeb。1991年,上露面。•引起轰动。使用HTTP协议传输信息。万维网:worldwideweb()9•Spider/Robot•1993年六月,MatthewGray开发了万维网漫步者的项目,监测万维网的网页增长速度。形成链接数据库Wandex数据库。•1993年,ALIWEB出现了,类似Archie的网站,索引的不是FTP服务器的文件,而是Web服务器的网页。•实现了自动化爬取,但对链接的分析还欠缺。•1993年,6个斯坦福毕业生,统计分析方法,分析词汇间关系,搜索效果更好。•后来同宽带提供商公司@Home合并,Excite@Home市值达67亿美元。•2001年公司申请破产,InfoSpace用100亿美元购买了这个公司。11•1994年,建立了一个Web资源目录,也提供FTP、Gopher的搜索服务。•1994年4月,David和杨致远,建立了Yahoo!目录。建立资源目录,雇佣人手工为网页添加描述信息。–对商业网站收费。(299美元)资源目录12•发布目录和使用目录都是免费的。•图书馆员的资源目录开放的资源目录13•1995年,Looksmart成立,与Yahoo竞争。增加网页收录的量。•2002年,向被收录站点收费。采用点击付费模式。–收费,客户流失。–带来大客户:微软的MSN•2003年,微软与LookSmart取消合作–陷入低谷14•维护目录耗费时间,耗费人力物力。•从商业角度看,不可持续,急需一个伸缩性强的商务模式。•人工干预标注;收录网页有限;无法索引全文。•Web迅速增长,而Web目录是个老马车,跑不动了。目录式搜索引擎的不足15•1994年,能够索引网页全文的爬虫出现,WebCrawler,十分受欢迎,一度在白天高峰时段无法使用。•1997年Excite收购了WebCrawler,而AOL当时委托Excite为其搜索引擎NetFind提供技术支持。最终成为AOL的品牌。•WebCrawler激发了同类公司的出现,包括:Lycos,Infoseek,OpenText.爬虫的出现16•1994年,发端于卡内基梅隆大学,后成为公司。当时提供了一个包含5.4万文档的目录。它索引的网页数量不断增加。•1994年8月,39万•1995年1月,150万•1996年11月,6000万•远超其他搜索引擎LYCOS17•1994年成立,在当时,几乎带宽无限。支持自然语言查询,允许用户添加、删除自己网页的URL,支持被索引网页的查询。但由于管理不善,后来被Overture收购。•Yahoo又收购了Overture,就把许多Altavista的技术引入了Yahoo搜索引擎。ALTAVISTA18•1999年成立,是搜索技术平台。•2003年2月,Overture以7000万美元收购。•之后,雅虎收购overture,雅虎从中进行了技术迁移。把alltheweb的技术加入到了yahoo搜索引擎中。ALLTHEWEB19•Larry/Sergey两个斯坦福的博士生,1996年一起研究搜索引擎。•1998年,Google搜索引擎诞生了。Sergey谢尔盖布林曾出售过他们的PageRank技术,但无人问津。•获得了10万美元投资,接着又获得2500美元的风险投资。1999年AOL选择Google作为合作伙伴,2000年,Yahoo也选择Google作为合作伙伴,让Google为他们提供搜索服务。•后续google推出了更多的搜索功能~Google20•Yahoo在1994年成立以来,专注网页资源目录和内容资源。而将搜索服务外包给其他公司。•2002年后,醒悟•Overture收购2003–AllTheWeb,AltaVista•Yahoo收购Inktomi2002–2003,收购Overture•技术整合,2004年,不再使用Google的服务。Yahoo失利21Yahoo放弃独立开发搜索技术•2009年,Yahoo放弃了搜索技术方面的努力。•与Bing签署了10年期合约,由Bing为其提供搜索结果页面和服务。22搜索引擎商务模式的找到•(1)付费收录•(2)关键词广告(GoogleAdwords)–搜索关键词竞价排名•(3)网页广告(GoogleAdsense)–站长向Google注册–站长在自己网页上展示Google的广告232425付费与免费•杂志对内容收费–部分读者不愿付费。–内容费用就是总收入。•杂志免费发布–在杂志网页上放上google广告。–浏览量更大–网站流量更大–广告收入超出内容收费收入26Microsoft的搜索•1998MSNSearch上线。•但在Google找到成熟的商业模式前,微软并没专心作搜索。也是采用其他公司的搜索技术。•2005年,不再使用Yahoo的搜索技术,开始利用自己的技术。•2006年,发布自己的搜索引擎27•2009年,微软发布最新的搜索引擎Bing。Bing发布28美国搜索引擎市场份额29•75%的用户觉得Bing搜索结果更好~Bing后发发力,无奈习惯力量30•GraphSearch–GraphSearch是Facebook对10亿名用户、2400亿张照片和1万亿次页面访问量推出的一种工具。FaceBook社交搜索31Google知识图谱32中国的搜索引擎33•1996年8月成立的搜狐公司–1998年2月,搜狐推出分类目录搜索引擎–2000年上市,主要朝门户方向发展•1997年10月29日,北大天网在教育网提供服务–提供FTP搜索功能•1998年1月,台湾中正大学吴升教授所领导的GAIS实验室创立了Openfind中文搜索引擎,最鼎盛时期,为台湾新浪、奇摩、雅虎提供搜索技术。34•1999年2月2日,新浪网开始推出新一代中文搜索引擎“新浪搜索”(SinaSearch)。•1999年9月,雅虎中国网站正式开通。•1999年底,李彦宏和徐勇创立百度,以超链分析技术为基础,推出新一代中文搜索引擎。属于技术派。•2000年9月12日,Google也开始启用中文搜索服务。35•2002年9月25日,由中国网、慧聪国际等共同打造的中国搜索联盟,为门户提供搜索技术,03年8月推出搜索门户,命名为中搜.•2004年6月雅虎推出全新“一搜”,这是雅虎十年历史上首个专业搜索网站。•2004年8月3日搜狐公司推出的完全自主技术开发的搜狗互动式中文搜索引擎。•2005年6月30日,新浪搜索引擎推出“爱问”()专门搜索平台,这是1款新浪自主研发的搜索产品。36百度|一支独秀•1999年,正是国内门户网站烧钱的时候,百度总裁李彦宏希望依赖给门户网站提供搜索服务获取赢利,因为大环境对门户网很好。•2000年11月16日,百度正式新浪提供中文网页搜索服务,支持其全面推出综合搜索引擎。•搜狐在2000年也采用了Baidu提供的搜索技术。372000年互联网泡沫•2000年,互联网泡沫破灭,门户网大环境降温,投资者要求门户网管理者开始开源节流。无法继续购买百度服务。•百度需要新的盈利模式–竞价排名~~~~~–2003年上半年,竞价排名开始在百度的收入上占了大头。38•紧随百度的就是3721,声称自己将和Google合作;•随后慧聪网联合众多地方网站,形成一个搜索联盟,取名中搜;•但声势最大的却是以新浪、TOM、21CN为代表的门户网站,他们站在既有的平台上强势切入搜索市场。•竞价排名成了搜索业界争相推出的业务。竞价排名之争39Yahoo在中国•1999年9月在中国开通•3721,中文上网服务,IE工具栏。–3721在国内市场一面受到百度等对手的挑战,竞争越来越激烈;另一面它与微软的合作也因微软要打造自己的引擎而变得前途不定。•2003年11月全资收购3721公司。•2004年6月,推出搜索门户网站“一搜”40•放弃技术见长的baidu•收购销售见长的3721Yahoo在中国:盲测的故事41Yahoo在中国•2005年10月,阿里巴巴和雅虎全球达成战略合作,全资收购雅虎中国,并更名为阿里巴巴雅虎。•2008年6月4日中国雅虎和口碑网合并。–提供全网搜索和本地生活搜索•2013年新年伊始,1月开始,雅虎中国已经启动新一轮裁员,预计最终波及员工为总数的75%,部分员工重新回到阿里巴巴,剩下人员将被裁减。42Google在中国•2000年9月12日,谷歌开发其主站.com的中文界面。43Google入股百度•雅虎收购3721后•2004年,Google入股百度44•2005年7月,李开复加盟Google。并担任Google中国区总裁。•2006年4月12日,Google全球CEO在北京宣布Google的中文名字为“谷歌”,Google正式进入中国。•2010年初谷歌退出中国风波。Google在中国452005年的中国搜索引擎份额462009年市场份额47•搜狗搜索是搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎。•第三大搜索引擎–2010第4季度搜狐/搜狗Sogou48•2005年,腾讯推出soso搜索–Google提供技术支持•2009年,摆脱谷歌,采用自己的技术–经营不善腾讯/搜搜49•2006年以前,网易使用Google提供的搜索结果。•2006年,网易自主研发中文搜索引擎–有道–有道份额不高–与有道词典产生协同效应网易-有道50360搜索•原来的3721–360杀毒–360浏览器–360搜索:2012年8月•迅速占据10%的市场份额•排名第2•新格局诞生512013年初市场份额:CNZZ52搜索引擎技术流派的变化•从网页搜索到分类资源搜索•从综合搜索到垂直搜索•结果展示的综合信息页面–谷歌推出综合信息搜索•谷歌推出:云计算•百度推出:框计算–中间页:百度收购PPS、百伯网、去哪网等~–读图时代:百度识图~~~53社交网络诞生后的搜索引擎•新浪的“微博搜索”•云云搜索–搜索社交网络中的人际关系、人脉资源、各类信息等。54搜索引擎大战•3721vsBaidu•GoogleVSBaidu•360搜索VSBaidu•BingVSGoogle•GoogleVSYahoo55总结•诞生后的互联网世界,与搜索引擎息息相关。•搜索引擎是技术密集型企业。•搜索引擎合纵连横,为了稳固市场。•搜索引擎在商业模式成熟后,成为互联网霸主。•未来搜索引擎随着移动互联网和机器学习技术,朝着更智能化、更方便的方向演进。