如何在互联网更高效搜索资料按照实际需要了解互联网搜索引擎基本工作原理哪里可能有我们需要的资料?我们是自己一个人在战斗吗?应该了解,并进而掌握的“七种武器”从利用互联网走向享受互联网搜索引擎基本工作原理搜索引擎---通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。搜索引擎是使用最普遍广泛的工具。搜索引擎基本工作原理搜索引擎信息排序目前搜索引擎已普遍使用超链分析技术,除分析索引网页本身内容外,还分析索引所有指向该网页的链接的URL、AnchorText(链接锚文本)、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“亲情服务”,但如果有别的网页B用链接“亲情服务”指向这个网页A,那么用户搜索“亲情服务”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“亲情服务”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“亲情服务”时也会被认为更相关,排序也会越靠前。一般决定于网页标记与检索词的关系、用户行为、链接关系、查询和文档的关系305070280搜索引擎基本工作原理搜索引擎的“蜘蛛”程序自动浏览访问这些网页并抓取文件,自动跟踪网页中的链接,访问更多的网页,这个过程就叫爬行。这些新的网址会被存入数据库等待抓取。蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,形成索引(index)。在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。搜索词处理后,引擎程序便从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。搜索引擎运作基本步骤爬行和抓取索引搜索词处理排序用户在搜索引擎界面输入关键词,单击“搜索”后,引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断拼写错误等情况。搜索引擎基本工作原理搜索引擎!!!所以,真正意义的搜索引擎指的是收集了因特网上几千万到几十亿个网页并对网页关键词进行索引,建立的索引数据库的全文搜索引擎。搜索引擎并不真正实时搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。不同的搜索引擎,对应的索引数据库会不尽相同,因而各有自己的特点。当用户查找某个关键词的时候,所有包含了该关键词的网页都将被搜出来,进行排序后,结果将按照与搜索关键词的相关度高低,依次排列。回顾搜索引擎基本工作原理搜索引擎只能搜到它网页索引数据库里储存的内容。各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。心里应该有的几个基础概念基本方法篇如何从信息的海洋中获取我需要的知识?我们被信息的海洋包围着,但是却被知识饿死了!基本方法篇基本方法篇科研人员必备的基本技能资料搜索是科研的先期工作知识更新的手段能力的培养了解相关研究领域已有的成果、发展历史和当前的研究动态,发展趋势启发设计者的思维、激发灵感搜索引擎并不是唯一渠道:“七种武器”搜索引擎专业库公共互助库专门网站公共互动平台4.百度知道、爱问知识人……6.政府、部门网站、行业网站企业网站……1.百度、谷歌、网易、搜狐、雅虎、新浪……2.三大综合性检索系统:中国知网、万方数据、维普资讯……3.百度文库、豆丁网(docin.com)、道客巴巴(doc88.com)……分类论坛FTP资源5、网易土木在线、阀门论坛......7.利用cutftp、aceftp等软件登陆FTP服务器…基本方法篇性质。性质往往很大程度决定资料归属地特征。找准特征才有利于和其他相似信息区分可能的文件格式可能的主体和其他线索可能的搜索关键词或者词组、句.(设计关键词就像买衣服)哪里可能有我们需要的资料?---思考分析是最必要走的第一步!基本方法篇或:利用搜索引擎作关键词搜索、关键词联锁搜索、关键词联锁+文档格式搜索……还可以利用搜索引擎功能允许的特定英文操作符号等:半角的“”,+,-,OR,空格,或:直接到相应性质分类专门网站利用站内搜索功能、下栽栏目、调研报告栏目、政务公开栏目等,或到文库等文献资源平台搜索……或者:登陆数据期刊网站、高等院校甚至某些私人架设的FTP资源……根据分析,先尝试最可能的一步!基本方法篇国内搜索引擎相对特色介绍:搜索中文一般资料——谷歌、百度、雅虎古汉语(诗词)类资料——百度(个案显示这方面百度往往有独到之处)产品或服务——搜狐、新浪(质量较高)、网易(较全)根据分析,先尝试最可能的一步!基本方法篇先看一下搜索引擎的菜单无疑是个良好习惯。多关键词搜索效率明显高很多逻辑符号可极大提高搜索结果关联性。A选择适当的搜索引擎C使用逻辑符号B习惯多关键词搜索基本方法篇放开你的思维,突破惯性定势---网上不会看得见你的腼腆和脸红,只管大胆地往前走!广撒“英雄帖”---有问题就问,有需要帮助就说。网上常常有不少“雷锋”在等着您。文明网客:礼貌是必要的技巧和表述的艺术也要注意的,如:正确处理是否宜公开回复……价值衡量也需要的:不需要怕收费资料网站(找有帐号的“雷锋”帮您呀!或者搜索个可以用的帐号),但值得付出的也应该考虑必要投入切记:我们不是一个人在战斗!明天会更好!---从利用互联网走向享受互联网帮助别人和积累积分,参加有兴趣的“圈子”…适当程度的互动交往必要的注册收藏工具性网站和可能会要用到的网站地址;/建立自己的网上个人图书馆或个人资料库。按照需要认识、结交高手帮别人就是帮自己着手为更好的明天做准备:明天会更好!---从利用互联网走向享受互联网一起走走看看:参考站点—平时搜罗积累网页资料的利器360doc个人图书馆:百度文库豆丁网道客巴巴阀门论坛、化工论坛、电力论坛明天会更好!---从利用互联网走向享受互联网一起走走看看:活学活用FTP下载专业群空间、博客明天会更好!---从利用互联网走向享受互联网养成整理的好习惯学会分析提出自己的见解Doc--word格式;.pdf--矢量图形文件格式;xls--Exceld电子表格格式;ppt--powerpoint的幻灯课件格式;txt--记事本的文本格式;小提示常见文件格式一起走走看看:参考站点1、万方数据知识服务平台:、中国知网:、维普资讯: