第六章Web技术与网络信息搜索

虹口强强
1 ℃
2020-03-13

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

自我介绍•姓名：张浩平•办公室：0248•手机：13851500344•E-mail：zhanghp@njfu.edu.cn•QQ：1296014857•教材：《Internet应用技术与实践》•共享邮箱：nl_computer@163.com中的网盘密码：xinxixueyuan应用篇第六章Web技术与网络信息搜索第七章网页设计基础第八章网络通信与交流第九章电子商务第十章网络多媒体应用第十一章移动互联网应用第六章Web技术与网络信息搜索•6.1概述•6.2HTTP协议•6.3浏览器•6.4网络信息资源概述•6.5网络信息检索•6.6搜索引擎•6.7文件传输•6.8Web数据挖掘技术6.1的产生随着互联网的迅猛发展，如何在海量的网络信息中搜索所需要的信息，成为一个急需解决的问题。Gopher是20世纪90年代初期常用的信息检索系统，它提供了一种向文件和菜单中添加链接菜单的方法。通过这些菜单可利用互联网从其他计算机系统获取文件或抓取新的链接菜单。是万维网（WorldWideWeb）的简称，web的本意是蜘蛛网或网的意思，因此，又称为“环球网”。Web技术使用了一种被称为HTML（超文本标记语言）的文件格式，通过“超级链接”从某一页跳到其它页，“超链接”将分布在网络各处的信息连在一起，形成巨大的，使得互联网成为一片能自由航行的信息海洋。1990年Web浏览器和Web服务器使用面向对象技术相继在CERN实Berners-Lee和他的合作伙伴成功引入了构成Web体系结构的基本元素：Web服务器、Web浏览器、浏览器与服务器之间的通信协议HTTP(HypertextTransferProtocol、超文本传输协议)、写Web文档的语言HTML（HypertextMarkupLanguage、超文本标记语言)、以及用来标识Web上资源的URL（UniversalResourceLocator、统一资源定位器)。HTML语言编写网页示例（1）用记事本编写如下的文挡：htmlheadtitle我的第一个HTML页面/title/headbodypbody元素的内容会显示在浏览器中。/pptitle元素的内容会显示在浏览器的标题栏中。/p/body/html（2）将文档以文件名“myhtml.html”保存。（3）双击myhtml.html文件，在浏览器窗口就可以看到如下内容：6.1.2超文本与超媒体超文本就是一种含有可以链接到其他字段或者文档的超链接的电子文档，通过点击超链接允许从当前阅读位置直接切换到超链接所指向的文挡，这些文档可以在本机，也可以在网络中的其它主机中。超文本通常使用超文本标记语言(HyperTextMarkupLanguage，HTML)书写，大多数网页都属于超文本。超媒体是超文本和多媒体在信息浏览环境下结合的物，超媒体不仅可以包含文字而且还可以包含图形、图像，动画、声音和电视片断，这些媒体之间也是用超链接连接的。超媒体与超文本的不同之处在于，超文本主要是以文字的形式表示信息，建立的链接关系主要是文句之间的链接关系。6.1.3超文本标记语言（HTML）网络上发布的网页是一种特殊的电子文档，必须要用浏览器打开它，才能够被世界各地的浏览者所阅读，HTML就是万维网上编写超文本的发布语言。HTML语言是英文HyperTextMarkupLanguage的缩写，中文名为超文本标记语言。标记语言是一种基于源代码解释的访问方式，它的源文件由一个纯文本文件组成值得指出的是，HTML语言不是一种程序设计语言，只是一种网页的描述语言。在20世纪90年代刚刚兴起时，多种浏览器同时流行于世界各地，它们支持HTML语言的标准也各不相同，这样限制了HTML标记语言本身的发展。W3C（万维网联盟），一个负责制订万维网的诸多标准和协议的组织，联手一些较为流行的浏览器开发厂商一同定义了HTML标准，并且力推浏览器解释语言和显示方法的统一。XML（ExtensibleMarkupLanguage）即可扩展标记语言，它与HTML一样，都是SGML(StandardGeneralizedMarkupLanguage,标准通用标记语言)。XML与HTML的设计区别是：XML是用来存储数据的，重在数据本身，而HTML是用来定义数据的，重在数据的显示模式。因此，XML不是HTML的替代，而是补充，在大多数web应用程序中，XML用于传输数据，而HTML用于格式化并显示数据。6.2HTTP协议Web的应用层协议HTTP是Web的核心。HTTP协议采用客户机/服务器模式，客户机上的浏览器进程通过和服务器进程交换HTTP消息来获得网页资源，HTTP定义这些消息的结构以及交换这些消息的时序。6.2.1统一资源定位符统一资源定位符（URL，Uniform/UniversalResourceLocator的缩写）也被称为网页地址，是因特网上标准的资源的地址，给出资源所在的位置。Internet上的每一个网页都具有一个唯一的URL地址，这种地址所标识的资源可以在本机磁盘，也可以在局域网上的某一台计算机上，更多的是在Internet上的某一台网站服务器上。URL地址格式排列为：协议://主机地址:端口/路径。其中：1.协议：获取服务器上资源所使用的协议，如“http://”表示资源，“ftp://”表示FTP资源，“new//:”表示新闻组。2.主机地址：服务器的IP地址或域名。3.端口：服务器进程的TCP端口号，常用的协议都有默认的端口，如HTTP为80，FTP为21，Telnet为23，如果使用的是默认端口号可以省略。4.路径：指明服务器上某资源的位置（结构通常为“目录/子目录/文件名”）。如果是指向服务器的默认网页，则可以省略。例如：是URI命名机制的一个子集，URI（UniformResourceIdentifier）称之为通用资源标志符，用来对Web上可用的每种资源，如HTML文档、图像、视频片段、程序等进行定位。URL则是属于URI标识方法中的一种，也是最常用的方法。6.2.2HTTP报文HTTP报文是面向文本的，报文中的每一个字段都是一些ASCII码串，各个字段的长度是不确定的。HTTP有两类报文：从客户到服务器的请求报文和从服务器到客户的响应报文。每种报文都由五个字段组成，其中第一和第三字段有两种名称，分别用于请求报文或响应报文。第一字段是请求行或状态行。第二字段是通用首部。第三字段是请求首部或响应首部。第四字段是实体首部。第五字段是实体主体。这里的“实体”指的就是报文。上面这五个字段都是完整请求和完整响应的报文结构，其中的实体主体字段是可选的。下面列出请求报文一些常用方法：方法(操作)意义OPTION请求一些选项的信息GET请求读取由URI所标识的信息HEAD请求读取由URI所标识信息的首部POST给服务器添加信息(例如，注释)PUT在指明URL下存储一个文档DELETE删除指明URL所标志的资源TRACE用来进行回环测试的请求报文CONNECT用于代理服务器HTTP/1．l规定了在请求报文中的第一个字段是“请求行”。请求行中只有三个内容，即方法，请求资源的URI，以及HTTP的版本。所谓“方法”就是对所请求的对象进行的操作，因此这些方法实际上也就是一些命令。客户端发出请求报文后，服务端返回响应报文，响应报文的第一行就是状态行。状态行包括3项内容，即HTTP的版本，状态码，以及解释状态码的简单短语。状态码都是三位数字的，分为5大类共33种。例如：1xx表示通知信息的，如请求收到了或正在进行处理。2xx表示成功，如接受或知道了。3xx表示重定向，表示要完成请求还必须采取进一步的行动。4xx表示客户的差错，如请求中有错误的语法或不能完成。5xx表示服务器的差错，如服务器失效无法完成请求。下面是一个请求报文的例子：GET/请求行,GET表示请求读取由URI所标识的信息Host:此行是首部行的开始。这行给出主机域名Connection:close告诉服务器发送完请求的文档后就可释放连接User-Agent:Mozilla/5.0表明客户端使用何种浏览器Accept-Language:cn表示用户希望优先得到中文版本的文档请求报文的最后还有一个空行6.2.3HTTP通信时序HTTP协议建立在TCP传输协议之上，HTTP客户首先发起建立与服务器的TCP连接。一旦连接建立，浏览器进程和服务器进程就可以通过TCP进行交互。下面是一个典型的HTTP时序:1.HTTP服务器使用默认端口号80持续监听来自HTTP客户的连接建立请求。2.客户浏览器进程初始化一个与服务器主机中的HTTP服务进程的TCP连接。3.浏览器进程经由TCP发出—个HTTP请求消息。这个消息中包含所需资源的路径名。4.HTTP服务器接收这个请求消息，再从服务器主机的内存或硬盘中取出资源对象，经由TCP发出包含该对象的响应消息。5.HTTP服务器告知TCP关闭这个TCP连接(不过TCP要到客户收到刚才这个响应消息之后才会真正终止这个连接)。6.HTTP客户接收这个响应消息。TCP连接随后终止。浏览器进程从响应消息中取出资源对象。HTTP/1.1的默认模式使用带流水线的持久连接，这种情况下，TCP连接建立好以后，HTTP客户可以在不释放TCP连接的情况下，连续发出多个对象的请求。服务器收到这些请求后，也可以连续地发出各个对象。与非持久连接相比，持久连接的效率要高。上面的例子称之为“非持久连接”方式，即每次建立TCP连接后只传递一个对象（如一个jpge格式的图像），而一个网页往往含有多个对象，因此非持久连接方式效率较低。6.3浏览器结构浏览器主要由控制模块、HTTP客户端模块和对象解释模块所组成，基本结构如图所示。图6－2控制模块是浏览器的核心，负责接受用户键盘输入的信息，并控制和协调各模块的工作；HTTP客户程序负责实现HTTP协议的通信功能，按照控制模块的要求从服务器获得HTML文件和各种对象交给解释模块；解释模块解释各种对象（如图像、文字等），并按照HTML文件中规定的格式通过驱动程序显示出来。浏览器缓存的作用是为了加速浏览，浏览器在用户磁盘上对最近请求过的网页进行存储，当访问者再次请求这个页面时，浏览器就可以直接从本地磁盘取出显示，这样就可以加速页面的阅览，缓存的方式节约了网络的资源，提高了网络的效率。浏览器缓存中有一种特殊的文本文件叫做Cookies，Cookies是一种能够让网站服务器把少量数据储存到客户端的硬盘或内存，或是从客户端的硬盘读取数据的一种技术。6.3.2IE浏览器的常用设置1.更改启动IE浏览器时的默认主页2.临时文件处理IE在上网的过程中会在系统盘内自动的把浏览过的图片，动画，Cookies文本等数据信息保留在浏览器临时文件夹缓存中，为了提高浏览网页的效率，当用户在IE地址栏输入网址并回车后，IE首先会在IE的临时文件夹中寻找与该网址对应的网页内容，如果找到就把该网页的内容调出，显示在浏览窗口，然后再连接到网站的服务器读取更新的内容，并显示出来。如果找不到，IE才直接去连接服务器，下载服务器上的网页内容。Internet临时文件选项组里有三个按钮,单击“删除Cookies”可删除缓存中的Cookies，单击“删除文件”可删除临时文件夹的内容。3.设置历史记录的保存时间在IE浏览器中，用户只要单击工具栏上的“历史”按钮就可查看所有浏览过的网站的记录，可以在“Internet选项”对话框中设定历史记录的保存时间，这样一段时间后，系统会自动清除这一段时间的历史记录。方法是在“历史记录”选项组的“网页保存在历史记录中的天数”文本框中输入历史