高级高级WbWb技术技术高级高级WebWeb技术技术WebWeb上的数据标准上的数据标准XMLXMLWebWeb上的数据标准上的数据标准XMLXML——概述与语法概述与语法课程主要内容组织课程主要内容组织课程主要内容组织课程主要内容组织高级开发与应用技术概述请理清听课思路WEB高级开发与应用技术概述基于Web的应用程序概念及其演变N层次架构,分布式对象(组件)技术概述核心技术讲解Web数据标准-XML的相关标准和应用VRMLÆX3DVRMLÆX3DWeb上的分布式虚拟环境ApplicationWeb-J2EEJ2EE概述企业应用背景EBussinessEAIetcServlet&JSPEJBJ2EE组件与APIJ2EEMVC模式与框架(strutsspringetc)E_Bussiness,EAIetc.应用案例J2EEMVC模式与框架(struts,springetc)ServiceWeb–WebServicesSemanticWeb本次课程内容本次课程内容XML简介与起源简介与起源XML的设计目的XML的特点XML1.0规范组成XML文档逻辑结构XML文档规则XML简介与起源XML简介与起源XML是ExtensibleMarkupLanguage(可扩展标记语言)的简称,是一种元语言(定义其他语言的系统)种元语言(定义其他语言的系统)1996年,W3C(WorldWideWebConsortium,互联网联合组织)为了克服HTML的局限性在SGML的基础上创建XML克服HTML的局限性,在SGML的基础上创建XML计算机产业界的需求:开发简单而又可扩展的、结构化和半结构化信息文本表示机制文本表示机制HTML是SGML的一个应用,XML是SGML的一个子集,并且已经成为Internet上事实的数据交换标准Internet上事实的数据交换标准1998年2月推出第一个正式的XML1.0版本;目前XML已经以扩展巴科斯-诺尔范式EBNF(ExtendedBackus-NaurFormnotation)的形式正式诺尔范式EBNF(ExtendedBackusNaurFormnotation)的形式正式定义了下来(XML1.1(SecondEdition),W3CRecommendation,16August2006)独立于平台的XML是为Web开发的,这是它昀具影响的地方.HTML的局限性HTML的局限性可扩展性差可扩展性HTML的标记集是固定的,即HTML语法是不可扩展的缺乏对信息含义的描述能力信息检索效率低缺乏对信息含义的描述能力,信息检索效率低HTML是针对人机交流而设计的,标记几乎全都是用来设计网页的布局和外观的。检索信息时,需要对全部页面的所有内容扫描,并且检索质量往往极差夜夜我不觉晓夜夜我不觉晓苦苦绕世界找玩儿命好几天玩儿命好几天有用的知多少HTML的局限性HTML的局限性搜索引擎简介搜索引擎简介分类目录式搜索引擎:早期的Yahoo全文搜索引擎:Google及百度等第二代商用搜索引擎元搜索引擎:WebCrawlerHTML的局限性HTML的局限性搜索引擎简介搜索引擎简介搜索引擎的体系结构下载系统:网络蜘蛛(Spider),广度,深度优先(p)分析系统:分词,PageRank索引系统:正排索引;倒排索引查询系统检索模型查询系统:检索模型HTML的局限性HTML的局限性搜索引擎简介分词基于字符串匹配基于理解基于统计PageRankPageRankPR(A)=(1-d)+d(PR(T1)/C(T1)+ڮڮ+PR(Tn)/C(Tn))PR(A):网页A的PageRank值;T1,T2,ڮ,Tn:网页A的链入网页;,,,PR(Ti):网页Ti的PageRank值(i=1,2,ڮn);C(Ti):网页Ti的链出网页的数量(i=1,2,ڮn);个衰d:一个衰减因子,0d1,通常取值为0.85。HTML的局限性HTML的局限性搜索引擎简介搜索引擎简介索引系统正排索引倒排索引倒排索引HTML的局限性HTML的局限性搜索引擎简介搜索引擎简介查询系统搜索引擎的评价标准查全率(Recall)查准率(Precision)HTML的局限性HTML的局限性搜索引擎简介搜索引擎简介垂直搜索引擎HTML的局限性HTML的局限性搜索引擎简介搜索引擎简介智能搜索引擎?“这是Web将以一种智能的方式为我们服务、为我们完成乏味任务的时代的开始。Web和信息量的增长速度非常快,开发智能化的搜索系统是势在必行的”能化的搜索系统是势在必行的。”—Medstory的创始人、首席执行官阿莱因HTML的局限性HTML的局限性与应用程序的数据自动交换受限制服务器端在HTML中嵌入动态数据是非常困难的客户端应用程序也很难自动从HTML中获取所需的数据描述能力有限HTML语言不能描述矢量图形、数学公式、化学符号等特殊对象链接功能有限链路丢失后不能自动纠正链路丢失后不能自动纠正HTML不能维持文档间的任何历史和关系,因此如果页面的URL地址变化了,浏览这些页面时就会遇到烦人的404URL地址未找到的信息。链接方式是纯单向的链接方式是纯单向的虽然链接文档知道它要链接到的地法,但被链接的文档却无法知道它是从何处被链接的,而这一点对于开发者往往是很重要的信息。SGML简介SGML简介SGML是标准通用化标记语言(StandardGeneralizedMarkup的简称是种用标记来描述文档资料的国际Language)的简称,是一种用标记(tag)来描述文档资料的国际标准通用语言Web发明之前就存在了,是HTML和XML的基础。SGML中包含了一系列的文档类型定义(简称DTD),用于定义含档简标记的含义,因而它的语法是可以扩展的优点:SGML的语义标记有助于计算机分类和索引,并且可扩展优点:SGML的语义标记有助于计算机分类和索引,并且可扩展成处理新数据格式的各种方法缺点:SGML十分庞大,不易学,不易用,在计算机上尤其是缺点:SGML十分庞大,不易学,不易用,在计算机上尤其是web上实现也十分困难。SGML也代表“听起来很棒,但或许以后会用(SoundsGreat,MaybeLater)”XML的设计目的XML的设计目的其设计目的在于使得在Web上以现有的HTML方式提供、接收和处理通用的SGML成为可能ItsgoalistoenablegenericSGMLtobeserved,received,andprocessedontheWebinhhiiblihHTMLXMLhbdidffthewaythatisnowpossiblewithHTML.XMLhasbeendesignedforeaseofimplementationandforinteroperabilitywithbothSGMLandHTML.-------(XML)1.1W3CRecommendationW3C建议的XML1.0中对XML设计目标:(1)应该可以在Internet上直接使用(2)应该广泛的支持不同的应用(2)应该广泛的支持不同的应用(3)与SGML兼容(4)处理XML的文档应该容易编写(5)可选特征应该尽可能少,昀好为0(6)XML文件要易读,清晰(7)XML应易于设计(7)XML应易于设计。(8)XML的设计应该正式而且简洁。XML的设计目的XML的设计目的(9)XML文档应易于创建。(10)XML标记的简洁性较为次要此外,还有两个隐含目标:可扩充性语义与表现形式的分离语义与表现形式的分离个XML样本文档一个XML样本文档personpersonnametitleTeacher/titlefirst-namekaiyu/first-name/last-namedai/last-name/nameemailkydai@fudan.edu.cn/emailhometownprovince=HunanXiangtan/hometown•ViewinIE标记是左尖括号()和右尖括号()之间的文本。有开始标记(例如pg/personname)和结束标记(例如/name)元素是开始标记、结束标记以及位于二者之间的所有内容。在上面的样本中,name元素包含三个子元素:title、first-name本中,name元素包含三个子元素:title、firstname和last-name。属性是一个元素的开始标记中的名称-值对,属性间用空白符号隔开。在该示例中,province是hometown元素的属性;该示例中,province是hometown元素的属性;特XML的特点可扩展性XML是一种元标记语言,它定义了一组用来形成语义标记的规则集,用户可以构造自己的标记.已有化学标记语言CML、数学标记语言MathML等已有化学标记语言CML、数学标记语言MathML等对文档内容具有自描述能力,支持智能代码和智能搜索XML是种语义化的标记语言具有自描述性XML文档本身仅包XML是一种语义化的标记语言,具有自描述性.XML文档本身仅包含描述文档内容的标记,并不描述文档的外观格式应用程序更容易定位文档中的信息结构化数据表达能力结构化的数据指的是其内容,意义或应用被标记的数据结构化的数据指的是其内容,意义或应用被标记的数据通过文档类型定义DTD或XMLSchema,XML指定文档中的元素以及元素之间的关系.特XML的特点XML还提供了一种将多个数据源数据集成为单个文档的客户端包括机制,数据位置也可以重排根据用户的操作,部分数据还可以被隐藏/显示根据用户的操作,部分数据还可以被隐藏/显示良好的通用数据格式,跨平台以及语言独立XML允诺成为交换数据和文档的标准机制XML允诺成为交换数据和文档的标准机制XML是一种独立于平台的信息表示格式.用纯ASCII文本和一些人们普遍使用的格式来编写的,ASCII文件抵抗破坏的能力很强,是计算机领域中昀通用的数据格式机领域中昀通用的数据格式并没有定义数据文件中数据出现的具体规范,而是在数据中附加tag来表达数据的逻辑结构和含义。这使XML成为一种跨平台程序能自的动理解的规范特XML的特点强大的超链接功能XLL代表XML的链接语言,由用于链接的XLinks和用于定位文档中某部分的Xpointers的两部分组成XLL支持可扩展的链接和多方向的链接它打破了HTML只XLL支持可扩展的链接和多方向的链接。它打破了HTML只支持超级文本概念下昀简单的链接限制,能支持独立于地址的域名、双向链路、环路、多个源的集合链接等。文档的表示形式多样化通过将结构内容和表现分离同个XML源文档只写次可通过将结构,内容和表现分离,同一个XML源文档只写一次,可以用不同的方法表现出来。数据表示是由层叠样式表CSS或可扩展样式语言XSL来实现的特XML的特点用户可以根据具体需要为同一个XML文件编写多个样式文件,为文档中的元素设计不同的显示/打印样式。这将使网络的用户界面更趋于个性化、风格化降低了对服务端的要求XML没有SGML那么复杂,它是设计用于有限带宽的网络的,如如Internet.服务器只须发出同一个XML文件,而由客户根据自己的需求选择和制作不同的应用程序以处理数据.服务端可以集中精力选择和制作不同的应用程序以处理数据.服务端可以集中精力尽可能完善、准确地将数据封装进XML文件中使广泛、通用的分布式计算成为可能XML的特点XML的特点WhyweadoptXML《ASemanticwebprimer》WhyweadoptXML《p》特XML的特点