1第一章XML与DTDXML的产生:XML的全称是ExtensibleMarkupLanguage,意思是可扩展的标记语言,它是标准通用标记语言(StandardGeneralizedMarkupLanguage,SGML)的一个子集。在80年代早期,IBM提出在各文档之间共享一些相似的属性.例如字体大小和版面。IBM设计了一种文档系统,通过在文档中添加标记,来标识文档中的各种元素,IBM把这种标识语言称作通用标记语言(GeneralizedMarkupLanguage),即GML。经过若干年的发展,1984年国际标准化组织(ISO)开始对此提案进行讨论,并于1986年正式发布了为生成标准化文档而定义的标记语言标准(ISO8879),称为新的语言SGML,即标准通用标记语言。SGML功能非常强大,是可以定义标记语言的元语言。W3C介绍:W3C是万维网联盟(WorldWideWebConsortium)英文的缩写,它成立于1994年10月,以开放论坛的方式来促进开发互通技术(包括规格、指南、软件和工具),开发网络的全部潜能。万维网联盟(W3C)从1994年成立以来,已发布了90多份Web技术规范,领导着Web技术向前发展。W3C认为自身不是官方组织,因此将它正式发布的规范称为推荐(建议)标准,意思是进一步标准化的建议,但是由于该组织自身的权威性往往成为事实上的标准。一项技术要成为W3C的推荐标准,需要7个步骤:1.W3C收到提交(ReceivesaSubmission)2.W3C发布注释(PublishesaNote)3.W3C成立工作组(CreatesaWorkingGroup)4.W3C发布工作草案(PublishesaWorkingDraft)5.W3C发布候选推荐标准(PublishesaCandidateRecommendation)6.W3C发布提议的推荐标准(Publishesa2ProposedRecommendation)7.W3C发布推荐标准(PublishesaRecommendation)关于XML的问题:XML是HTML的扩展吗?HTML的全称是HypertextMarkupLanguage(超文本标记语言),而XML的全称是(ExtensibleMarkupLanguage)可扩展的标记语言,这很容易让人联想到XML是通过增加新标记来扩展HTML的一种标记语言。实际上HTML和XML在标记语言中处于不同的层次。html?xmlversion=1.0encoding=gb2312?head欢迎词>title这是一个欢迎的例子/title标题这是一个欢迎的例子/标题/head内容你好!欢迎你!/内容body你好!欢迎你!/body/欢迎词/html提示:XML在设计之初,就考虑到了国际化的问题,同HTML4.01一样,XML也是基于ISO/IEC10646字符集标准中定义的通用字符集(UniversalCharacterSet.UCS)。SGML、HTML和XML之间的关系:SGML、HTML和XML之间是什么关系?SGML是一种在Web发明前就早已存在的使用标记来描述文档资料的通用语言,它是一种定义标记语言的元语言。HTML和XML都是从SGML发展而来的标记语言,因此,它们有一些共同点,如相似的语法和标记的使用。不过HTML是在SGML定义下的一个描述性的语言,只是SGML的一个应用,其DTD作为标准被固定下来,而XML是SGML的一个简化版本,是SGML的一个子集,严格意义上来说,XML仍然是SGML。HTML不能用来定义新的应用,而XML可以,例如RDF和CDF那是使用XML定义的应用.事实上。XML和SGML是兼容的.但又没有SGML那么复杂,它是设计用于有限带宽的网络,如Internet.XML规范的制定者之一TimBray说,XML的设计出发点是取SGML的优点,去除复杂的部分,使其保持轻巧,可以在Web上工作。HTML、SGML和XML将继续使用于适合的地方,它们中的任何一个都不会使其它一个废弃。对于像新闻、网络日记、论坛留言等大部分短期的数据,HTML仍是在Web上快速出版数据的最简单的方法。如果数据要长期使用,并且需要更多的一些结构,我们更推荐使用XML。不同于HTML和XML,SGML可能永远不会在Internet上被广泛接受,因为它们不是为某个网络协议而设计,也从来没有为某个网络协议的需求而优化过。对于高端的、复杂结构的出版应用,SGML将继续应用。XML与HTML的比较:XML将数据与显示分开htmlhead?xmlversion=1.0encoding=gb2312?title静夜思/titlepoembodycentertitle静夜思/titleh2fontcolor=red静夜思/font/h2author李白/authorb作者:李白/bhrcolor=bluecontentline床前明月光/linepbifontsize=3color=greenline疑是地上霜/line床前明月先,疑是地上霜brline举头望明月/line举头望明月,低头思故乡/font/i/bline低头思故乡/line/content/center/body/html/poem3XML对文档的格式要求更加严格,由于HTML文档格式非常松散,导致了HTML文档解析的复杂性,也造成了浏览器兼容的问题,所以XML从一开始,就对文档的格式制定了非常严格的标准,凡是符合这一标准的XML文档就是格式良好的XML文档(Well-FormedXMLDocuments)。开始标签必须要有一个结束标签:在HTML文档中,可以直接使用p,tr,td等标签,而不用加结束标签,在XML中,开始标签和结束标签必须配套,也就是必须写成p.../p、tr.../tr,td.../td空元素标签必须被关闭.在HTML文档中,可以使用br,hr,imgsrc=logo.gifwidth=197height=81等单标签,而在XML中,空元素标签必须被关闭。空元素标签采用斜杠(/)来关闭,例如:br/,hr/,imgsrc=logo.gifwidth=197height=81/所有的标签都区分大小写在HTML文档中,标签是不区分大小写的,tr和/TR是tr元素的开始标签和结束标签,但是在XML中,tr和TR是两个不同的标签,开始标签和结束标签的大小写形式必须一致.所有的标签都必须合理嵌套。在HTML文档中,bi.../b/i是允许的,但是在XML中,这是错误的.在XML中,所有的标签都要成对出现,合理嵌套,正确的形式是:bi.../i/b.所有标签的属性值必须用双引号()或单引号('')括起来。在HTML文档中,属性值可以加引号,也可以不加,例如:hrcolor=blue和hrcolor=blue都是合法的。在XML文档中,即使是数等字符,也必须加双引号或单引号,例如:studentname=zhangsanage='18'/。XML有且只能有一个根元素,在HTML中,可以有多个根元素,如下:table..../tabletable.../table.但是在XML中,有且只能有一个根元素,如下:table.../tableXML的编辑工具:.Notepad(Windows自带)、UltraEdit、XMLSpyXML的文档:每一个XML文档都有一个逻辑和一个物理结构。物理上而言,文档由称为实体(entities)的存储单元组成,实体都具有内容并且都通过实体的名字进行标识〔文档实体和外部DTD子集除外)。实体可以是一段文本、一个文件、一个数据库记录或其他包含数据的项目。一个实体可以引用其它的实体,从而将它们包含在文档中。文档开始于根(root)或文档实体(documententity).格式良好的XML文档形成了一种层次树结构,而这个树的树根就是文档实体,与其它实体不同,文档实体没有名宇,只是用于表示文档树的根。XML文档的根元素被称为文档元素(documentelement),它和在其外部出现的处理指令、注释等作为文档实体的子节点,而根元素本身和其内部的子元素也是一棵树.实体可以包含已分析(parsed)的或未分析的(unparsed)数据.已分析的数据由字符组成,其中一些字符组成字符数据,另一些字符组成标记。已分析的实体(parsedentity)内容被称为它的替换文本,这个文本被看成是文档整体的一部分.在XML处理器分析XML文档时,凡是文档中出现引用已分析实体的地方,都将被该实体的内容所替换.未分析的实体(unparsedentity)是一种资源,它的内容可以是也可以不是文本,并且,如果是文本的话,可以不是XML文本。每一个未分析的实体有一个相关联的用名字标识的记号(notation)。除了要求XML处理器能向应用程序提供可用的实体和记号的标识符之外,XML对未分析的实体内容不作任何限限制。已分析的实体以实体引用的方式通过名字来调用:未分析的实体通过ENTITY或ENTITIES属性中给出的名字来调用.逻辑上而言,文档由声明,元素,注释,字符引用和处理指令组成,在文档中,所有这些都是通过显式的标记(markup)来指明的.XML标记(markup)包括开始标签(tag)、结束标签、空元素标签、实体引用、字符引用、注释、CDATA段定界符、文档类型声明,处理指令、XML声明、文本声明以及任何在文档实体顶层的空白(即,在文档元素之外,且不在任何其它的标记内部)。其它所有非标记的文本组成文档的字符数据。XML文档在逻辑上主要由以下五个部分组成。--XML声明--文档类型声明4--元素--注释--处理指令。XML声明:XML文档总是以一个XML声明开始,其中指明所用的XML版本、文档的编码、文档的独立性信息。其格式如下?xml版本信息[编码信息][文档独立性信息]?一对中括号([])中的部分表示是可选信息。版本声明?xmlversion=1.0?文档编码声明在XML声明中还可以加上交档编码信息,默认是UTF-8,如果要使用中文,我们可以在声明中加上encoding=gb2312,如下所示:?xmlversion=1.0encoding=gb2312?独立文档声明如果我们的文档不依赖于外部文档.在XML声明中,我们可以通过standalone=yes来声明这个文档是独立的文档,如要文档依赖于外部文档,可以通过standalone=no来声明。完整的XML声明如下所示:?xmlversion=1.0encoding=gb2312standalone=yes?XML声明必须位于文档的第一行,前面不能有任何字符。文档类型声明DTD(DocumentTypeDefinition).文档类型定义.XML从SGML继承了用于定义语法规则的DTD机制,但DTD本身井不要求遵循XML规则,几乎所用的XML应用都是使用DTD来定义的。HTML就有一个标准的DTD文件,所以其组织结构和所有的标签都是固定的.DTD文件也是一个文本文件,通常用dtd作为其扩展名.通过文档类型声明,指出XML文档所用的DTD.文档类型声明有两种形式.一种是声明DTD在一个外部的文件中,如下:!DOCTYPEgreetingSYSTEMhello.dtd一种是直接在XML文档中给出DTD,如下:?xmlversion=1.0encoding=gb2312standalone=yes?!DOCTYPEgreeting[!ELEMENTgreeting(#PCDATA)]