XML语法1.所有XML元素都须有关闭标签在HTML,经常会看到没有关闭标签的元素:pThisisaparagraphpThisisanotherparagraph在XML中,省略关闭标签是非法的。所有元素都必须有关闭标签:pThisisaparagraph/ppThisisanotherparagraph/p注释:您也许已经注意到XML声明没有关闭标签。这不是错误。声明不属于XML本身的组成部分。它不是XML元素,也不需要关闭标签。2.XML标签对大小写敏感XML元素使用XML标签进行定义。XML标签对大小写敏感。在XML中,标签Letter与标签letter是不同的。必须使用相同的大小写来编写打开标签和关闭标签:Message这是错误的。/messagemessage这是正确的。/message注释:打开标签和关闭标签通常被称为开始标签和结束标签。不论您喜欢哪种术语,它们的概念都是相同的。3.XML必须正确地嵌套在HTML中,常会看到没有正确嵌套的元素:biThistextisboldanditalic/b/i在XML中,所有元素都必须彼此正确地嵌套:biThistextisboldanditalic/i/b在上例中,正确嵌套的意思是:由于i元素是在b元素内打开的,那么它必须在b元素内关闭。4.XML文档必须有根元素XML文档必须有一个元素是所有其他元素的父元素。该元素称为根元素。rootchildsubchild...../subchild/child/root5.XML的属性值须加引号与HTML类似,XML也可拥有属性(名称/值的对)。在XML中,XML的属性值须加引号。请研究下面的两个XML文档。第一个是错误的,第二个是正确的:notedate=08/08/2008toGeorge/tofromJohn/from/notenotedate=08/08/2008toGeorge/tofromJohn/from/note在第一个文档中的错误是,note元素中的date属性没有加引号。6.实体引用在XML中,一些字符拥有特殊的意义。如果你把字符放在XML元素中,会发生错误,这是因为解析器会把它当作新元素的开始。这样会产生XML错误:messageifsalary1000then/message为了避免这个错误,请用实体引用来代替字符:messageifsalary<1000then/message在XML中,有5个预定义的实体引用:注释:在XML中,只有字符和&确实是非法的。大于号是合法的,但是用实体引用来代替它是一个好习惯。7.XML中的注释在XML中编写注释的语法与HTML的语法很相似:!--Thisisacomment--8.在XML中,空格会被保留HTML会把多个连续的空格字符裁减(合并)为一个:HTML:HellomynameisDavid.输出:HellomynameisDavid.在XML中,文档中的空格不会被删节。9.XML以LF存储换行在Windows应用程序中,换行通常以一对字符来存储:回车符(CR)和换行符(LF)。这对字符与打字机设置新行的动作有相似之处。在Unix应用程序中,新行以LF字符存储。而Macintosh应用程序使用CR来存储新行。XML元素XML文档包含XML元素。1.什么是XML元素?XML元素指的是从(且包括)开始标签直到(且包括)结束标签的部分。元素可包含其他元素、文本或者两者的混合物。元素也可以拥有属性。bookstorebookcategory=CHILDRENtitleHarryPotter/titleauthorJK.Rowling/authoryear2005/yearprice29.99/price/bookbookcategory=WEBtitleLearningXML/titleauthorErikT.Ray/authoryear2003/yearprice39.95/price/book/bookstore在上例中,bookstore和book都拥有元素内容,因为它们包含了其他元素。author只有文本内容,因为它仅包含文本。在上例中,只有book元素拥有属性(category=CHILDREN)。2.XML命名规则XML元素必须遵循以下命名规则:名称可以含字母、数字以及其他的字符。名称不能以数字或者标点符号开始。名称不能以字符“xml”(或者XML、Xml)开始。名称不能包含空格。可使用任何名称,没有保留的字词。3.最佳命名习惯使名称具有描述性。使用下划线的名称也很不错。名称应当比较简短,比如:book_title,而不是:the_title_of_the_book。避免-字符。如果您按照这样的方式进行命名:first-name,一些软件会认为你需要提取第一个单词。避免.字符。如果您按照这样的方式进行命名:first.name,一些软件会认为name是对象first的属性。避免:字符。冒号会被转换为命名空间来使用(稍后介绍)。XML文档经常有一个对应的数据库,其中的字段会对应XML文档中的元素。有一个实用的经验,即使用数据库的名称规则来命名XML文档中的元素。非英语的字母比如éòá也是合法的XML元素名,不过需要留意当软件开发商不支持这些字符时可能出现的问题。4.XML元素是可扩展的XML元素是可扩展,以携带更多的信息。请看下面这个XML例子:notetoGeorge/tofromJohn/frombodyDon'tforgetthemeeting!/body/note让我们设想一下,我们创建了一个应用程序,可将to、from以及body元素提取出来,并产生以下的输出:MESSAGETo:GeorgeFrom:JohnDon'tforgetthemeeting!想象一下,之后这个XML文档作者又向这个文档添加了一些额外的信息:notedate2008-08-08/datetoGeorge/tofromJohn/fromheadingReminder/headingbodyDon'tforgetthemeeting!/body/note那么这个应用程序会中断或崩溃吗?不会。这个应用程序仍然可以找到XML文档中的to、from以及body元素,并产生同样的输出。XML的优势之一,就是可以经常在不中断应用程序的情况进行扩展。XML属性XML元素可以在开始标签中包含属性,类似HTML。属性(Attribute)提供关于元素的额外(附加)信息。1.XML属性从HTML,你会回忆起这个:imgsrc=computer.gif。src属性提供有关img元素的额外信息。在HTML中(以及在XML中),属性提供有关元素的额外信息:imgsrc=computer.gifahref=demo.asp属性通常提供不属于数据组成部分的信息。在下面的例子中,文件类型与数据无关,但是对需要处理这个元素的软件来说却很重要:filetype=gifcomputer.gif/file2.XML属性必须加引号属性值必须被引号包围,不过单引号和双引号均可使用。比如一个人的性别,person标签可以这样写:personsex=female或者这样也可以:personsex='female'注释:如果属性值本身包含双引号,那么有必要使用单引号包围它,就像这个例子:gangstername='GeorgeShotgunZiegler'或者可以使用实体引用:gangstername=George"Shotgun"Ziegler3.XML元素vs.属性请看这些例子:personsex=femalefirstnameAnna/firstnamelastnameSmith/lastname/personpersonsexfemale/sexfirstnameAnna/firstnamelastnameSmith/lastname/person在第一个例子中,sex是一个属性。在第二个例子中,sex则是一个子元素。两个例子均可提供相同的信息。没有什么规矩可以告诉我们什么时候该使用属性,而什么时候该使用子元素。我的经验是在HTML中,属性用起来很便利,但是在XML中,您应该尽量避免使用属性。如果信息感觉起来很像数据,那么请使用子元素吧。4.我最喜欢的方式下面的三个XML文档包含完全相同的信息:第一个例子中使用了date属性:notedate=08/08/2008toGeorge/tofromJohn/fromheadingReminder/headingbodyDon'tforgetthemeeting!/body/note第二个例子中使用了date元素:notedate08/08/2008/datetoGeorge/tofromJohn/fromheadingReminder/headingbodyDon'tforgetthemeeting!/body/note第三个例子中使用了扩展的date元素(这是我的最爱):notedateday08/daymonth08/monthyear2008/year/datetoGeorge/tofromJohn/fromheadingReminder/headingbodyDon'tforgetthemeeting!/body/note5.避免XML属性?因使用属性而引起的一些问题:属性无法包含多重的值(元素可以)属性无法描述树结构(元素可以)属性不易扩展(为未来的变化)属性难以阅读和维护请尽量使用元素来描述数据。而仅仅使用属性来提供与数据无关的信息。不要做这样的蠢事(这不是XML应该被使用的方式):noteday=08month=08year=2008to=Georgefrom=Johnheading=Reminderbody=Don'tforgetthemeeting!/note6.针对元数据的XML属性有时候会向元素分配ID引用。这些ID索引可用于标识XML元素,它起作用的方式与HTML中ID属性是一样的。这个例子向我们演示了这种情况:messagesnoteid=501toGeorge/tofromJohn/fromheadingReminder/headingbodyDon'tforgetthemeeting!/body/notenoteid=502toJohn/tofromGeorge/fromheadingRe:Reminder/headingbodyIwillnot/body/note/messages上面的ID仅仅是一个标识符,用于标识不同的便签。它并不是便签数据的组成部分。在此我们极力向您传递的理念是:元数据(有关数据的数据)应当存储为属性,而数据本身应当存储为元素。