HTML语言:DTD到底是什么?

Tim Berners-Lee 当初设计HTML,使用了当时已有的语言:SGML。

基本语法

首先,HTML是SGML的子集,它遵循SGML的基本语法,比如标签、转义等。SGML还规定了一些特殊标签,在之前的DOM课程中都有涉及,他们都有与之对应的HTML语法。

从语法的角度,逐个了解一下:标签语法

标签语法

产生元素,从语法角度讲,就用“标签”这个术语,从运行时的角度,就用“元素”这个术语。
HTML中,用于描述一个元素的标签分为开始标签,结束标签和自闭和标签。开始标签和自闭和标签中,又可以有属性。

  • 开始标签:<tagName>
  • 带属性的开始标签:<tahName attributename="attributename">
  • 结束标签:</tagName>  
  • 自闭和标签:<tagName />

HTML中标签的标签名称只能使用英文字母。
属性的语法,属性可以使用单引号、双引号或者完全不用引号。这三种情况下的转义都不太一样。
属性中可以使用文本实体来做转义,属性中,一般需要转义的有下面几种

  • 无引号属性:<TAB> <LF> <FF> <SPACE> &
  • 单引号属性:' &
  • 双引号属性:" &

文本语法

HTML中规定了两种文本语法,一种是普通的文本节点,另一种是CDATA文本节点。
文本节点看似是普通的文本的,但是其中有两种字符是必须做转义的:< 和 &。
如果从某处拷贝的一段文本含有大量的< 和 &,这个时候就要CDATA出场了。
CDATA也是一种文本,它存在的意义是语法上的意义;在CDATA节点不需要考虑多数的转义情况。
CDATA内,只要有字符组合]]>需要处理,这里不能转义,只能拆成两个CDATA节点。

注释语法

HTML的注释语法以<!--开头,以-->结尾,注释的内容非常自由,除了-->没有问题。
如果注释的内容移动要出现<!--,可以拆成多个注释节点。

DTD文档类型定义

SGML的DTD语法十分复杂,但是对于HTML来说,其实DTD的选项是有限的,浏览器在解析DTD时,把它当作几种字符串之一。

ProcessingInstruction语法(处理信息)

ProcessingInstruction多数情况下,是给机器看的。HTML中规定了可以有ProcessingInstruction,但是并没有规定它的具体内容,所以可以把它视为一种保留的扩展机制。对浏览器而言,ProcessingInstruction 的作用类似于注释。
ProcessingInstruction包含两个部分,紧挨着第一个问号后,空格前的部分被称为“目标”,这个目标一般表示ProcessingInstruction的程序名。
剩下部分是它的文本信息,一般由文档编写者和处理程序的编写者约定。

DTD

DTD的全称是Document Type Definition,也就是文档定义类型。SGML用DTD定义每一种文档类型,HTML属于SGML,在HTML5出来之前都是使用符合SGMl规定的DTD。
HTML上个时代HTML4.01有三种DTD,严格模式,过渡模式,frameset模式

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">

严格模式DTD规定了HTML4.01中需要的标签。

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">

过渡模式的DTD除了html4.01,还包含了一些被贬斥的标签。这些标签已经不推荐使用,但过渡模式仍然保留了它们。

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN" "http://www.w3.org/TR/html4/frameset.dtd">

frameset模式已经很少见了,它使用几个frameset标签把几个网页组合在一起。
到了HTML5,干脆放弃了SGML子集这项坚持,规定了一个简单的,大家都能记住的DTD:

<!DOCTYPE html>

众所周知,HTML中允许一些不闭合的标签,实际上是符合SGMl规定的,并且在DTD中规定好的。但是,一些程序员喜欢严格遵循XML语法,保证标签闭合性。所以,HTML4.01规定了XHTML语法,分别对应三个版本:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Frameset//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-frameset.dtd">

其实这些DTD写法并没有起到实际的作用。到了HTML5,干脆放弃了SGML子集这项坚持,规定了一个简单的,大家都能记住的DTD:

<!DOCTYPE html>

但是仍然保留了HTML语法和XHTML语法。

文本实体

HTML4.01的DTD里包含了一个长得很像是URL的东西,这个是真的可以访问的。这是符合SGML规范的DTD。
这个DTD这个DTD规定了HTML包含了哪些标签、属性和文本实体。其中文本实体分布在三个文件中:HTMLsymbol.entHTMLspecial.ent和HTMLlat1.ent。
每一个文本实体由&开头,由;结束,这属于基本语法的规定,文本实体可以用#后跟一个十进制数字,表示字符Unicode值。除此之外这两个符号之间的内容,则由DTD决定。
HTML4.01共有255个文本实体。
文本实体定义类似以下代码:

&lt;
&nbsp;
&gt;
&amp;
此文章为7月Day26学习笔记,内容来源于极客时间《重学前端》,日拱一卒,每天进步一点点💪💪

豪猪
4 声望4 粉丝

undefined