什么是URL?
所有的东西都有一个标准化的东西,公交有线路号,飞机有航班号,个人有身份证号,你坐出租车,告诉司机师傅我要到石牌华师,他就能明白你的意思了。URL就是因特网资源的标准化名称。URL指向一条电子信息片段,告诉你它们位于何处,以及如何与他们进行交互。
URI
统一资源标识符(Uniform Resource Identifier,URI)是一类更通用的资源标识符,它包括URL和URN。URL是通过描述资源的位置来标识资源的,而URN是通过名字来识别资源的,与它们当前所处的位置无关。
URL语法
我们普通时候遇到的大部分的URL(比如”http://soccer.hupu.com/germany“)是由三部分组成的:方案(http)、主机(soccer.hupu.com)、路径(/germany)。URL的语法随方案的不同而有所不同!大多数URL方案的URL语法都建立在由9部分构成的通用格式上:
<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>
不过几乎没有哪个URL包含所有这些组件。
方案
首先我们来看看什么叫方案。
方案实际上是规定如何访问指定资源的主要标识符,它会告诉负责解析URL的应用程序应该使用什么协议。我们最常用的http(目前大部分浏览器都会帮你省略掉这个部分)、https(http的安全版)、ftp等等。
方案名是不区分大小写的,也就是说”http://www.google.com“和”HTTP:www.google.com“是等价的(你可以去你的浏览器里去试一下)。
主机与端口
我们要访问因特网上的资源,要知道是哪台机器装载了该资源,以及在该机器的什么位置可以找到该资源,这就是URL内主机与端口提供的信息。我们可以用主机名(www.hupu.com)或者IP地址(112.90.32.241)来表示主机名。端口组件标识了服务器正在监听的端口,http的默认端口为80,https的默认端口为443。
用户名和密码
用户和密码组件通常出现在ftp协议中。
ftp://ftp.prep.ai.mit.edu/pub/gnu这个例子中没有用户和密码组件。当URL方案要求输入用户名和密码时,它会插入anonymous作为你的用户名,并发送一个默认密码。
ftp://anonymous@ftp.prep.ai.mit..edu/pug...该例子中显示了一个指定的用户名anonymous。字符@讲用户和密码组件与URL的其他部分分隔开来。
ftp://anonymous:my_password@ftp.prep.ai....指定了用户名和密码,由”:”分。
路径
就像PC中文件路径一样。每个路径都有自己的参数。
参数
URL中的参数组件是名值对列表,由字符”;”将其与URL的其他部分分隔开来。它们为应用程序提供了访问资源所需要的附加信息。ftp://ftp.prep.ai.mit.edu/pub/gnu;type=d
能看出上述例子中的参数名是什么,参数的值是什么吗?
查询
我们用一个例子来说明http://bbs:scoccer.com/15630262.html?ite...。这个例子中?右边的内容就是查询组件。我们通过查询组件来缩小所请求资源的范围。
我们一般用“名/值”的方式来查询,名值对之间用&分隔:http://bbs:scoccer.com/15630262.html?ite...。
片段
URL支持用片段组件来表示一个资源内部的片段,如HTML文档中一个特定的图片和小节。比如:
http://bbs:scoccer.com/15630262.html#rob...
*HTTP服务器处理整个对象,而不是对象的片段,从服务器返回的是整个资源后,由客户端的浏览器来显示你感兴趣的片段。
URL快捷方式
URL有两种方式:绝对的和相对的。我们一般见到的都是绝对URL。而相对URL是URL的一种便捷缩略记法,是URL的片段或者一小部分。有过开发经验的应该也都见过。我们来看一下一个HTML文档
<HTML>
<HEAD><TITLE>Joe's Tools</TITLE></HEAD>
<BODY>
<H1>Tools Page</H1>
<H2>Hammers</H2>
<P>Joe's Hardware Online has the largest selection of
<A HREF="./hammers.html">hammers</A> on the earth.</P>
<H2><A NAME=drills></A>Drills</H2>
<P>Joe's Hardware has a complete line of cordless and corded drills,
as well as the latest in plutonium-powered atomic drills, for those
big around the house jobs.</P> ...
</BODY>
</HTML>
其中 ./hammers.html就是一个相对路径。
既然说是相对路径,那它肯定有个相对的对象。这个对象就是所谓的基础URL。这个例子中,基础URL是http://www.joes-hardware.com/tools.com。那么基础URL是怎么来的呢。
1、在资源中显示提供。比如HTML文档中可能会包含一个定义了基础URL的标记<BASE>
2、封装资源的基础URL。如果没有显式指定基础URL,可以将它所属资源的URL作为基础。
3、没有基础URL。通常意味这是一个绝对URL,当然也有可能这个URL是不完整的。
那么我们如何将一个相对的URL转换为绝对的URL呢?我们看下面这个图。
我们对./hanmmers.html使用图中的算法。
1)路径为./hammmers.html,基础URL为http://www.joes-hardware.com/tools.html
2)方案为空,继承基础URL的方案(HTTP)
3)组件为空,继承主机和端口组件
4)将相对URL和继承的组件合并:http://www.joes-hardware.com/hammmers.ht...。
自动扩展URL
主机名扩展
《HTTP权威指南》中说我们在地址栏中输入yahoo,就会自动在主机名中插入www.和.com,不过目前我还没有找到对应的例子
历史扩展
这个我们日常中用的很多了,通过我们访问过的网站,浏览器会自动帮我们提供一些完整的选项供我们选择。
未来
我们已经知道URL提供的是我们所需资源所处的位置,它的缺点是,一旦该资源被移走,我们就不能通过URL对该资源进行定位了。我们解决方案正式前面提到的URN。
URN(uniform resource name)统一资源名。其思想是在资源搜索的过程中引入另外一个中间层,通过一个中间资源定位符,服务器对资源的实际URL进行登记和跟踪,这样不管我们的资源被移动到了何处,只要它没有被删除,定位符就可以以这个资源重定向到所请求资源的实际URL中去。不过想要取代URL还需要一定的时间,这也不是Web开发中的紧迫问题。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。