使用HTTP访问web

输入URL时页面是如何呈现的

clipboard.png

clipboard.png

HTTP被译为超文本传输协议

TCP/IP协议族

TCP/IP是互联网相关的各类协议族总称

clipboard.png

TCP/IP的分层管理:应用层 . 传输层 . 网络层 . 数据链路层

把TCP/IP层次化的好处:想重新改动设计时,不用修改整个协议,而修改对应的层。

应用层
决定了向用户提供应用服务时通信的活动,HTTP协议处于这一层

传输层
传输层对上层应用层,提供处于网络连接中的两台计算杨之间的数据传输

网络层
网络层用来处理在网络上流动的数据包,数据包是网络传输的最小数据单但,该层规定了通过怎样的路径到达对方计算机。

链路层
用来处理连接网络的硬件部分。

TCP/IP通信传输流

利用 TCP/IP 协议族进行网络通信时,会通过分层顺序与对方进行通 信。发送端从应用层往下走,接收端则往应用层往上走。
我们用 HTTP 举例来说明,首先作为发送端的客户端在应用层 (HTTP 协议)发出一个想看某个 Web 页面的 HTTP 请求
接着,为了传输方便,在传输层(TCP 协议)把从应用层处收到的数 据(HTTP 请求报文)进行分割,并在各个报文上打上标记序号及端 口号后转发给网络层。
在网络层(IP 协议),增加作为通信目的地的 MAC 地址后转发给链 路层。这样一来,发往网络的通信请求就准备齐全了。
接收端的服务器在链路层接收到数据,按序往上层发送,一直到应用 层。当传输到应用层,才能算真正接收到由客户端发送过来的 HTTP 请求。

clipboard.png
发送端在层与层之间传输数据时,每经过一层时必定会被打上一个该 层所属的首部信息。反之,接收端在层与层传输数据时,每经过一层 时会把对应的首部消去。
这种把数据信息包装起来的做法称为封装(encapsulate)。

与HTTP关系密切的协议:IP、TCP、DNS

IP协议

把各种数据包传输给对方,确保传输到对方最重要的两个条件是IP地址和MAC地址
ARP协议可将IP地址解析为MAC地址

clipboard.png

TCP协议:确保可靠性

TCP位于传输层,提供可靠的字节流服务,就是将大块数据分割成以报文段为单位的数据包进行管理,而且TCP协议最终可确认数据是否送达对方,采用的是三次握手策略:
握手过程中使用了 TCP 的标志(flag) —— SYN(synchronize) 和 ACK(acknowledgement)

clipboard.png

若在握手过程中某个阶段莫名中断,TCP 协议会再次以相同的顺序发 送相同的数据包。

DNS协议:负责域名解析

用户通常使用主机名或域名来访问对方的计算机,而不是直接通过 IP 地址访问。因为与 IP 地址的一组纯数字相比,用字母配合数字的表 示形式来指定计算机名更符合人类的记忆习惯。
DNS 协议提供通过域名 查找 IP 地址,或逆向从 IP 地址反查域名的服务

clipboard.png

各种协议与HTTP协议的关系

clipboard.png

URI与URL

URI 用字符串标识某一互联网资源,而 URL 表示资源的地点(互联 网上所处的位置)。可见 URL 是 URI 的子集
URI格式:

clipboard.png

简单的HTTP协议

clipboard.png
HTTP 协议规定,请求从客户端发出,最后服务器端响应该请求并返 回。换句话说,肯定是先从客户端开始建立通信的,服务器端在没有 接收到请求之前不会发送响应。
具体实例:

clipboard.png

GET /index.htm HTTP/1.1
Host: hackr.jp

起始行开头的GET表示请求访问服务器的类型,称为方法 (method)。随后的字符串 /index.htm 指明了请求访问的资源对象, 也叫做请求 URI(request-URI)。最后的 HTTP/1.1,即 HTTP 的版本 号,用来提示客户端使用的 HTTP 协议功能。 综合来看,这段请求内容的意思是:请求访问某台 HTTP 服务器上的 /index.htm 页面资源。

请求报文
clipboard.png

响应报文

clipboard.png

HTTP是不保存状态的协议

HTTP 是一种不保存状态,即无状态(stateless)协议。HTTP 协议自 身不对请求和响应之间的通信状态进行保存。也就是说在 HTTP 这个 级别,协议对于发送过的请求或响应都不做持久化处理

clipboard.png
可是,随着 Web 的不断发展,因无状态而导致业务处理变得棘手的 情况增多了。比如,用户登录到一家购物网站,即使他跳转到该站的,其他页面后,也需要能继续保持登录状态。针对这个实例,网站为了 能够掌握是谁送出的请求,需要保存用户的状态。
于是引入了 Cookie 技术。有了 Cookie 再用 HTTP 协议通信,就可以管 理状态了

告知服务器意图的 HTTP 方法

GET方法

GET 方法用来请求访问已被 URI 识别的资源。指定的资源经服务器 端解析后返回响应内容。

clipboard.png
使用 GET 方法的请求·响应的例子

clipboard.png

POST方法

POST 方法用来传输实体的主体

clipboard.png

POST 方法的请求·响应的例子

clipboard.png

PUT方法

PUT 方法用来传输文件。就像 FTP 协议的文件上传一样,要求在请 求报文的主体中包含文件内容,然后保存到请求 URI 指定的位置
但是,鉴于 HTTP/1.1 的 PUT 方法自身不带验证机制,任何人都可以 上传文件 , 存在安全性问题,因此一般的 Web 网站不使用该方法

clipboard.png

使用 PUT 方法的请求·响应的例子

clipboard.png
响应的意思其实是请求执行成功了,但无数据返回

DELETE方法

DELETE 方法用来删除文件,是与 PUT 相反的方法。DELETE 方法按 请求 URI 删除指定的资源,但是,HTTP/1.1 的 DELETE 方法本身和 PUT 方法一样不带验证机 制,所以一般的 Web 网站也不使用 DELETE 方法

clipboard.png
使用 DELETE 方法的请求·响应的例子

clipboard.png

HEAD方法

HEAD 方法和 GET 方法一样,只是不返回报文主体部分。用于确认 URI 的有效性及资源更新的日期时间等

clipboard.png
和 GET 一样,但不返回报文主体
使用 HEAD 方法的请求·响应的例子

clipboard.png

OPTIONS方法

OPTIONS 方法用来查询针对请求 URI 指定的资源支持的方法。

clipboard.png

使用 OPTIONS 方法的请求·响应的例子

clipboard.png

CONNECT方法

CONNECT 方法要求在与代理服务器通信时建立隧道,实现用隧道协 议进行 TCP 通信,议把通信内容 加 密后经网络隧道传输

clipboard.png

使用 CONNECT 方法的请求·响应的例子

clipboard.png

clipboard.png

HTTP/1.0 和 HTTP/1.1 支持的方法

clipboard.png

持久连接节省通信量

HTTP 协议的初始版本中,每进行一次 HTTP 通信就要断开一次 TCP 连接。

clipboard.png
以当年的通信情况来说,因为都是些容量很小的文本传输,所以即使 这样也没有多大问题。可随着 HTTP 的普及,文档中包含大量图片的 情况多了起来。
比如,使用浏览器浏览一个包含多张图片的 HTML 页面时,在发送 请求访问 HTML 页面资源的同时,也会请求该 HTML 页面里包含的 其他资源。因此,每次的请求都会造成无谓的 TCP 连接建立和断 开,增加通信量的开销。

clipboard.png
持久连接的特点是,只要任意一端 没有明确提出断开连接,则保持 TCP 连接状态。

clipboard.png
持久连接的好处在于减少了 TCP 连接的重复建立和断开所造成的额 外开销,减轻了服务器端的负载。另外,减少开销的那部分时间,使 HTTP 请求和响应能够更早地结束,这样 Web 页面的显示速度也就相 应提高了。

管线化

持久连接使得多数请求以管线化(pipelining)方式发送成为可能。从 前发送请求后需等待并收到响应,才能发送下一个请求。管线化技术 出现后,不用等待响应亦可直接发送下一个请求。
这样就能够做到同时并行发送多个请求,而不需要一个接一个地等待 响应了

clipboard.png

不等待响应,直接发送下一个请求
比如,当请求一个包含 10 张图片的 HTML Web 页面,与挨个连接相 比,用持久连接可以让请求更快结束。而管线化技术则比持久连接还 要快。请求数越多,时间差就越明显

使用 Cookie 的状态管理

如果让服务器管理全部客户端状态则会成为负担
clipboard.png
保留无状态协议这个特征的同时又要解决类似的矛盾问题,于是引入 了 Cookie 技术。Cookie 技术通过在请求和响应报文中写入 Cookie 信 息来控制客户端的状态
没有 Cookie 信息状态下的请求

clipboard.png

请求报文(没有 Cookie 信息的状态)

GET /reader/ HTTP/1.1 
Host: hackr.jp 
首部字段内没有Cookie的相关信息

响应报文(服务器端生成 Cookie 信息)

HTTP/1.1 200 OK 
Date: Thu, 12 Jul 2012 07:12:20 GMT 
Server: Apache <Set-Cookie: sid=1342077140226724; path=/; expires=Wed, 
10-Oct-12 07:12:20 GMT> 
Content-Type: text/plain; charset=UTF-8

存有 Cookie 信息状态的请求

clipboard.png

请求报文(自动发送保存着的 Cookie 信息)

GET /image/ HTTP/1.1 
Host: hackr.jp 
Cookie: sid=1342077140226724

HTTP 报文内的 HTTP 信息

请求报文及响应报文的结构

请求报文:

clipboard.png

响应报文:

clipboard.png

实例

clipboard.png

编码提升传输速率

HTTP 在传输数据时可以按照数据原貌直接传输,但也可以在传输过 程中通过编码提升传输速率,但是,编码的操作需要计算机来完成,因此会消耗更多 的 CPU 等资源

报文主体和实用主体的差异
通常,报文主体等于实体主体。只有当传输中进行编码操作时,实体 主体的内容发生变化,才导致它和报文主体产生差异

压缩传输的内容编码

向待发送邮件内增加附件时,为了使邮件容量变小,我们会先用 ZIP 压缩文件之后再添加附件发送。HTTP 协议中有一种被称为内容编码 的功能也能进行类似的操作
内容编码指明应用在实体内容上的编码格式,并保持实体信息原样压缩。内容编码后的实体由客户端接收并负责解码

clipboard.png
常见的内容编码有以下几种:
gzip
compress(UNIX系统的标准压缩)
deflate(zlib)
indenity(不进行编码)

分割发送的分块传输编码

在 HTTP 通信过程中,请求的编码实体资源尚未全部传输完成之前, 浏览器无法显示请求页面。在传输大容量数据时,通过把数据分割成 多块,能够让浏览器逐步显示页面。

clipboard.png

分块传输编码会将实体主体分成多个部分(块)。每一块都会用十六 进制来标记块的大小,而实体主体的最后一块会使用“0(CR+LF)”来标 记。

发送多种数据的多部分对象集合

clipboard.png
我们可以在邮件里写入文字并添加多份附件,这是因为 采用了 MIME,它允许邮件处理文本、图片、视频等多个不同类型的,发送的一份报文主 体内可含有多类型实体,多部分对象集合包含的对象如下:
multipart/form-data
multipart/byteranges

获取部分内容的范围请求

由于以前网速很慢下载一个东西很难,若是中间中断了重头开始的话又要等很久,所以出现了可恢复机制:能从之前下载中断处恢复下载。
实例:

clipboard.png

内容协商返回最合适的内容

内容协商的定义:内容协商机制是指客户端和服务器端就响应的资源内容进行交涉,然 后提供给客户端最为适合的资
同一个 Web 网站有可能存在着多份相同内容的页面。比如英语版和 中文版的 Web 页面,它们内容上虽相同,但使用的语言却不同
当浏览器的默认语言为英语或中文,访问相同 URI 的 Web 页面时, 则会显示对应的英语版或中文版的 Web 页面。这样的机制称为内容协商

clipboard.png

内容协商有三种类型:
服务端驱动(选择出来的内容可能会不太符合用户的需求)
客户端驱动
服务端与客户端共同驱动(称为透明协商)

返回结果的HTTP状态码

HTTP 状态码负责表示客户端 HTTP 请求的返回结果、标记服务器端 的处理是否正常、通知出现的错误等工作。

状态码类型

clipboard.png

clipboard.png

2XX成功

2XX 的响应结果表明请求被正常处理了

200OK

clipboard.png
表示从客户端发来的请求在服务器端被正常处理了

204 NOT CONTENT

clipboard.png
该状态码代表服务器接收的请求已成功处理,但在返回的响应报文中 不含实体的主体部分
返回 204 响应,那么浏览器显示的页面不发生更新

206 Partial Content

clipboard.png
该状态码表示客户端进行了范围请求,而服务器成功执行了这部分的 GET 请求

3XX重定向

3XX 响应结果表明浏览器需要执行某些特殊的处理以正确处理请求

301 Moved Permanently

clipboard.png
永久性重定向。该状态码表示请求的资源已被分配了新的 URI,以后 应使用资源现在所指的 URI
像下方给出的请求 URI,当指定资源路径的最后忘记添加斜杠“/”,就 会产生 301 状态码。

http://example.com/sample
302 Found

clipboard.png
临时性重定向。该状态码表示请求的资源已被分配了新的 URI,希望 用户(本次)能使用新的 URI 访问
和 301 Moved Permanently 状态码相似,但 302 状态码代表的资源不 是被永久移动,只是临时性质的

303 See Other

clipboard.png
该状态码表示由于请求对应的资源存在着另一个 URI,应使用 GET 方法定向获取请求的资源。
303 状态码和 302 Found 状态码有着相同的功能,但 303 状态码明确 表示客户端应当采用 GET 方法获取资源
当 301、302、303 响应状态码返回时,几乎所有的浏览器都会把 POST 改成 GET,并删除请求报文内的主体,之后请求会自动再次发送
301、302 标准是禁止将 POST 方法改变成 GET 方法的,但实际使 用时大家都会这么做

304 Not Modified

clipboard.png
该状态码表示客户端发送附带条件的请求时,服务器端允许请求访问资源,但未满足条件的情况。304 状态码返回时,不包含任何响应 的主体部分。304 虽然被划分在 3XX 类别中,但是和重定向没有关系

307 Temporary Redirect
临时重定向。该状态码与 302 Found 有着相同的含义。尽管 302 标准禁止POST变换成 GET,但实际使用时大家并不遵守

4XX 客户端错误

4XX 的响应结果表明客户端是发生错误的原因所在
400 Bad Request
clipboard.png
该状态码表示请求报文中存在语法错误。当错误发生时,需修改请求 的内容后再次发送请求
401 Unauthorized

clipboard.png
该状态码表示发送的请求需要有通过 HTTP 认证(BASIC 认证、 DIGEST 认证)的认证信息

403 Forbidden

clipboard.png
该状态码表明对请求资源的访问被服务器拒绝了。服务器端没有必要 给出拒绝的详细理由,但如果想作说明的话,可以在实体的主体部分,对原因进行描述,这样就能让用户看到了

404 Not Found

clipboard.png
该状态码表明服务器上无法找到请求的资源。除此之外,也可以在服 务器端拒绝请求且不想说明理由时使用

5XX 服务器错误

5XX 的响应结果表明服务器本身发生错误

500 Internal Server Error

clipboard.png
该状态码表明服务器端在执行请求时发生了错误。也有可能是 Web 应用存在的 bug 或某些临时的故障

503 Service Unavailable

clipboard.png
该状态码表明服务器暂时处于超负载或正在进行停机维护,现在无法 处理请求。
如果事先得知解除以上状况需要的时间,最好写入 RetryAfter 首部字段再返回给客户端


少年版
171 声望14 粉丝

希望自已给力一点,再多努力一点