2

文章目录
一、网络的由来?
二、网络协议介绍
三、五层模型讲解
3.1、物理层
3.2 数据链路层
3.2.1 Ethernet 以太网
3.2.1.1 以太网协议
3.2.1.2 数据帧传输
3.2.1.3 mac地址
3.2.1.4 单播
3.2.1.5 广播
3.2.1.6 组播
3.2.1.7 总结
3.2.2 MTU
3.2.2.1 路径MTU
3.2.2.2 路径MTU的发现方法
3.2.2.3 TraceRoute
3.3、网络层
3.3.1 IP协议:
3.3.2 子网掩码
3.3.3 ip数据包
3.3.3.1 IP数据包组成
3.3.3.2 IP分片原理
3.3.3.3 掌握ip选路
3.3.4 ARP协议
3.3.4.1 arp报文格式
3.3.4.2 arp 查询原理
3.3.4.3 arp 缓存
3.3.5 ICMP协议
3.4、传输层
3.4.1 udp协议
3.4.2 tcp协议
3.4.2.1 tcp报文
3.4.2.2 tcp 连接控制
3.4.2.3 TCP流量控制机制(四个机制=4个算法)
3.4.2.4 超时重传机制
3.4.3 为什么UDP和TCP要有伪首部
3.5、应用层
3.5.1 DNS 协议
3.5.2 FTP 协议
3.5.3 http协议
3.5.3 https 协议
3.6、Socket
三、网络通信实现
3、1 每台主机实现网络通信的基本四要素
3.2 获取这四要素分两种方式
3.2.1 静态获取
3.2.3 动态获取
四、例举主机访问网站的网络通信过程
4.1整个过程基本分做下面几个部分
4.2下面分别进行详细说明
4.2.1域名解析成IP地址
4.2.2 与目的主机进行TCP连接(三次握手)
4.2.3 发送与收取数据
4.2.4 与目的主机断开TCP连接(四次挥手)
4.2.5 总结一下

一、网络的由来?
互联网的本质就是一系列的网络协议。

一台硬设有了操作系统,然后装上软件你就可以正常使用了,每个人都拥有一台自己的机器,然而彼此孤立。

如何能让大家一起玩耍,就有了初步的网络,其实两台计算机之间通信与两个人打电话之间通信的原理是一样的,普通话属于中国国内人与人之间通信的标准,那如果是两个国家的人交流呢?问题是,你不可能要求一个人/计算机掌握全世界的语言/标准,于是有了世界统一的通信标准:英语

结论:英语成为世界上所有人通信的统一标准,如果把计算机看成分布于世界各地的人,那么连接两台计算机之间的internet实际上就是一系列统一的标准,这些标准称之为互联网协议,互联网的本质就是一系列的协议,总称为’互联网协议’(Internet Protocol Suite).

互联网协议的功能:定义计算机如何接入internet,以及接入internet的计算机通信的标准。

二、网络协议介绍
互联网协议按照功能不同分为osi七层或tcp/ip五层
image.png

分层模型-TCP/IP
image.png

TCP/IP模型同样采用了分层结构,层与层相对独立但是相互之间也具备非常密切的协作关系。

TCP/IP模型将网络分为四层。TCP/IP模型不关注底层物理介质,主要关注终端之间的逻辑数据流转发。TCP/IP模型的核心是网络层和传输层:网络层解决网络之间的逻辑转发问题,传输层保证源端到目的端之间的可靠传输。最上层的应用层通过各种协议向终端用户提供业务应用。

每层运行常见物理设备
image.png

数据封装
image.png

应用数据需要经过TCP/IP每一层处理之后才能通过网络传输到目的端,每一层上都使用该层的协议数据单元PDU(ProtocolDataUnit)彼此交换信息。

Segment(数据段):如上层数据在传输层添加TCP报头后得到的PDU;
Packet(数据包):数据段被传递给网络层,网络层添加IP报头得到的PDU;
Frame(数据帧):数据包被传递到数据链路层,封装数据链路层报头得到的PDU;
最后,帧被转换为比特,通过网络介质传输。这种协议栈逐层向下传递数据,并添加报头和报尾的过程称为封装。

三、五层模型讲解
我们将应用层,表示层,会话层并作应用层,从tcp/ip五层协议的角度来阐述每层的由来与功能,搞清楚了每层的主要协议,就理解了整个互联网通信的原理。

首先,用户感知到的只是最上面一层应用层,自上而下每层都依赖于下一层,所以我们从最下一层开始切入,比较好理解每层都运行特定的协议,越往上越靠近用户,越往下越靠近硬件

3.1、物理层
上面提到,孤立的计算机之间要想一起玩,就必须接入internet,言外之意就是计算机之间必须完成组网
image.png

物理层功能:主要是基于电器特性发送高低电压(电信号),高电压对应数字1,低电压对应数字0

3.2 数据链路层
单纯的电信号0和1没有任何意义,必须规定电信号多少位一组,每组什么意思

数据链路层的功能:定义了电信号的分组方式

3.2.1 Ethernet 以太网
Ethernet帧格式的发展

1980 DEC,Intel,Xerox制订了Ethernet I的标准
1982 DEC,Intel,Xerox又制订了Ehternet II的标准
1982 IEEE开始研究Ethernet的国际标准802.3
1983 迫不及待的Novell基于IEEE的802.3的原始版开发了专用的Ethernet帧格式
1985 IEEE推出IEEE 802.3规范,后来为解决EthernetII与802.3帧格式的兼容问题,
推出折衷的Ethernet SNAP格式

(其中早期的Ethernet I已经完全被其他帧格式取代了 ,所以现在Ethernet只能见到后面几种Ethernet的帧格式,
现在大部分的网络设备都支持这几种Ethernet的帧格式,
如:cisco的路由器再设定Ethernet接口时可以指定不同的以太网的帧格式:arpa,sap,snap,novell-ether)

3.2.1.1 以太网协议
数据包在以太网物理介质上传播之前必须封装头部和尾部信息。封装后的数据包称为称为数据帧,数据帧中封装的信息决定了数据如何传输。以太网上传输的数据帧有两种格式,选择哪种格式由TCP/IP协议簇中的网络层决定。

早期的时候各个公司都有自己的分组方式,后来形成了统一的标准,即以太网协议ethernet

ethernet规定:一组电信号构成一个数据包,叫做’帧’,每一数据帧分成:报头head和数据data两部分

Ethernet_II帧格式:
image.png

Ethernet_II的帧中各字段说明如下:

head包含:(固定14个字节)
发送者/源地址,6个字节
接收者/目标地址,6个字节
数据类型 2个字节,类型字段(Type)用于标识数据字段中包含的高层协议。类型字段取值为0x0800的帧代表IP协议帧;类型字段取值为0806的帧代表ARP协议帧。
data包含:(最短46字节,最长1500字节)
数据包的具体内容:head长度+data长度=最短64字节,最长1518字节,超过最大限制就分片发送
FCS 循环冗余校验字段提供了一种错误检测机制。该字段长度为4个字节。
3.2.1.2 数据帧传输
image.png

数据链路层基于MAC地址进行帧的传输。
以太网在二层链路上通过MAC地址来唯一标识网络设备,并且实现局域网上网络设备之间的通信。MAC地址也叫物理地址,大多数网卡厂商把MAC地址烧入了网卡的ROM中。发送端使用接收端的MAC地址作为目的地址。以太帧封装完成后会通过物理层转换成比特流在物理介质上传输。

3.2.1.3 mac地址
head中包含的源和目标地址由来:ethernet规定接入internet的设备都必须具备网卡,发送端和接收端的地址便是指网卡的地址,即mac地址。
image.png

mac地址:每块网卡出厂时都被烧制上一个世界唯一的mac地址,长度为48位2进制,通常由12位16进制数表示(前六位是厂商编号,后六位是流水线号)
image.png

例如,华为的网络产品的MAC地址前24比特是0x00e0fc。后24位序列号是厂商分配给每个产品的唯一数值,由各个厂商自行分配(这里所说的产品可以是网卡或者其他需要MAC地址的设备)。

3.2.1.4 单播
image.png
局域网上的帧可以通过三种方式发送。第一种是单播,指从单一的源端发送到单一的目的端。每个主机接口由一个MAC地址唯一标识,MAC地址的OUI中,第一字节第8个比特表示地址类型。对于主机MAC地址,这个比特固定为0,表示目的MAC地址为此MAC地址的帧都是发送到某个唯一的目的端。在冲突域中,所有主机都能收到源主机发送的单播帧,但是其他主机发现目的地址与本地MAC地址不一致后会丢弃收到的帧,只有真正的目的主机才会接收并处理收到的帧。

3.2.1.5 广播
有了mac地址,同一网络内的两台主机就可以通信了(一台主机通过arp协议获取另外一台主机的mac地址)ethernet采用最原始的方式,广播的方式进行通信,即计算机通信基本靠吼
image.png
第二种发送方式是广播,表示帧从单一的源发送到共享以太网上的所有主机。广播帧的目的MAC地址为十六进制的FF:FF:FF:FF:FF:FF,所有收到该广播帧的主机都要接收并处理这个帧。

广播方式会产生大量流量,导致带宽利用率降低,进而影响整个网络的性能。

当需要网络中的所有主机都能接收到相同的信息并进行处理的情况下,通常会使用广播方式。

3.2.1.6 组播
第三种发送方式为组播,组播比广播更加高效。组播转发可以理解为选择性的广播,主机侦听特定组播地址,接收并处理目的MAC地址为该组播MAC地址的帧。

组播MAC地址和单播MAC地址是通过第一字节中的第8个比特区分的。组播MAC地址的第8个比特为1,而单播MAC地址的第8个比特为0。

当需要网络上的一组主机(而不是全部主机)接收相同信息,并且其他主机不受影响的情况下通常会使用组播方式。

3.2.1.7 总结
网络设备如何确定以太网数据帧的上层协议?

以太网帧中包含一个Type字段,表示帧中的数据应该发送到上层哪个协议处理。比如,IP协议对应的Type值为0x0800,ARP协议对应的Type值为0x0806。

终端设备接收到数据帧时,会如何处理?

主机检查帧头中的目的MAC地址,如果目的MAC地址不是本机MAC地址,也不是本机侦听的组播或广播MAC地址,则主机会丢弃收到的帧。如果目的MAC地址是本机MAC地址,则接收该帧,检查帧校验序列(FCS)字段,并与本机计算的值对比来确定帧在传输过程中是否保持了完整性。如果检查通过,就会剥离帧头和帧尾,然后根据帧头中的Type字段来决定把数据发送到哪个上层协议进行后续处理。

Ethernet II比IEEE802.3 SAP和SNAP更适合于传输大量的数据,但Ethernet II缺乏对数据链路层的控制,不利于传输需要严格传输控制的数据。实际中,大多数应用程序的以太网数据包都是Ethernet II帧的(HTTP/Telnet/FTP/SMTP/PO P3等应用),而交换机之间的BPDU是采用IEEE802.3 SAP帧,VLAN Trunk协议802.1Q和Cisco CDP都是采用IEEE802.3 SNAP帧。

3.2.2 MTU
MTU即Maximum Transmission Unit 最大传输单元。它是指一种通信协议的某一层上面所能通过的最大数据包大小(以字节为单位)。

3.2.2.1 路径MTU
路径MTU是指一条因特网传输路径中,从源地址到目的地址所经过的“路径”上的所有IP跳的最大传输单元的最小值。
或者从另外一个角度来看,就是无需进行分片处理就能穿过这条“路径”的最大传输单元的最大值。

3.2.2.2 路径MTU的发现方法
这是确定两个IP主机之间路径最大传输单元的技术,其目的就是为了避免IP分片。
首先源地址将数据报的DF位置位,在逐渐增大发送的数据报的大小——路径上任何需要将分组进行分片的设备都会将这种数据报丢弃并返回“数据报过大“的ICMP响应
到源地址——这样源主机就”学习“到了无需分片就能通过这条路径的最大的最大传输单元。

3.2.2.3 TraceRoute
Traceroute是用来侦测主机到目的主机之间所经路由情况的重要工具。
它的原理如下:它受到目的主机的IP后,首先给目的主机发送一个TTL=1的UDP数据包(每次送出的为3个40字节的包,包括源地址,目的地址和包发出的时间标签),
而经过的第一个路由器收到这个数据包以后,就自动把TTL减1,而TTL变为0以后,路由器就把这个包给抛弃了,并同时产生 一个主机不可达的ICMP数据报给主机。
主机收到这个数据报以后再发一个TTL=2的UDP数据报给目的主机,然后刺激第二个路由器给主机发ICMP数据报。如此往复直到到达目的主机。这样,traceroute就拿到了所有的路由器ip。

Traceroute提取发送 ICMP TTL到期消息设备的IP地址并作域名解析。每次 ,Traceroute都打印出一系列数据,包括所经过的路由设备的域名及 IP地址,三个包每次来回所花时间。
image.png

3.3、网络层
有了ethernet、mac地址、广播的发送方式,世界上的计算机就可以彼此通信了,问题是世界范围的互联网是由一个个彼此隔离的小的局域网组成的,那么如果所有的通信都采用以太网的广播方式,那么一台机器发送的包全世界都会收到,这就不仅仅是效率低的问题了,这会是一种灾难
image.png

上图结论:必须找出一种方法来区分哪些计算机属于同一广播域,哪些不是,如果是就采用广播的方式发送,如果不是,就采用路由的方式(向不同广播域/子网分发数据包),mac地址是无法区分的,它只跟厂商有关。

网络层功能:引入一套新的地址用来区分不同的广播域/子网,这套地址即网络地址

3.3.1 IP协议:
规定网络地址的协议叫ip协议,它定义的地址称之为ip地址,广泛采用的v4版本即ipv4,它规定网络地址由32位2进制表示,范围0.0.0.0-255.255.255.255,一个ip地址通常写成四段十进制数,例:172.16.10.1

ip地址分成两部分:

网络部分:标识子网
主机部分:标识主机
注意:单纯的ip地址段只是标识了ip地址的种类,从网络部分或主机部分都无法辨识一个ip所处的子网

例:172.16.10.1与172.16.10.2并不能确定二者处于同一子网

3.3.2 子网掩码
所谓"子网掩码",就是表示子网络特征的一个参数。它在形式上等同于IP地址,也是一个32位二进制数字,它的网络部分全部为1,主机部分全部为0。比如,IP地址172.16.10.1,如果已知网络部分是前24位,主机部分是后8位,那么子网络掩码就是11111111.11111111.11111111.00000000,写成十进制就是255.255.255.0。

知道"子网掩码",我们就能判断,任意两个IP地址是否处在同一个子网络。方法是将两个IP地址与子网掩码分别进行AND运算(两个数位都为1,运算结果为1,否则为0),然后比较结果是否相同,如果是的话,就表明它们在同一个子网络中,否则就不是。

比如,已知IP地址172.16.10.1和172.16.10.2的子网掩码都是255.255.255.0,请问它们是否在同一个子网络?两者与子网掩码分别进行AND运算,

image.png

总结一下,IP协议的作用主要有两个:一个是为每一台计算机分配IP地址,另一个是确定哪些地址在同一个子网络。

3.3.3 ip数据包
3.3.3.1 IP数据包组成
ip数据包也分为head和data部分,无须为ip包定义单独的栏位,直接放入以太网包的data部分

head:长度为20到60字节
data:最长为65,515字节。
而以太网数据包的"数据"部分,最长只有1500字节。因此,如果IP数据包超过了1500字节,它就需要分割成几个以太网数据包,分开发送了。

掌握IP首部格式如16位分片标识、DF不分片标志、MF更多分片标志↓13位片偏移,8位生存时间TTL,16位的首部检验和等等

3.3.3.2 IP分片原理
如何避免ip分片(在应用层或传输层做限制),确定ip分片的顺序,客户端如何确认分片全部到达

3.3.3.3 掌握ip选路
3.3.4 ARP协议
arp协议由来:计算机通信基本靠吼,即广播的方式,所有上层的包到最后都要封装上以太网头,然后通过以太网协议发送,在谈及以太网协议时候,我门了解到通信是基于mac的广播方式实现,计算机在发包时,获取自身的mac是容易的,如何获取目标主机的mac,就需要通过arp协议

arp协议功能:广播的方式发送数据包,获取目标主机的mac地址

协议工作方式:每台主机ip都是已知的
image.png

3.3.4.1 arp报文格式
3.3.4.2 arp 查询原理
3.3.4.3 arp 缓存
3.3.5 ICMP协议
掌握ICMP协议的报文格式、报文的两大分类: 查询+差错,2种查询报文+ 5种差错报文

3.4、传输层
网络层的ip帮我们区分子网,以太网层的mac帮我们找到主机,然后大家使用的都是应用程序,你的电脑上可能同时开启qq,暴风影音,等多个应用程序,那么我们通过ip和mac找到了一台特定的主机,如何标识这台主机上的应用程序,答案就是端口,端口即应用程序与网卡关联的编号。

传输层功能:建立端口到端口的通信

补充:端口范围0-65535,0-1023为系统占用端口

3.4.1 udp协议
掌握UDP协议:包括特点+首部各个字段

不可靠传输,"报头"部分一共只有8个字节,总长度不超过65,535字节,正好放进一个IP数据包。

3.4.2 tcp协议
可靠传输,TCP数据包没有长度限制,理论上可以无限长,但是为了保证网络的效率,通常TCP数据包的长度不会超过IP数据包的长度,以确保单个TCP数据包不必再分割。

3.4.2.1 tcp报文
掌握TCP协议:特点十 首部字段 +可靠机制厂
image.png

3.4.2.2 tcp 连接控制
五种情况:三次握手、四次挥手、同时打开、同时关闭、半关闭
image.png

3.4.2.3 TCP流量控制机制(四个机制=4个算法)
滑动窗口、 慢启动、拥塞避免、快速重传、快速恢复

3.4.2.4 超时重传机制
各种定时器

3.4.3 为什么UDP和TCP要有伪首部
3.5、应用层
用户使用的都是应用程序,均工作于应用层,互联网是开发的,大家都可以开发自己的应用程序,数据多种多样,必须规定好数据的组织形式

应用层功能:规定应用程序的数据格式。

例:TCP协议可以为各种各样的程序传递数据,比如Email、WWW、FTP等等。那么,必须有不同协议规定电子邮件、网页、FTP数据的格式,这些应用程序协议就构成了"应用层"。
image.png

3.5.1 DNS 协议
掌握DNS协议的名字空间、DNS指针查询(反向查找或逆向解近)基本原理,DNS缓存

3.5.2 FTP 协议
两条连接:控制连接+数据连接;
两种工作模式: PASV + PORT;
各种FTP指令 和 响应码;
FTP断点续传、 匿名FTP;

3.5.3 http协议
掌握开TP协议:
1.报文格式:请求报文、响应报文、请求头各种字段、 响应头各种字段

  1. http状态码

3.5.3 https 协议
https协议:

https的详细握手过程
2.摘要算法、数字签名、数学证书的原理和过程
3.6、Socket
我们知道两个进程如果需要进行通讯最基本的一个前提能能够唯一的标示一个进程,在本地进程通讯中我们可以使用PID来唯一标示一个进程,但PID只在本地唯一,网络中的两个进程PID冲突几率很大,这时候我们需要另辟它径了,我们知道IP层的ip地址可以唯一标示主机,而TCP层协议和端口号可以唯一标示主机的一个进程,这样我们可以利用ip地址+协议+端口号唯一标示网络中的一个进程。

能够唯一标示网络中的进程后,它们就可以利用socket进行通信了,什么是socket呢?我们经常把socket翻译为套接字,socket是在应用层和传输层之间的一个抽象层,它把TCP/IP层复杂的操作抽象为几个简单的接口供应用层调用已实现进程在网络中通信。
image.png

socket起源于UNIX,在Unix一切皆文件哲学的思想下,socket是一种"打开—读/写—关闭"模式的实现,服务器和客户端各自维护一个"文件",在建立连接打开后,可以向自己文件写入内容供对方读取或者读取对方内容,通讯结束时关闭文件。

三、网络通信实现
3、1 每台主机实现网络通信的基本四要素
本机的IP地址
子网掩码
网关的IP地址
DNS的IP地址
3.2 获取这四要素分两种方式
3.2.1 静态获取
即手动配置

3.2.3 动态获取
通过dhcp获取

最前面的"以太网标头",设置发出方(本机)的MAC地址和接收方(DHCP服务器)的MAC地址。前者就是本机网卡的MAC地址,后者这时不知道,就填入一个广播地址:FF-FF-FF-FF-FF-FF。
后面的"IP标头",设置发出方的IP地址和接收方的IP地址。这时,对于这两者,本机都不知道。于是,发出方的IP地址就设为0.0.0.0,接收方的IP地址设为255.255.255.255。
最后的"UDP标头",设置发出方的端口和接收方的端口。这一部分是DHCP协议规定好的,发出方是68端口,接收方是67端口。
这个数据包构造完成后,就可以发出了。以太网是广播发送,同一个子网络的每台计算机都收到了这个包。因为接收方的MAC地址是FF-FF-FF-FF-FF-FF,看不出是发给谁的,所以每台收到这个包的计算机,还必须分析这个包的IP地址,才能确定是不是发给自己的。当看到发出方IP地址是0.0.0.0,接收方是255.255.255.255,于是DHCP服务器知道"这个包是发给我的",而其他计算机就可以丢弃这个包。

接下来,DHCP服务器读出这个包的数据内容,分配好IP地址,发送回去一个"DHCP响应"数据包。这个响应包的结构也是类似的,以太网标头的MAC地址是双方的网卡地址,IP标头的IP地址是DHCP服务器的IP地址(发出方)和255.255.255.255(接收方),UDP标头的端口是67(发出方)和68(接收方),分配给请求端的IP地址和本网络的具体参数则包含在Data部分。

新加入的计算机收到这个响应包,于是就知道了自己的IP地址、子网掩码、网关地址、DNS服务器等等参数。

四、例举主机访问网站的网络通信过程
首先打开浏览器,在地址栏输入URL,回车,出现网站内容。这是我们几乎每天都在做的事,那这个过程中到底是什么原理呢?HTTP、TCP、DNS、IP这些耳熟能详的名词都在什么时候起着什么作用呢?在这里整体梳理一遍。

4.1整个过程基本分做下面几个部分
域名解析成IP地址;
与目的主机进行TCP连接(三次握手);
发送与收取数据;
与目的主机断开TCP连接(四次挥手);
4.2下面分别进行详细说明
4.2.1域名解析成IP地址
首先说什么是域名解析?

我们在浏览器地址栏中输入的都是类似"www.baidu.com"、"www.qq.com"等等容易记忆的英文域名,但这些字母你直接交给整个网络线路去寻找目的主机找得到吗?找不到,因为每个主机在网络中的位置都是以IP标识的,IP才是主机在网络中的位置,域名只是为了方便用户记忆而已,这就要求浏览器能够识别域名并且将其转化为对应的IP地址。

所以浏览器会有一个DNS缓存,其中记录了一些域名与IP的对应关系,供浏览器快速查找需要的IP。但是这个DNS缓存不可能存下所有的域名-IP地址,何况IP地址有时候还会变化,因此当在DNS缓存中没有找到的时候,就要先向DNS服务器请求域名解析,我们常听到的DNS服务器很大的作用就是进行域名解析。

值得一提的是,DNS域名解析时用的是UDP协议。

整个域名解析的过程如下:

浏览器向本机DNS模块发出DNS请求,DNS模块生成相关的DNS报文;
DNS模块将生成的DNS报文传递给传输层的UDP协议单元;
UDP协议单元将该数据封装成UDP数据报,传递给网络层的IP协议单元;
IP协议单元将该数据封装成IP数据包,其目的IP地址为DNS服务器的IP地址;
封装好的IP数据包将传递给数据链路层的协议单元进行发送;
发送时在ARP缓存中查询相关数据,如果没有,就发送ARP广播(包含待查询的IP地址,收到广播的主机检查自己的IP,符合条件的主机将含有自己MAC地址的ARP包发送给ARP广播的主机)请求,等待ARP回应;
得到ARP回应后,将IP地址与路由的下一跳MAC地址对应的信息写入ARP缓存表;
写入缓存后,以路由下一跳的地址填充目的MAC地址,以数据帧形式转发;
转发可能进行多次;
DNS请求到达DNS服务器的数据链路层协议单元;
DNS服务器的数据链路层协议单元解析数据帧,将内部的IP数据包传递给网络层IP协议单元;
DNS服务器的IP协议单元解析IP数据包,将内部的UDP数据报传递给传输层UDP协议单元;
DNS服务器的UDP协议单元解析收到的UDP数据报,将内部的DNS报文传递给DNS服务单元;
DNS服务单元将域名解析成对应IP地址,产生DNS回应报文;
DNS回应报文->UDP->IP->MAC->我的主机;
我的主机收到数据帧,将数据帧->IP->UDP->浏览器;
将域名解析结果以域名和IP地址对应的形式写入DNS缓存表。
其中提到了一个ARP的概念,类似于DNS将域名翻译成IP,ARP则是将IP翻译成MAC地址,我们知道了IP后,需要通过主机的MAC地址来更具体的找到主机。同样的也有一个ARP缓存,其中存储了一些IP与MAC地址的对应关系,如果缓存中找不到,就会进行广播来查找MAC地址,收到广播的主机会检查自己的IP是否是待查找的IP,是的话就返回自己的MAC地址。

端口:如果做开发,往往还会接触到端口这个概念,那端口是什么呢?这里是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等,都有一些固定的端口号,被占用后就不能被别的服务拿来传输数据了。

4.2.2 与目的主机进行TCP连接(三次握手)
得到域名对应的IP地址后,也就表示可以将数据送达目的主机了,这时候才开始我们常说的三次握手建立连接。

HTTP的请求时使用TCP进行传输的,可以保证可靠传输,并且有序,而TCP是有连接的传输,也就是在传输数据之前,会建立我的主机与目的主机之间的连接,然后才能传输数据,传输完成后,还有断开连接。这也就是TCP的三次握手和四次挥手,大致过程如下图所示:
image.png

具体的三次握手建立连接的过程如下表述,其中数据包的传输过程类似上文请求DNS服务器时的过程,就简单的表示一下:

向目的主机发送TCP连接请求报文;
该TCP报文中SYN标志位设为1,表示连接请求;
该TCP报文通过IP(DNS)->MAC(ARP)->网关->目的主机;
目的主机收到数据帧,通过IP->TCP,TCP协议单元回应请求应答报文;
该报文中SYN和ACK标志设为1,表示连接请求应答;
该TCP报文通过IP(DNS)->MAC(ARP)->网关->我的主机;
我的主机收到数据帧,通过IP->TCP,TCP协议单元回应请求确认报文;
该TCP报文通过IP(DNS)->MAC(ARP)->网关->目的主机;
目的主机收到数据帧,通过IP->TCP,连接建立完成。
三次握手的过程就是一去一回一去,互相确认一下,就建立连接啦。这个过程中任何一个报文出错或者超时,都要进行重传。

4.2.3 发送与收取数据
如上所说,只有建立连接后才能开始传输数据,数据其实有多种传输方式,比如分段啊分组啊分时啊等等。而一个数据包的传输过程如下所示,以HTTP的GET方法请求为例:

浏览器向域名发出GET方法报文;
该GET方法报文通过TCP->IP(DNS)->MAC(ARP)->网关->目的主机;
目的主机收到数据帧,通过IP->TCP->HTTP,HTTP协议单元会回应HTTP协议格式封装好的HTML形式数据;
该HTML数据通过TCP->IP(DNS)->MAC(ARP)->网关->我的主机;
我的主机收到数据帧,通过IP->TCP->HTTP->浏览器,浏览器以网页形式显示HTML内容。
其他的HTTP方法在传输数据时方法都类似,只是所携带的内容不同。

4.2.4 与目的主机断开TCP连接(四次挥手)
数据传输完成后需要断开连接,与建立时不同,断开连接需要多一次,有四次挥手,至于为什么,看完过程我们再讲。

看图理解过程:
image.png

过程如下:

浏览器向目的主机发出TCP连接结束请求报文,此时进入FIN WAIT状态;
该报文FIN标志位设为1,表示结束请求;
TCP结束请求报文通过IP(DNS)->MAC(ARP)->网关->目的主机;
目的主机收到数据帧,通过IP->TCP,TCP协议单元回应结束应答报文;
当前只是进行回应,因为目的主机可能还有数据要传,并不急着断开连接;
该报文中ACK标志位设为1,表示收到结束请求;
目的数据发送完所有数据后,向我的主机发出TCP连接结束请求报文;
该报文FIN标志位设为1,表示结束请求;
TCP结束请求报文通过IP(DNS)->MAC(ARP)->网关->我的主机;
我的主机收到数据帧,通过IP->TCP,TCP协议单元回应结束应答报文,此时进入TIME WAIT状态,因为不相信网络是可靠的,如果目的主机没收到还可以重发;
该报文中的FIN标志位均设为1,表示结束应答;
该TCP回应报文通过IP(DNS)->MAC(ARP)->网关->目的主机;
目的主机关闭连接;
TIME WAIT等待结束后,没有收到回复,说明目的正常关闭了,我的主机也关闭连接。
这里的过程是以我的主机主动发起结束请求开始的,实际上也可以由目的主机主动发起,那么过程就会跟上面相反,但细节差不多。

FIN_WAIT状态是主动发起请求时等待确认信息,而TIME_WAIT状态是收到结束请求后发送确认信息后等待看是否需要重发。

现在来说说为什么断开连接时需要四次挥手呢?因为建立连接时目的主机可以直接发送SYN(同步)+ACK(应答)报文。而当断开时,目的主机收到FIN后可能还有数据要发,并不一定直接断开,所以先发送一次应答,告知我的主机收到了请求,等确认所有数据都发完了,再发送FIN,同时等待我的主机应答,这里的FIN和ACK就不能一起发送,所以需要四次。

4.2.5 总结一下
以上就是主机访问网站时的网络通信全过程,归纳起来就是:

首先要通过域名找到IP,如果缓存里没有就要请求DNS服务器;得到IP后开始于目的主机进行三次握手来建立TCP连接;连接建立后进行HTTP访问,传输并获取网页内容;传输完后与目的主机四次挥手来断开TCP连接。


半卷清詞
22 声望2 粉丝

天道酬勤,厚德载物