打开 浏览器 ,在地址栏输入 URL,回车,出现网站内容。这是我们几乎每天都在做的事,那这个过程中到底是什么原理呢?HTTP、TCP、DNS、IP 这些耳熟能详的名词都在什么时候起着什么作用呢?在这里整体梳理一遍。
整个过程基本分做下面几个部分:
1、域名解析成 IP 地址;
2、与目的主机进行 TCP 连接(三次握手);
3、发送与收取数据;
4、与目的主机断开 TCP 连接(四次挥手);
下面分别进行详细说明。
首先说什么是域名解析?
我们在浏览器地址栏中输入的都是类似 "www.baidu.com"、"www.qq.com" 等等容易记忆的英文域名,但这些字母你直接交给整个网络线路去寻找目的主机找得到吗?找不到,因为每个主机在网络中的位置都是以 IP 标识的,IP 才是主机在网络中的位置,域名只是为了方便用户记忆而已,这就要求浏览器能够识别域名并且将其转化为对应的 IP 地址。
所以浏览器会有一个 DNS 缓存,其中记录了一些域名与 IP 的对应关系,供浏览器快速查找需要的 IP。但是这个 DNS 缓存不可能存下所有的域名 - IP 地址,何况 IP 地址有时候还会变化,因此当在 DNS 缓存中没有找到的时候,就要先向 DNS 服务器请求域名解析,我们常听到的 DNS 服务器很大的作用就是进行域名解析。
值得一提的是,DNS 域名解析时用的是 UDP 协议。
整个域名解析的过程如下:
1、浏览器向本机 DNS 模块发出 DNS 请求,DNS 模块生成相关的 DNS 报文;
2、DNS 模块将生成的 DNS 报文传递给传输层的 UDP 协议单元;
3、UDP 协议单元将该数据封装成 UDP 数据报,传递给网络层的 IP 协议单元;
4、IP 协议单元将该数据封装成 IP 数据包,其目的 IP 地址为 DNS 服务器的 IP 地址;
5、封装好的 IP 数据包将传递给数据链路层的协议单元进行发送;
6、发送时在 ARP 缓存中查询相关数据,如果没有,就发送 ARP 广播(包含待查询的 IP 地址,收到广播的主机检查自己的 IP,符合条件的主机将含有自己 MAC 地址的 ARP 包发送给 ARP 广播的主机)请求,等待 ARP 回应;
7、得到 ARP 回应后,将 IP 地址与路由的下一跳 MAC 地址对应的信息写入 ARP 缓存表;
8、写入缓存后,以路由下一跳的地址填充目的 MAC 地址,以数据帧形式转发;
9、转发可能进行多次;
10、DNS 请求到达 DNS 服务器的数据链路层协议单元;
11、DNS 服务器的数据链路层协议单元解析数据帧,将内部的 IP 数据包传递给网络层 IP 协议单元;
12、DNS 服务器的 IP 协议单元解析 IP 数据包,将内部的 UDP 数据报传递给传输层 UDP 协议单元;
13、DNS 服务器的 UDP 协议单元解析收到的 UDP 数据报,将内部的 DNS 报文传递给 DNS 服务单元;
14、DNS 服务单元将域名解析成对应 IP 地址,产生 DNS 回应报文;
15、DNS 回应报文 ->UDP->IP->MAC-> 我的主机;
16、我的主机收到数据帧,将数据帧 ->IP->UDP-> 浏览器;
17、将域名解析结果以域名和 IP 地址对应的形式写入 DNS 缓存表。
其中提到了一个 ARP 的概念,类似于 DNS 将域名翻译成 IP,ARP 则是将 IP 翻译成 MAC 地址,我们知道了 IP 后,需要通过主机的 MAC 地址来更具体的找到主机。同样的也有一个 ARP 缓存,其中存储了一些 IP 与 MAC 地址的对应关系,如果缓存中找不到,就会进行广播来查找 MAC 地址,收到广播的主机会检查自己的 IP 是否是待查找的 IP,是的话就返回自己的 MAC 地址。
如果做开发,往往还会接触到端口这个概念,那端口是什么呢?这里是指 TCP/IP 协议中的端口,端口号的范围从 0 到 65535,比如用于浏览网页服务的 80 端口,用于 FTP 服务的 21 端口等等,都有一些固定的端口号,被占用后就不能被别的服务拿来传输数据了。
得到域名对应的 IP 地址后,也就表示可以将数据送达目的主机了,这时候才开始我们常说的三次握手建立连接。
HTTP 的请求时使用 TCP 进行传输的,可以保证可靠传输,并且有序,而 TCP 是有连接的传输,也就是在传输数据之前,会建立我的主机与目的主机之间的连接,然后才能传输数据,传输完成后,还有断开连接。这也就是 TCP 的三次握手和四次挥手,大致过程如下图所示:
具体的三次握手建立连接的过程如下表述,其中数据包的传输过程类似上文请求 DNS 服务器时的过程,就简单的表示一下:
1、向目的主机发送 TCP 连接请求报文;
2、该 TCP 报文中 SYN 标志位设为 1,表示连接请求;
3、该 TCP 报文通过 IP(DNS)->MAC(ARP)-> 网关 -> 目的主机;
4、目的主机收到数据帧,通过 IP->TCP,TCP 协议单元回应请求应答报文;
5、该报文中 SYN 和 ACK 标志设为 1,表示连接请求应答;
6、该 TCP 报文通过 IP(DNS)->MAC(ARP)-> 网关 -> 我的主机;
7、我的主机收到数据帧,通过 IP->TCP,TCP 协议单元回应请求确认报文;
8、该 TCP 报文通过 IP(DNS)->MAC(ARP)-> 网关 -> 目的主机;
9、目的主机收到数据帧,通过 IP->TCP,连接建立完成。
三次握手的过程就是一去一回一去,互相确认一下,就建立连接啦。这个过程中任何一个报文出错或者超时,都要进行重传。
如上所说,只有建立连接后才能开始传输数据,数据其实有多种传输方式,比如分段啊分组啊分时啊等等。而一个数据包的传输过程如下所示,以 HTTP 的 GET 方法请求为例:
1、浏览器向域名发出 GET 方法报文;
2、该 GET 方法报文通过 TCP->IP(DNS)->MAC(ARP)-> 网关 -> 目的主机;
3、目的主机收到数据帧,通过 IP->TCP->HTTP,HTTP 协议单元会回应 HTTP 协议格式封装好的 html 形式数据;
4、该 HTML 数据通过 TCP->IP(DNS)->MAC(ARP)-> 网关 -> 我的主机;
5、我的主机收到数据帧,通过 IP->TCP->HTTP-> 浏览器,浏览器以网页形式显示 HTML 内容。
其他的 HTTP 方法在传输数据时方法都类似,只是所携带的内容不同。
数据传输完成后需要断开连接,与建立时不同,断开连接需要多一次,有四次挥手,至于为什么,看完过程我们再讲。
这里再把图拿过来帮助理解:
过程如下:
1、浏览器向目的主机发出 TCP 连接结束请求报文,此时进入 FIN WAIT 状态;
2、该报文 FIN 标志位设为 1,表示结束请求;
3、TCP 结束请求报文通过 IP(DNS)->MAC(ARP)-> 网关 -> 目的主机;
4、目的主机收到数据帧,通过 IP->TCP,TCP 协议单元回应结束应答报文;
5、当前只是进行回应,因为目的主机可能还有数据要传,并不急着断开连接;
6、该报文中 ACK 标志位设为 1,表示收到结束请求;
7、目的数据发送完所有数据后,向我的主机发出 TCP 连接结束请求报文;
8、该报文 FIN 标志位设为 1,表示结束请求;
9、TCP 结束请求报文通过 IP(DNS)->MAC(ARP)-> 网关 -> 我的主机;
10、我的主机收到数据帧,通过 IP->TCP,TCP 协议单元回应结束应答报文,此时进入 TIME WAIT 状态,因为不相信网络是可靠的,如果目的主机没收到还可以重发;
11、该报文中的 FIN 标志位均设为 1,表示结束应答;
12、该 TCP 回应报文通过 IP(DNS)->MAC(ARP)-> 网关 -> 目的主机;
13、目的主机关闭连接;
14、TIME WAIT 等待结束后,没有收到回复,说明目的正常关闭了,我的主机也关闭连接。
这里的过程是以我的主机主动发起结束请求开始的,实际上也可以由目的主机主动发起,那么过程就会跟上面相反,但细节差不多。
FIN_WAIT 状态是主动发起请求时等待确认信息,而 TIME_WAIT 状态是收到结束请求后发送确认信息后等待看是否需要重发。
现在来说说为什么断开连接时需要四次挥手呢?因为建立连接时目的主机可以直接发送 SYN(同步)+ACK(应答)报文。而当断开时,目的主机收到 FIN 后可能还有数据要发,并不一定直接断开,所以先发送一次应答,告知我的主机收到了请求,等确认所有数据都发完了,再发送 FIN,同时等待我的主机应答,这里的 FIN 和 ACK 就不能一起发送,所以需要四次。
来源: https://www.2cto.com/kf/201712/708599.html