前言
作为一名软件工程师, Linux 相关的知识是一个不可或缺的技能点, 而网络问题往往是初学者接触 Linux 时最先碰到的一只拦路虎, 本篇博客将系统的讲解一个解决 Linux 网络问题的通用方法论, 一个科学的方法论往往能达到事半功倍的效果.
本篇博客侧重点不是讲解计算机网络的相关知识, 所以假定你有一定的网络基础, 如果没有的话, 可以先看看我文末的推荐书单.
本篇博客是基于 Ubuntu 18.04 来写的, 使用 cat /etc/issue 可查看版本, 对于其他版本的 Linux 发行版, 部分命令可能会有所不同, 但本质都是一样的.
整体图景
首先, 要解决网络问题, 哪么你必须要了解网络的分层结构和拓扑结构, 这会让你对整个网络有一个宏观的认知, 对你定位问题有极大的帮助.
对于网络的分层结构, 你需要知道每一层都有哪些常用的协议, 并了解协议的相关原理, 因为后面我们提到的工具都是利用相应的协议来工作的.
对于网络的拓扑结构, 你需要知道一个数据包在内网和公网中是怎么流动的, 还有交换机和路由器的区别是什么.
问题定位
网络出了问题, 无非就是硬件问题和软件问题.
硬件问题
这个问题涉及的面比较广, 比如网线没插好, 路由器坏了, 等等. 其实这个属于小概率事件, 一般出了问题可能得相关专业的维修人员来解决, 作为软件工程师, 我们关注的点是软件问题.
软件问题
对于一般的电脑使用者, 上不了网了, 大概率就指的是上不了百度等网站. 但是作为软件工程师, 我们得明确为什么上不了网了, 到底是网络的那一层出现了问题?
一般排查问题的思路有两种, 自底向上和自顶向下, 这两种思路本质都是一样的, 本篇文章就自底向上来排查网络问题.
网卡是否正常工作?(链路层)
这个问题严格来说是属于硬件问题, 但是我们可以使用命令来操作网卡, 在软件行业, 重启可能会解决一大部分问题.
如下图所示, 使用 ifconfig 查看网卡信息, 显示的结果应该会有多条, 有虚拟机创建的虚拟网卡, 还有你电脑的真实网卡, 我们关注的网卡一般叫 ens33, 或者 eth0, 这个不重要, 只是一个名称.
然后我们使用 ifdown ens33 来关掉它, 再使用 ifup ens33 来启动它(ens33 是你的网卡名称), 大多数情况下, 重启网卡后网络就能正常访问.
网卡配置是否正确?(网络层)
在网卡没有损坏的情况下, 重启后还是无法访问网络, 哪我们就应该排查网络层的问题, 也就是网卡的配置信息是否正常? 主要有以下 4 点:
IP 地址
我们都知道 IP 地址是用来标识你的计算机在互联网上的地址, 目前我们大多数情况下使用的是 IPv4 地址, 不过在不久的将来, IPv6 会普及.(32 位的 IPv4 地址现在已经远远不够用了)
如上图所示的 .NET 192.168.81.129 就是我的 IP 地址.
子网掩码
子网掩码和 IP 地址相与可以得到网络号, 就是你所在的网段.
网关
网关就是你的数据包要从内网发送到公网所必须经过的, 一般情况下是本网段的第一个或者最后一个地址.
如下图所示, 我们可以使用 route -n 来查看相关的信息.
DNS 服务器
DNS 服务器是用来解析域名然后给你返回对应的 IP 地址, 比如 www.baidu.com , 所对应的就是 182.61.200.7, 常见的 DNS 服务器有 1.1.1.1,8.8.8.8,114.114.114.114
如下图所示, 我们可以使用 cat /etc/resolv.conf 命令来查看本机设置的 DNS 服务器地址.
注意!!!
你的 IP 地址, 子网掩码, 网关 ,DNS 服务器都正常才是网络正常工作的必要条件.
一般情况下, 你的 DHCP 服务器会自动地给你分配 IP, 以及相关的设置. 如果 DHCP 服务器没有正常工作, 这时候就需要你自己手动分配正确的 IP, 并且确保相关配置都正确.
(鉴于篇幅的原因, 而且本文主要是讲述一个科学的方法论, 所以如何手动配置这些信息, 请大家查阅别的资料)
检验!!!
在这些配置都正确后, 我们可以使用 ping 命令, 来测试网络层是否正常工作.(注意, 有些局域网的路由器被设置为禁止 ping, 这对我们排查网络问题造成了极大的困扰)
首先我们可以 ping 网关的 IP 地址, 或者局域网内的别的 IP 地址, 如果正常工作, 哪么即可确认在局域网内我们是正常的.
(注意: Windows 系统的防火墙默认是不通过 ICMP 协议 (ping 命令使用就是 ICMP 协议) 的, 所以你 ping 一台 Windows 系统的电脑可能会失败)
其次, 我们可以 ping 百度, 如果正常工作, 哪么说明在公网上我们也是正常的.
服务是否监听端口?(传输层)
对一般使用者来说, 能够 ping 通百度, 就足够满足他的日常需求了, 但是对于我们软件工程师来说, 我们还会搭建自己的服务站点, 提供自己的应用服务, 或者我们会配置 VPS 来实现访问谷歌.
当你按照教程配置好一台 VPS 后, 发现使用不了, 而且采用了前两步的方法, 发现 VPS 可以正常上网, 这时候大概率就是你 VPS 服务的问题.
服务端
首先查看 VPS 进程是否正常工作? 使用
- ps -aux|grep docker
- (插一句哈, 使用 docker 来部署我们的应用程序简直太爽了)
查看 VPS 是否正常监听端口?
客户端
如果以上的两步都没有问题, 但是在你的客户端上还是无法访问谷歌的话, 哪么你需要来测试以下端口是否真的通了, 即客服端和服务端是否能建立会话.
如下图所示, 我们可以使用 telnet ip 地址 端口 来测试.
如果连接失败, 就表示端口是不通的, 此时很可能是 VPS 的配置文件有问题, 需要做别的排查, 如下图所示.
防火墙, 安全组
如果以上的测试都没有问题, 哪么问题大概率是防火墙或者安全策略组(买过阿里云或者腾讯云的同学应该知道), 大多数情况下, 我们所使用的协议和监听的端口不会被防火墙所阻挡, 所以碰到这种情况的时候不多, 鉴于篇幅原因, 本文就不讲了.
服务是否正常工作?(应用层)
这种情况一般很明显, 比如大家常见的 404 NOT FOUND , 这种要么是被墙了, 要么是服务端发生了错误. 一般错误信息比较明显.
总结
初学计算机网络的时候, 感觉知识又多又杂, 而且单纯的看书, 效果比较差, 而且容易犯困. 其实, 在我们刚开始学习一门知识的时候, 首先要做的就是建立整个宏观知识体系, 然后学习工作中经常使用的部分, 比如应用层, 传输层, 网络层的基本概念. 等基本的和常用的知识都学完后, 结合自己的兴趣再去深入的学习原理. 要知道 28 原理, 即 20% 的知识可以解决 80% 的问题.
推荐资料
《计算机网络》谢希仁 编著(配合 B 站的韩立刚老师的视频课程效果更佳)
来源: https://www.cnblogs.com/yahuian/p/11407090.html