网络连接是当今计算世界的一项关键要求。任何优秀的服务器系统管理员都知道,为失败做计划是工作的一部分。然而,无论您在设置中构建了多少冗余,总有可能出现意外问题。您必须了解帮助您解决令人不快的意外的工具和程序。
序列号 | CPU | RAM | HDD | 带宽 | 售价(美元) | 免费试用 |
---|---|---|---|---|---|---|
香港服务器1 | E5-2620 | 32G | 1T HDD | 50M/无限流量 | $196.00 | 立即申请 |
香港服务器2 | E5-2650 | 32G | 1T HDD | 50M/无限流量 | $256.00 | 立即申请 |
香港服务器3 | E5-2680 | 32G | 1T HDD | 50M/无限流量 | $316.00 | 立即申请 |
香港服务器4 | E5-2690 | 32G | 1T HDD | 50M/无限流量 | $336.00 | 立即申请 |
香港服务器5 | E5-2697 | 32G | 1T HDD | 50M/无限流量 | $376.00 | 立即申请 |
香港服务器6 | E5-2620*2 | 32G | 1T HDD | 50M/无限流量 | $376.00 | 立即申请 |
香港服务器7 | E5-2650*2 | 32G | 1T HDD | 50M/无限流量 | $436.00 | 立即申请 |
香港服务器8 | E5-2680*2 | 32G | 1T HDD | 50M/无限流量 | $476.00 | 立即申请 |
香港服务器9 | E5-2690*2 | 32G | 1T HDD | 50M/无限流量 | $556.00 | 立即申请 |
香港服务器10 | E5-2697*2 | 32G | 1T HDD | 50M/无限流量 | $596.00 | 立即申请 |
香港服务器11 | E5-2680v4*2 | 32G | 1T HDD | 50M/无限流量 | $696.00 | 立即申请 |
香港服务器12 | E5-2698v4*2 | 32G | 1T HDD | 50M/无限流量 | $796.00 | 立即申请 |
对于许多系统管理员来说,故障排除是工作中有趣的部分(无论如何,我对“乐趣”的衡量标准),有一天在工作中,我有机会对我的故障排除能力进行测试。在我实验室的一台服务器上,我注意到日志中的条目显示了断断续续的连接。我很惊讶,因为我在我的设置中实现了相当多的冗余,所以我决定进行调查。
使用绑定或组合配置,您可以将Red Hat Enterprise Linux (RHEL) 服务器配置为使用多个网络交换机端口来增加性能和冗余。根据网络交换机的功能,有多种可能的配置。假设网络交换机可以执行 802.3ad 链路聚合组 (LAG),您可以使用多个服务器网络接口卡 (NIC) 将网络交换机上的多个网络接口逻辑捆绑到 RHEL 服务器到绑定或组合设备中。
配置
这是我的服务器网络的外观图。在故障排除步骤中参考此内容。具体来说,请注意team1和team10 NIC 组合配置。服务器使用 team1 进行数据连接,使用 team10 进行存储连接。如果您希望重现设置,可以在文章末尾找到配置脚本。
首先,我使用以下命令验证了配置:
如果其中一个绑定设备中的两个 NIC 都有问题,则网络 ping 将停止。但是,如果其中一个 NIC 有问题而另一个没有问题怎么办?在这种情况下,事情会继续运行,这正是网络团队设备配置的重点,那么您如何判断是否存在问题?你在找什么?假设您使用 Grafana 之类的工具配置了网络带宽图表,您的网络容量图表会显示一些有趣的东西吗?图表是否会显示正在使用的容量的一半?你甚至会注意到吗?
使用 ethtool 显示网卡状态
监控网卡链接状态是个好主意。根据您的监控软件,您可能有也可能没有该功能。RHEL 有几种方法可以检查链接状态ethtool,包括ip.
我们下面以ethtool为例:
下面我们以ip命令为例:
您可以在上面的两个命令中看到Link detected: no或者state DOWN。但是,如果我的监控软件每 5 分钟甚至每 3 分钟检查一次链路断开状态怎么办?它会每 15 到 20 秒或随机时间捕获一个具有间歇性连接的 NIC 吗?
检查链路状态一致性
如何判断连接是否断断续续?您可以查看向下计数enp9s0。
从这个teamdctl命令的输出可以看出, 8241有很多起伏。
您还能在哪里找到这些信息?日志文件呢?系统是否记录了这些?
网络链路状态每两到三秒抖动一次。这是一个实验室服务器,并没有正确设置和配置所有监控。
我偶然发现了它,因为我有dmesg -T在登录系统时运行的习惯。dmesg代表诊断消息,该命令打印出内核的消息缓冲区。该-T选项在事件发生时打印时间戳。dmesg消息都被记录并写入日志文件中的磁盘以进行保管。
解决这个问题
这是问题根源的图片:稍微拉伸的网络电缆导致端口每分钟上下多次上下波动。
以下是一些要点:
不要假设容错不需要被监控。
了解错误消息的去向以及应监控哪些关键字。
抽查“错误”、“警告”和“失败”等术语的错误日志。你错过了什么吗?
手动使配置为冗余的组件失效,看看会发生什么。什么被记录?故障如何影响系统和性能?提前知道你应该寻找什么。
为所有重要的事情设置监控和警报。
发生问题时,请进行根本原因分析以更好地了解原因。
对于我的问题,查看我的日志指出了我实际移动了带轮子的机架的日期。我记得将其移出以在另一台服务器上进行一些维护,可能是当电缆过度拉伸时。快速更换跳线,我又重新开始工作了。
参考:配置脚本
下面是两个 NetworkManagernmcli脚本,用于将两个双端口 NIC 配置为使用 LACP 的组合设备。第一个双端口 1GB NIC 配置为team1,另一个配置为team10,一个双端口 10GB NIC。
这是 team1 配置脚本:
team10 配置脚本如下所示:
上一篇: 如何在Linux服务器中检查内存使用情况
下一篇: 正在成为过去式的数据中心TCP传输协议