这是笔者最近经历的网络故障,故障是典型的,故障排除的想法比较理想。我写下来这个过程,与大家分享一下,希望能对您有所帮助。



1。症状描述



的客户呼叫中心报告的主要网络基本正常,和子突然放缓。这是当地樱桃网络服务的公司,它提供了web服务和面向普通用户的互联网接入服务。前几天,他们的一个服务的用户反映网速太慢,而且需要更多的超过60秒发送电子邮件,区域划分成子网。从主机机房网管系统中发现,除了小区网络流量较大(测试为97%)外,中央网路由器与其他子网之间的交互业务量小于40%,而且没有其他特殊现象。



2。诊断过程



铁路维修人员进行了自己的网络调试,但没有发现故障,无法断开网络用户服务,停下来检查,并向我们求助,我被发出去了。应该说,故障是比较简单的症状。只要找出子网的路由流量的来源,就可以很快地确定故障的方向,然后我们就可以立即找到流量来源。



从网络拓扑、故障子网和中心网络的E1链路故障。下面的子网中,有一个营业厅,通常只能与中央网络业务数据不应该有太多的交通。此外,在子网中的Web服务器的数量是45,和中心的网络管理系统的报告,97%的流量确实太高了。



笔者认为,只有一种情况下,E1信道的有效通信量更大。即在子网下的网站和中央网的网站或服务器之间传输或下载多媒体文件,但要求管理人员了解中心网络不提供多媒体视频播放和下载服务,只能用工具进行测试。



由于故障的网络规模比较小,中央网络管理系统只支持在路由器的管理水平,而廉价的台式交换机如交换机和服务器不支持网络管理,网络测试仪的开关和启动便携式网络管理功能。我们可以看到路由器的流量与网络管理系统所观察到的流量是一样的,大约是97%。



检查连接到该网络的路由器的流量约为997%,这表明路由器信道链路的性能基本上是正常的。然而,如此高的通道流量势必造成拥塞和数据包丢失,所以这是不正常的从交通点。你需要理解现在是高的路由流量从哪来,和到达后的路由器的分组的方向。这样可以快速找到数据源和拥塞源引起如此高的通道。



网络流量分析仪连接到网络的路由器通道进行监视和分析。结果表明,95%的流量业务数据服务器,其中大多数是应用于HTTP和电子邮件。其中,互联网接入业务占88%,和7%本地流量账户,流动分析仪显示的流量来源分布图,没有集中的交通应用,IP地址的分配更加均衡,这最大流量仅为0.5%。这些数据表明,用户的比例是成正比的,失败的原因应该在应用过程中,而不是集中的用户轰炸,如黑客。也就是说,它应该是过程和应用的渠道。原因是这些交通设计根据信道应该达不到巴士营业厅业务的网络服务器,而应直接上网从中央网络路由器进入。那么如何做这些流量被引导到营业厅服务的方向



现在我们将进一步分析,我们知道,IP数据包将被用于地址解析(ARP)路由器,或域名解析本地DNS。如果分析道路的问题,IP数据包的传输和交换将成为一个问题。根据交通分析仪的指示,作者选择了10个IP地址随机做路由跟踪测试。与网络测试仪进行跟踪的结果是,他们必须通过DNS服务器,业务大厅网络的成员模仿本地已知和本地用户的ICMP监控和路由跟踪测试。发现在ICMP重定向数据包监测是82%,与目标值是13%,这表明,只有2%的用户会定期访问目标网站,而剩下的95%的IP数据包需要或转发得到一部分机会到达目的地的路由。



因此,它是可能集中在路由表的主路由器和DNS的转换表。因为大多数的互联网接入业务是针对营业厅业务服务器,可以专注于DNS服务器,网络测试仪的DNS服务器查询,观察结果表明,DNS转换表办公网络服务服务器的一个相当大的比例。我怀疑DNS服务器是一个问题!



因此,通知中心网络的网络管理员重新启动DNS服务器并将其迅速,以及后来的网络经理报道,网络业务恢复正常。使用网络测试仪网络工具来查询DNS服务器,我们可以看到,数据点到营业厅的服务器已经消失,说明该网络已恢复正常工作。但好景不长,故障后再次出现约3分钟,仍然有渠道流量97%指向子网。



因为DNS服务器只设置一个,没有备份或备份服务器,因此它不得不立即去中央网络机房,检查DNS服务器及周边设备,测试服务器网卡与路由器的电缆都是正常的。为了不中断服务,我让网络管理员安装DNS服务器暂时在另一个备用服务器。短暂的业务中断后,在更换新的DNS服务器开始应用。子网的路由器的流量减少到1.5%立即。后稳定工作30分钟,所有用户恢复到正常工作状态和故障排除。




三.失败的原因



正如您所知道的,DNS服务器用于将用户域名转换为IP地址,一般来说没有问题。但由于某种原因,在本例中导致业务点网络服务服务器地址转换的所有点都是相似的。它要么拒绝接受IP数据包,要么发回无法到达或需要重定向的报告包,这是我们在ICMP监控过程中经常观察到的。



当地铁通用户数量不是很大,与上层网络155m ATM链路有大量剩余,所以用户的上网速度是通过子网带宽的影响为主。因为很多用户都是通过一个拥挤的无效的E1链路,路由重定向和严重的延迟造成的。大量的IP包去子网路由器2M带宽只有。流量达到97%,造成子网工作速度慢,路由器严重拥塞。



4点和两点



(1)DNS服务器应该是定期的;体检;



为了防止DNS服务不稳定,业务中断或错误发生。许多网络管理员安装备用DNS服务器上安装DNS服务器时,这是安装多个DNS服务器,但这也会带来潜在的危险,即主DNS服务器出现故障,备用服务器自动将投入运行,这将牺牲一定的网络带宽,使得系统整体性能下降。危险的是,业绩的下滑往往是在不知不觉中来的。因此,为了确保网络经常处于良好的工作状态,网络管理人员需要检查DNS服务器定期转换表。



指向故障中的故障的DNS会使用户的IP数据包与子网服务器对齐。但如果定位不是一个服务器,但机器在中央网络的局域网段,强度会减弱,并且用户会不会觉得很明显放缓。这可能感觉不到明显的身体不舒服;它使网络运行病了很长时间。就像人一样,定期体检发现疾病及其隐患的时间是必要的。如何找到路径优化问题的时间也是一个普通的网络工程测试的内容。大型网络更为必要,必须坚持定期维护和测试。



(2)。网络状态的实时监控



许多网络设备,如路由器、交换机和集线器都可以支持SNMP网络管理功能。In order to fully monitor the network channel function, network devices need to support comprehensive RMON and RMON2.The network, which is built with such a device, has a good management and fault diagnosis function.But the real problem is that the price of such a network device is about 6~10 times that of the ordinary network equipment, and it is difficult for the user to accept it.Therefore, in order to monitor the service flow and the proportion of application and network sources, unpack analysis records and when necessary, it is recommended that users install the monitoring interface in the important channel or channel routing server.In order to be necessary, the flow analyzer and network tester can be monitored and analyzed at any tim这样,故障的查找时间可以缩短到20分钟左右,当然,如果资金允许,我们还可以对分析仪的长期接入通道进行流量分析,以便在全速率和透明流量下监控许多重要的网络设备,使故障定位时间减少到1分钟以内。



这次访问;;一般来说,它仍然是一个光滑的,事实上,每一个访问的是一个学习和提高的机会。也许这样的话,你可能不会遇到,但思路是值得参考的排错。此外,最后两点建议,希望引起大家的注意。