网络故障排除思路.doc
《网络故障排除思路.doc》由会员分享,可在线阅读,更多相关《网络故障排除思路.doc(33页珍藏版)》请在三一文库上搜索。
1、word目 录网络故障排除技术总结11.网络故障排除技术概览1在当今日益复杂的网络中进展故障排除1网络故障的一般分类2一般网络故障的解决步骤22.网络排错常用诊断工具介绍82.1 Ping命令82.2 Traceroute 命令122.3 Show命令172.4 Clear命令212.5 Debug命令233.故障排除常用方法25分层故障排除法25分块故障排除法26分段故障排除法27替换法284. 故障排除对排错技术人员的要求28对协议要求有精深的理解28能够引导客户详细描述出故障现象和相关信息29充分了解自己所管理和维护的网络31与时进展故障排除的文档记录和经验总结3232 / 33网络故障
2、排除技术总结当今的网络互连环境是日趋复杂的,而且随着需求开展的步伐这种复杂性是日益增长的,主要原因如下: 现代的网络要求支持更广泛的应用:包括内容上的数据、语音、视频的应用;接入方式上有线,光纤,无线,多协议转换器,逻辑链路的应用;网络结构上二层,三层,二三层混合,VPN等的应用。 新业务开展使得网络的的需求不断增长,新技术的不断出现。例如:百兆以太网向千兆、万兆以太网的演进;各种防X攻击技术的出现;提供QoS能力;IPV6的支持等。l 新技术的应用同时还要兼顾传统的技术。例如,传统的网络体系结构仍在某些场合使用。各种协议的开展,使得新网络的建设需要兼容原来的根底而进展改造。l图1-1 多样业
3、务的需求和各种先进技术的引入使网络日益复杂因此,现代的互连网络是协议、技术、介质和拓扑的混合体。互连网络环境越复杂,意味着网络的连通性和性能故障发生的可能性越大,而且引发故障的原因也越发难以确定。同时,由于人们越来越多的依赖网络处理日常的工作和事务,一旦网络故障不能与时修复,其所造成的损失可能很大甚至是灾难性的。能够正确地维护网络尽量不出现故障,并确保出现故障之后能够迅速、准确地定位问题并排除故障,对网络维护人员和网络管理人员来说是个挑战,这不但要求我们对网络协议和技术有着深入的理解,更重要的是要建立一个系统化的故障排除思想并合理应用于实际中,以将一个复杂的问题隔离、分解或缩减排错X围,从而与
4、时修复网络故障。网络故障一般分为两大类:连通性问题和性能问题。它们各自故障排除的关注点如下: 连通性问题硬件、系统、电源、媒介故障配置错误不正确的相互作用 性能问题网络拥塞到目的地不是最优路由转发异常路由环路网络错误一般网络故障的解决步骤故障排除系统化是合理地一步一步找出故障原因并解决的总体原如此。它的根本思想是系统地将由故障可能的原因所构成的一个大集合缩减或隔离成几个小的子集,从而使问题的复杂度迅速下降。故障排除时有序的思路有助于解决所遇到的任何困难,如下图给出了一般网络故障解决的处理流程。图1-2 网络故障排除根本步骤我们以一个故障排除的实例来学习如何应用这些步骤。案例:某用户网段广播包过
5、多造成该网段的服务器FTP业务传输速度变慢组网图如下:某校园网的三个局域网,其中为一个用户网段,10.11.56.118为一个日志服务器;10.15.0.0是一个集中了很多应用服务器的网段。图1-3 用户网段广播包过多造成该网段的服务器FTP业务传输速度慢1. 故障现象描述要想对网络故障做出准确的分析,首先应该了解故障表现出来的各种现象,然后才能确定可能产生这些现象的故障根源或症结。因此,对网络故障做出完整、清晰的描述是重要的一步。如上述案例,用户反映:“日志服务器与备份服务器间备份发生问题。这就是一个不完整不清晰的故障现象描述。因为这个描述没有讲述清楚如下问题:l 这个问题是连续出现,还是连
6、续出现的?l 是完全不能备份,还是备份的速度慢即性能下降?l 哪个或哪些局域网服务器受到影响,地址是什么?正确的故障现象描述是:在网络的顶峰期,日志服务器到集中备份服务器10.15.254.253之间进展备份时,FTP传输速度很慢,大约只有0.6Mbps。2. 故障案例相关信息收集本步骤是搜集有助于查找故障原因的更详细的信息。主要是三种途径:l 向受影响的用户、网络人员或其他关键人员提出问题;l 根据故障描述性质,使用各种工具搜集情况,如网络管理系统、协议分析仪、相关show命令等;l 测试性能与网络基线进展比拟。如上述案例,可以向用户提问或自行收集如下相关信息:l 网络结构或配置是否最近修改
7、正,即问题出现是否与网络变化有关?l 是否有用户访问受影响的服务器时没有问题?l 在非顶峰期日志服务器和备份服务器间FTP传输速度是多少?通过该步骤,可以收集到了下面一些相关信息:l .0网段的客户机不断在增加;l 网段的机器与备份服务器间进展FTP传输时速度正常为7Mbps,与日志服务器间进展FTP传输时速度慢,只有0.6Mbps;l 在非顶峰期日志服务器和备份服务器间FTP传输速度正常,大约为6Mbps;3. 经验判断和理论分析利用前两个步骤收集到的数据,并根据自己以往的故障排除经验和所掌握的互连网络设备和协议的知识,来确定一个排错X围。通过X围的划分,就只需注意某一故障或与故障情况相关的
8、那一局部产品、介质和主机。如上述案例:我们现在能够确定是一个网络性能下降问题。那么,是网段10.11.56.0的性能问题?是中间网云的性能问题?是10.15.0.0网段的性能问题呢?网段的机器与备份服务器间进展FTP传输时速度正常为7Mbps这一事实,我们可以排除掉10.15.0.0网段的性能问题。4. 各种可能原因列表该步骤列出根据经验判断和理论分析后总结的各种可能原因。如上述案例,可能原因如下:(1) 网段10.11.56.0的性能问题,其子原因可能为:l 日志服务器A的性能问题ll(2) 5. 对每一原因实施排错方案根据所列出的可能原因制定故障排查计划,分析最有可能的原因,确定一次只对一
9、个变量进展操作,这种方法使你能够重现某一故障的解决方法。如果有多个变量同时被改变,而问题得以解决,那么如何判断哪个变量导致了故障发生呢?& 说明:我们在对故障处理流程5、6、7步骤介绍完毕后,再继续进展上述实例案例的排错步骤介绍。6. 观察故障排查结果当我们对某一原因执行了排错方案后,需要对结果进展分析,判断问题是否解决,是否引入了新的问题。如果问题解决,那么就可以直接进入文档化过程;如果没有解决问题,那么就需要再次循环进展到故障排查过程。7. 循环进展故障排查过程当实施了一个方案没有达到预期的排错目的时,我们进入到该步骤这是一个努力缩小可能原因的清单过程。在进展下一循环之前必须做的事情就是将
10、网络恢复到实施上一方案前的状态。如果保存上一方案对网络的改动,很可能导致新的问题,例如:假设修改了访问列表但没有产生预期的结果,此时如果不将访问列表恢复到原始状态,就会导致出现不可预期的结果。循环排错可以有两个切入点:l 当针对某一可能原因的排错方案没有达到预期目的,循环进入下一可能原因制定排错方案并实施;l 当所有可能原因列表的排错方案均没有达到排错目的,重现进展故障相关信息收集以分析新的可能原因。如上述案例,我们在列出了可能原因列表后,开始制定方案进展故障排除。(1) 可能原因1:“命令,发现探测报文返回时长仅为10ms,明确该可能原因并不是造成故障的原因。我们进入循环排错过程。(2) 可
11、能原因2:“日志服务器A的性能问题制定的方案:测试同一网段的主机C和日志服务器间的FTP传输速度,是6Mbps,正常。可见问题与服务器A无关。(3) 可能原因3:“制定的方案:测试主机C和备份服务器B间FTP传输速度是7Mbps,正常。排除了网关因素,因为B、C在不同网段上而速度正常。(4) 可能原因3:“show interfaces fastEthernet 0/X counters,输出如下:Interface : Fa0/x5 minute input rate : 4800 bits/sec, 4 packets/sec5 minute output rate : 55936 bit
12、s/sec, 5 packets/secInOctets : 32533624InUcastPkts : 390531InMulticastPkts : 39InBroadcastPkts : 13164OutOctets : 32126341OutUcastPkts : 33133OutMulticastPkts : 1840OutBroadcastPkts : 12611广播与单播的比例在1:3,显然太大了。“show interfaces fastEthernet 0/x counters输出如下:Interface : Fa0/135 minute input rate : 4800
13、bits/sec, 4 packets/sec5 minute output rate : 55936 bits/sec, 5 packets/secInOctets : 4253824InUcastPkts : 29432175InMulticastPkts : 39InBroadcastPkts : 11061OutOctets : 21127345OutUcastPkts : 39432172OutMulticastPkts : 1840OutBroadcastPkts : 12611广播与单播的比例在1:280,是正常的。由此知道,网段10.11.56.0上广播包和单播包比例为1:3,
14、确实太大了。再次询问用户该网段主要运行的业务是什么,从而得出了故障最终原因如下:10.11.56.0是普通用户网段,由于业务原因每个用户需要发送大量广播包和多播包,随着近期越来越多的用户接入该网络,在这个网段上的服务器需要花费更多的资源来处理越来越多的广播和多播包,因此其服务的传输速度自然减慢。网段后,故障排除。8. 故障排除过程文档化当最终排除了网络故障后,那么排除流程的最后一步就是对所做的工作进展文字记录。文档化过程决不是一个可有可无的工作,原因如下:l 文档是排错宝贵经验的总结,是 “经验判断和理论分析这一过程中最重要的参考资料;l 文档记录了这次排错中网络参数所做的修改,这也是下一次网
15、络故障应收集的相关信息。文档记录主要包括以下几个方面:l 故障现象描述与收集的相关信息l 网络拓扑图绘制l 网络中使用的设备清单和介质清单l 网络中使用的协议清单和应用清单l 故障发生的可能原因l 对每一可能原因制定的方案和实施结果l 本次排错的心得体会l 其他:如排错中的使用的参考资料列表等请读者对照上述案例完成文档记录工作。锐捷的产品提供了一套完整的命令集,可以用于监控网络互联环境的工作状况和解决根本的网络故障。主要包括以下命令: Ping命令 Traceroute命令l Show命令l Clear命令l Debug命令2.1 Ping命令1.原理:“ping这个词源于声纳定位操作,指来自
16、声纳设备的脉冲信号。Ping命令的思想与发出一个短促的雷达波,通过收集回波来判断目标很相似;即源站点向目的站点发出一个ICMP Echo Request报文,目的站点收到该报文后回一个ICMP Echo Reply报文,这样就验证了两个节点间IP层的可达性表示了网络层是连通的。Ping命令用于检查IP网络连接与主机是否可达。平台的ping命令在RG系列设备上,Ping命令的格式如下:Ping ip-address例如,向主机10.15.50.1 Ping报文RG# /ping通SwitchPINGTarget IP address or host: Repeat count 5: 2Datag
17、ram size 100: 8100Timeout in milliseconds 2000: 5000Extended mands n:Sending 2, 8100-byte ICMP Echos to ,timeout is 5000 milliseconds.!Success rate is 100 percent (2/2)Minimum = 21ms Maximum = 22ms, Average = 21msRG# /不通Sending 5, 100-byte ICMP Echos to 10.15.50.1,timeout is 2000 milliseconds.Succes
18、s rate is 0 percent (0/5)4.Windows平台的Ping命令在PC机上或Windwos NT为平台的服务器上,Ping命令的格式如下:Ping -n number -t -l number ip-address-n Ping报文的个数,缺省值为5;-t 持续地ping 直到人为地中断,Ctr+Breack暂时中止ping命令并查看当前的统计结果,而Ctr+C如此中断命令的执行。-l 设置Ping报文所携带的数据局部的字节数,设置X围从0至65500。例:向主机10.15.50.1 发出2个数据局部大小为 3000 Bytes的ping报文C:Pinging 10.15
19、50.1 with 3000 bytes of dataReply from 10.15.50.1: bytes=3000 time=321ms TTL=123Reply from 10.15.50.1: bytes=3000 time=297ms TTL=123Ping statistics for 10.15.50.1: Packets: Sent = 2, Received = 2, Lost = 0 (0% loss),Approximate round trip times in milli-seconds: Minimum = 297ms, Maximum = 321ms, Av
20、erage = 309ms& 说明:实际上Windows平台的Ping命令的参数非常多,这里只介绍其中最重要的三个参数。其他参数介绍请参考Windows在线帮助。Ping命令进展故障排除案例一:连通性问题还是性能问题?(1) 案例描述 工程师小C,在配置完一台路由器之后执行Ping命令检测链路是否通畅。发现5个报文都没有Ping通,于是检查双方的配置命令并查看路由表,却一直没有找到错误所在。最后又重复执行了一遍一样的Ping命令,发现这一次5个报文中有1个Ping 通了原来是线路质量不好存在比拟严重的丢包现象。 工程师小C又配置了一台路由器,然后执行Ping命令访问Internet上某站点的I
21、P地址,但没有Ping通。有了上次的教训小L,再一次Ping了20个报文,仍旧没有响应。于是小L断定是网络故障。但是在费劲周折检查了配置链路之后仍没有发现任何可疑之处,最后小L采取逐段检测的方法对链路中的网关进展逐级测试,发现都可以Ping 通,但是响应的时间越来越长,最后一个网关的响应时间在1800ms左右。会不会是由于超时而导致显示为Ping 不同呢?受此启发,小L将Ping 命令报文的超时时间改为4000ms,这次成功Ping通了,显示所有的报文响应时间都在2200ms 左右。(2) 建议和总结:真的是Ping不通吗?这个问题需要定位清楚,因为连通性问题和性能问题排错的关注点是不一样的问
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络故障 排除 思路
