路由器网络诊断步骤与故障排除
路由器常见故障分类
在路由器出现的故障中, 大体可以分为两类: 一类是硬故障, 一类是软故障。这里的分类方法并没有严格的标准,只是为了方便而已,在实践中应该具体问题具体分析。
1、硬故障
我们把路由器本身部件存在问题的情况归在这一类里。常见的硬故障通常表现在硬件上。通常有这么几种:
1)系统不能正常加电
表现为当打开路由器的电源开关时,路由器前面板的电源灯不亮,风扇不转。这时要重点检查电源系统。看供电插座是否有电,电压是否在规定的范围内。如果供电正常,应该检查电源线是否完好, 接触是否牢靠,必要时可以换一根,如果还不行,可以判定问题应该出在路由器的电源上。 可以看看路由器电源保险是否完好, 如果烧了应该更换。 如果还不行只好送修。
2) 部件损坏
这类情况在硬件故障中是比较常见的一类。这里的部件往往是接口卡。表现为当把有问题部件插到路由器中时,系统其他部分都工作正常,但无法正确识别有问题的部件,这时往往是因为部件本身有问题。还有一种情况,就是部件可以被正确识别,但做完配置后(保证配置正确),接口就是不能正常工作,这时往往是因为存在物理故障。要确认以上这两种情况,最好用相同型号的好的部件替换怀疑有问题的部件,就可以确认问题是否存在。
3) 系统软件损坏
这种故障似乎应该归入软件故障, 但由于这种情况往往是路由器本身存在的问题, 且与硬件紧密相关,我们不妨把它归类于此。以 cisco 的路由器为例,如果路由器开机后总是进入 rmon 状态,这时往往说明系统软件 IOS 存在问题。
4) 其它
这里所要提到的是这样一些情况, 有时我们在对系统软件进行升级时, 发现系统无论怎样也不能完成升级,这时不妨检查一下你要升级的软件的大小是否超过了你的路由器的NVRAM 的容量。如果超过了,你是无论如何也升不了级的,这时应该先扩充 NVRAM 的容量然后再升级系统软件。这个问题容易被忽略。
2、软故障
1)功能无法实现
在有些时候,你要作某些特定的配置(如 NAT ),你反复检查,确认配置正确,可相应的功能就是实现不了,这时先不要急着怀疑设备有问题,最好先找一找系统软件的版本号,并查找相关的说明, 看一看你所使用的版本的软件是否支持这个功能。 因为路由器的系统软件往往有许多版本, 每个版本支持不同的功能。 如果你当前的软件版本不支持这个功能, 那就应该找到相应的软件,先进行升级。
2) 网络规划存在问题
有些时候, 你的配置似乎没有问题, 可路由器就是不能正常工作, 或者工作不稳定,总出现一些莫名其妙的问题。 这时不妨先不要急着反复调试, 不如回过头来看看你的网络规划,看看这上面是不是有问题。比如是不是有重复使用的网段,网络掩码的计算是否正确等等,往往问题就迎刃而解了。
3) 配置问题
这种问题是最常见的, 就是你的配置的确存在问题。 比如线路两端路由器的参数不匹配或参数错误等等,这种情况只要认真细致地查找,总可以解决。
网络故障诊断概述
网络故障诊断, 从故障现象出发, 以网络诊断工具为手段获取诊断信息, 确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。网络故障通常有以下几种可能:物理层中物理设备相互连接失败或者硬件及线路本身的问题; 数据链路层的网络设备的接口配置问题; 网络层网络协议配置或操作错误; 传输层的设备性能或通信拥塞问题; 上三层或网络应用程序错误。诊断网络故障的过程应该沿着 OSI 七层模型从物理层开始向上进行。首先检查物理层,然后检查数据链路层,以此类推,设法确定通信失败的故障点,直到系统通信正常为止。
网络诊断可以使用多种工具: 路由器诊断命令, 网络管理工具和包括局域网或广域网分析仪在内的其它故障诊断工具。 查看路由表, 是开始查找网络故障的好办法。 ICMP 的 ping、trace 命令和 Cisco 的 show 命令、 debug 命令是获取故障诊断有 用信息的网络工具。如何监视网络在正常条件下的运行细节和出现故障的情况 ,监视哪些内容呢?利用 show interface 命令可以非常容易地获得待检查的每个接口的信息。 show buffer 命令提供定期显示缓冲区大小、用途及使用状况。 show proc 命令和 show proc mem 命令可用于跟踪处理器和内存的使用情况。可以定期收集这些数据,在故障出现时用于诊断参考。
故障诊断步骤:
第一步,首先确定故障的具体现象, 分析造成这种故障现象的原因的类型。 例如, 主机不响应客户请求服务。 可能的故障原因是主机配置问题、 接口卡故障或路由器配置命令丢失等。
第二步, 收集需要的用于帮助隔离可能故障原因的信息。 从网络管理系统、 协议分析跟踪、路由器诊断命令的输出报告或软件说明书中收集有用的信息。
第三步,根据收集到的情况考虑可能的故障原因, 排除某些故障原因。 例如,根据某些资料可以排除硬件故障,把注意力放在软件原因上。
第四步, 根据最后的可能故障原因, 建立一个诊断计划。 开始仅用一个最可能的故障原因进行诊断活动,这样可以容易恢复到故障的原始状态。如果一次同时考虑多个故障原因,试图返回故障原始状态就困难多了。
第五步, 执行诊断计划, 认真做好每一步测试和观察, 每改变一个参数都要确认其结果。分析结果确定问题是否解决,如果没有解决,继续下去,直到故障现象消失。
网络分层诊断技术
物理层的故障主要表现在设备的物理连接方式是否恰当;连接电缆是否正确; Modem、CSU/DSU 等设备的配置及操作是否正确。确定路由器端口物理连接是否完好的最佳方法是使用 show interface 命令,检查每个端口的状态,解释屏幕输出信息,查看端口状态、协议建立状态和 EIA 状态。 查找和排除数据链路层的故障, 需要查看路由器的配置, 检查连接端口的共享同一数据链路层的封装情况。 每对接口要和与其通信的其它设备有相同的封装。 通过查看路由器的配置检查其封装,或者使用 show 命令查看相应接口的封装情况。
排除网络层故障的基本方法是: 沿着从源到目标的路径, 查看路由器路由表, 同时检查路由器接口的 IP 地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、 默认路由或者动态路由。 然后手工配置一些丢失的路由, 或者排除一些动态路由选择过程的故障, 包括 RIP 或者 IGRP 路由协议出现的故障。 例如, 对于 IGRP 路由,选择信息只在同一自治系统号( AS)的系统之间交换数据,查看路由器配置的自治系统号的匹配情况。
路由器接口故障排除
串口故障排除
串口出现连通性问题时,为了排除串口故障,一般是从 show interface serial 命令开始,分析它的屏幕输出报告内容,找出问题之所在。串口报告的开始提供了该接口状态和线路协议状态。接口和线路协议的可能组合有以下几种:
1、串口运行、线路协议运行,这是完全的工作条件。该串口和线路协议已经初始化,并正在交换协议的存活信息。
2、串口运行、线路协议关闭,这个显示说明路由器与提供载波检测信号的设备连接,表明载波信号出现在本地和远程的调制解调器之间, 但没有正确交换连接两端的协议存活信息。可能的故障发生在路由器配置问题、 调制解调器操作问题、 租用线路干扰或远程路由器故障, 数字式调制解调器的时钟问题, 通过链路连接的两个串口不在同一子网上, 都会出现这个报告。
3、串口和线路协议都关闭,可能是电信部门的线路故障、电缆故障或者是调制解调器故障。
4.串口管理性关闭和线路协议关闭,这种情况是在接口配置中输入了 shutdown 命令。通过输入 no shutdown 命令,打开管理性关闭。
接口和线路协议都运行的状况下, 虽然串口链路的基本通信建立起来了, 但仍然可能由于信息包丢失和信息包错误时会出现许多潜在的故障问题。 正常通信时接口输入或输出信息包不应该丢失, 或者丢失的量非常小,而且不会增加。如果信息包丢失有规律性增加, 表明通过该接口传输的通信量超过接口所能处理的通信量。 解决的办法是增加线路容量。 查找其它原因发生的信息包丢失, 查看 show interface serial 命令的输出报告中的输入输出保持队列的状态。 当发现保持队列中信息包数量达到了信息的最大允许值, 可以增加保持队列设置的大小。
以太接口故障排除
以太接口的典型故障问题是: 带宽的过分利用; 碰撞冲突次数频繁; 使用不兼容的帧类型。使用 show interface ethernet 命令可以查看该接口的吞吐量、碰撞冲突、信息包丢失、和帧类型的有关内容等。
1、通过查看接口的吞吐量可以检测网络的带宽利用状况。如果网络广播信息包的百分比很高, 网络性能开始下降。 光纤网转换到以太网段的信息包可能会淹没以太口。 互联网发生这种情况可以采用优化接口的措施,即在以太接口使用 no ip route-cache 命令,禁用快速转换,并且调整缓冲区和保持队列的设置。
2、两个接口试图同时传输信息包到以太电缆上时,将发生碰撞。以太网要求冲突次数很少,不同的网络要求是不同的, 一般情况下发现冲突每秒有三五次就应该查找冲突的原因了。碰撞冲突产生拥塞, 碰撞冲突的原因通常是由于敷设的电缆过长、 过分利用、 或者 “聋 ”节点。以太网络在物理设计和敷设电缆系统管理方面应有所考虑, 超规范敷设电缆可能引起更多的冲突发生。
3、如果接口和线路协议报告运行状态,并且节点的物理连接都完好,可是不能通信。引起问题的原因也可能是两个节点使用了不兼容的帧类型。 解决问题的办法是重新配置使用相同。
帧类型。 如果要求使用不同帧类型的同一网络的两个设备互相通信, 可以在路由器接口使用子接口,并为每个子接口指定不同的封装类型。
异步通信口故障排除
互连网络的运行中,异步通信口的任务是为用户提供可靠服务,但又是故障多发部位。
异步通信口故障一般的外部因素是: 拨号链路性能低劣; 电话网交换机的连接质量问题; 调制解调器的设置。检查链路两端使用的调制解调器:连接到远程 PC 机端口调制解调器的问题不太多, 因为每次生成新的拨号时通常都初始化调制解调器, 利用大多数通信程序都能在发出拨号命令之前发送适当的设置字符串; 连接路由器端口的问题较多, 这个调制解调器通常等待来自远程调制解调器的连接, 连接之前, 并不接收设置字符串。 如果调制解调器丢失了它的设置, 应采用一种方法来初始化远程调制解调器。 简单的办法是使用可通过前面板配置的调制解调器;另一种方法是将调制解调器接到路由器的异步接口,建立反向 telnet,发送设置命令配置调制解调器。
show interface async 命令、show line 命令是诊断异步通信口故障使用最多的工具。 show interface async 命令输出报告中,接口状态报告关闭的唯一的情况是,接口没有设置封装类型。线路协议状态显示与串口线路协议显示相同。 show line 命令显示接口接收和传输速度设置以及 EIA 状态显示。 show line 命令可以认为是接口命令 ( show interface async)的扩展。
查看 show line 命令输出的 EIA 信号可以判断网络状态。 确定异步通信口故障一般可用下列步骤: 检查电缆线路质量; 检查调制解调器的参数设置;检查调制解调器的连接速度;检查 rxspeed 和 txspeed 是否与调制解调器的配置匹配;
通过 show interface async 命令和 show line 命令查看端口的通信状况;从 show line 命令的报告检查 EIA 状态显示;检查接口封装;检查信息包丢失及缓冲区丢失情况。
CISCO路由之排除路由故障
静态路由故障
1、静态路由和有类别查找
当路由选择表进程检查一条使用中间地址(路由选择表中作为下一跳引用的 IP 地址)的可解析的静态路由时,这个检查总是在有类别方式下完成的,无论是否使用 ip classless命令如果在路由选择表中有类别方式下的中间地址不能解析,则删除该静态路由。
使用 show ip route 查看路由选择表。 使用 debug 可以显示某个网络宕掉了。
如果使用无类别方式并有一条默认路由存在, 那么具有高管理距离的备份表态路由将永远不会在主静态路由失效时装入到路由选择表中。 这是因为任何静态路由, 即便是指向不存在的中间地址的静态路由,都会使用默认路由进行解析。
CISCO 路由选择表进程每 60S 调用一个检查路由选择表的静态路由功能来根据动态变化的路由选择表安装或删除静态路由。
2.静态路由和中间地址
静态路由可以使用中间网络地址或出接口来创建。 大多数情况下, 使用出接口在路由选择表进程中解析静态路由更加有效。
只要中间 IP 地址可以在路由选择表中解析,它不必是真实的下一跳路由器的接口。静态网络路由(如中间地址)必须最终被解析为路由选择表中一条具有出接口的路由。
每当路由选择表进程需要为 x.x.x.0/24 网络使用静态路由表项时,它还需要解析中间地址 y.y.y.y,称为递归查找。一次额外的路由查找或许对路由选择进程的性能没有多少影响。但是,采取多次递归查找来获得解析的静态路由可能会影响性能。
3、静态路由优化
为避免递归查找: 串行网络:使用出接口 以太网络:同时使用中间地址和出接口
4、反复的静态路由安装和删除
尽可能地使用出接口而不是中间地址来配置静态路由。
5、使用丢弃路由
有时网络中有环路的产生。 通过周期性的查看路由器接口上的计数器可以看到路由选择环路的结果。
clear counters serial0/0 show interface serial0/0 路由环路的问题在网络中产生了一个黑洞。一旦 IP 头中的生存期( TTL )减到 0 就丢弃分组。
解决 1:有类别模式的路由选择( no ip classless) —— 在用户网络路由器上使用 no ip classless.路由器在至少一个已知子网存在时不会使用任何超网或默认路由。但不是首选。因为它改变了所有分组的路由选择表查找行为。
解决 2:使用一条丢弃路由 —— 当路由选择表中没有特定的匹配,而且使用一条超网或默认路由来转发那些分组并不合适时,一条丢弃路由把分组送给了 null0 ,即比特桶。
ip route x.x.0.0 255.255.0.0 null0 ip route x.x.0.0 255.255.0.0 null0 200 后一个命令行配置仅在主路由失效时使用的另一条丢弃路由。 通过将静态路由的默认管理距离改为比所使用的动态路由选择协议的管理距离更高的一个值来实现。
排除 RIP 故障
1、不兼容的版本类型
debug ip rip show ip protocols 对检查接口上发送和接收的 RIP 分组版本十分有用。 如果 R1 不支持 V2 的版本,只能接收 RIPv1 分组,那么 R2 配置成 RIPv1 和 RIPv2. 可在接口级指定发送和接收 RIP 分组的特定版本 interface e0 ip rip send version 1 2 ip rip receive version 1 2
2、不匹配的认证密钥
RIPv2 的一个选项是可以认证的 RIPv2 更新,为了增强安全性,当使用认证时,必须在双方配置口令。 这个口令被称为认证密钥。 如果这一密钥与另一方的密钥不匹配, 双方都将忽略 RIPv2 更新。 在接口上配置 ip rip authentication key-chain cisco 用 debug ip rip 调试。
3、达到 RIP 的路数限制
RIP 度量标准的最大值是 15 跳。 无法克服这个问题。可以使用非 15 跳限制的路由选择协议。 IGRP 最大跳数是 255,EIGRP 最大跳数是 224,二者默认都是 100.
4、不连续网络
当主网络被另一个主网络分隔开时,被称为不连续网络。 解决 1:使用静态路由 解决 2:在路由器之间的链路地址改为左右不连续网络中的一部分。 解决 3:在两台路由器上用 no auto-summary 配置启用 RIPv2 的无类别路由选择版本。 router rip version 2 network x.x.x.0 no auto-summary 解决 4:使用无类别路由选择协议。 如 OSPF,EIGRP ,IS-IS 替代 RIPv1 路由选择协议。
5、不合法的源地址
当 RIP 告诉路由选择表安装路由时,它执行源合法性检查。如果源所在子网与本地接口不同, RIP 则忽略更新并且不在路由选择表中安装从这个源来的路由。当一方是有编号而另一方是无编号时,必须关闭这个检查。 router rip no validate-update-source
6、翻动( flapping)路由
路由翻动是指路由选择表中一条路由的不断删除和再插入。为了检查路由是否真的翻动,检查路由选择表并查看路由的寿命( age)。如果寿命被不断的重置为 00: 00: 00,这就意味这路由正在翻动。 RIP 有 180S 没有收到一条路由,那么该路由将保持 240S,然后被清除。 使用 show interface 来检查接口统计值。 最常见帧中继环境分组丢失。 使用 show ip route rip 可以检查 RIP 多久没有更新。 使用 show interface serial 0 可查看到接口上有大量的广播分组是否被丢弃。帧中继情况下,可能需要调整帧中继广播队列。 在非帧中继的环境中, 可能需要增加输入或输出保留队列。
7、大型路由选择表
接口上使用 ip summary-address 汇总路由。
排除 EIGRP 故障
1、不匹配的 K 值
EIGRP 为了建立它的邻居关系,计算 EIGRP 度量标准的 K 常数值必须相同。 K1-带宽 K2- 负载 K3- 延迟 K4, K5- 可靠性 router eigrp 1 network x.x.x.x metric weights 0 1 1 1 1 0
2、不匹配的 AS 编号
EIGRP 不会与具有不同自治系统编号的路由器形成任何邻居关系。
3、活动粘滞
(1)确定问题 可能的原因有: 。 坏的或拥塞的链路; 。 低的路由器资源,如路由器上的低内存和高 CPU 处理。 。 长的查询范围 。 过多的冗余 默认活动粘滞定时器只有 180S. 使用 show ip eigrp topology active 命令帮助故障排除 EIGRP 活动粘滞错误, 仅在问题发生时有用, 用户一次只有 180S 的时间来确定。 邻居有一个r跟在后面表示它没有应答查询。
(2)故障排除方法 追踪查询,一跳接一跳,在每一跳找出活动路由的状态。
(3)最终解决方案 尽可能手工汇总路由并有一个分层次的网络设计。EIGRP汇总的网络越多,主收敛发生时需要做的事情越少。
4、重复的路由 ID
EIGRP 只是为了外部路由而使用路由器 ID 的概念来防止环路。 EIGRP 基于路由器上回环接口的最大 IP 地址来选择路由器 ID. 如果路由器没有回环接口, 则选择所有接口中最大的激活 IP 地址作为 EIGRP 的路由器 ID. debug ip eigrp 可以看到接口上通告某个网络。 经验法则:永远不要在网络的两个地方配置相同的 IP 地址。
排除OSPF故障
1、不匹配的参数
使用 debug ip ospf adj 命令能够看到大多数的不匹配问题。 (1) hello/dead 间隔不匹配 —— 匹配才可以形成邻居。 (2)不匹配的认证类型 —— OSPF 下有 MD5 和纯文本认证。 router ospf 1 area 0 authentication message-digest network x.x.0.0 0.0.255.255 area 0 (3)不匹配的区域 ID —— 区域信息在 OSPF 的 HELLO 分组中发送。不同,不会形成邻接。 (4)不匹配的短截 /传输 /NSSA 区域选项 —— 当OSPF与一个邻居交换 HELLO 分组时,它所交换的一项内容是由8比特表示的可选能力。选项字段之一是E比特, 即OSPF短截标志。当 E 比特置0时,该路由关联的区域是一个短截区域, 外部 LSA 不允许进入这个区域。
2.OSPF 状态问题
成为邻居的路由器不保证交换链路状态更新。 一旦路由器决定与一个邻居形成邻接, 它就开始交换其链路状态数据库的一份完整拷贝。 (1)OSPF 陷入 ATTEMPT —— 仅对 neighbor 语句的 NBMA 网络有效。 陷入 ATTEMPT是指一台路由器试图通过发送它的 HELLO 来联系邻居但是它没有收到响应。 show ip ospf neighbor 查看。 原因:错误配置 neighbor;NBMA 上的单播连通性断了,这可能是由错误的 DLCI ,访问列表或转换单播的 NAT 引起的。 (2)OSPF 陷入 INIT —— INIT 状态表示路由器收到来自邻居的 HELLO 分组,但是双向通信并没有建立 . 原因: 一方访问列表阻止了 HELLO ; 一方的多播能力失效(一个交换机故障) ; 仅在一方启用了认证; 一方的 frame-relay map/dialer map 语句缺少了 broadcast 关键字。 一方的 HELLO 在第 2 层丢失了。 (3)OSPF 陷入 2-WAY —— 双向状态是指路由器在 HELLO 分组的邻居字段中见到了自己的路由器 ID.类似于所有路由器的优先级都为 0,则不会发生选举,所有路由器停留在双向状态中。 解决:确保至少一台路由器具有一个至少为 1 的 IP OSPF 优先级。 (4)OSPF 陷入 EXSTART/EXCHANGE —— 在 EXSTART 或 EXCHANGE 状态的 OSPF邻居正处于尝试交换 DBD (数据库描述)分组的过程中。 原因: 不匹配的接口 MTU 邻居上重复的路由器 ID 无法用超过特定 MTU 长度进行 PING 断掉的单播连通性,它可能是因为错误的 DLCI ,访问列表或转单播的 NAT ( 5)OSPF 陷入 LOADING —— 邻居没有应答或邻居的应答从未到达本地路由器, 路由器也会陷入 LOADING 状态。常有 "%OSPF-4-BADLSA" 控制台信息。 原因: 不匹配的 MTU 错误的链路状态请求分组
3、点到点链路的一方是无编号的
interface s0 ip unnumbered loopback0 解决:双方都需要成为一个有编号点到点链路或一个无编号点到点链路。
4、ABR 没有产生一个类型 4 的汇总 LSA
类型4 的汇总 LSA 的一个功能是宣告到其他区域的 ASBR 的可达性。如果同一个区域中存在 ASBR 则不需要类型 4 的 LSA. show ip ospf database external 命令的输出显示在路由器的外部 OSPF 数据库中是否存在路由。 show ip ospf database asbr-summary 命令的输出显示路由是否有类型4的 LSA. 检查 R 是否真是 ABR. 如果是,则产生类型 3 或类型 4 的汇总 LSA.show ip ospf
5、转发地址不能通过区域内或区域间路由获知
当 OSPF 获得一条外部 LSA 时,它在将该路由装入路由选择表之前要确定转发地址可通过一条 OSPF 区域内或区域间路由获知。如果转发地址不能通过区域内或区域间路由获知,OSPF不会将路由装入路由选择表中。 有可能的解决: 不在 ABR 上进行汇总 在 ASBR 上过滤再分布入 OSPF 中的直接子网 router ospf 1 redistribute rip subnets
6、路由汇总问题
两种类型汇总: 可执行在 ABR 上的区域间路由汇总 可执行在 ASBR 上的外部路由汇总 (1)区域间汇总 router ospf 1 area 3 range x.x.x.0 255.255.255.0 通过 show ip ospf 可以查看 (2)外部汇总 router ospf 1 summary-address x.0.0.0 255.0.0.0
7、CPUHOG 问题
产生在:邻居形成过程 LSA 刷新过程
8、SPF 计算和路由翻动
只要拓扑有变化, OSPF 就运行 SPF 算法再次计算最短路径优先树。可能引起链路的不稳定。 原因: 区域内的接口翻动 区域内的邻居接口翻动 重复的路由器 ID 使用 show ip ospf 命令可查看在一个给定区域中 SPF 算法运行的次数; 使用 debug ip ospf monitor 来隔离一个翻动的 LSA ; 使用 show log 命令显示由接口引起的翻动。 解决: 修复正在翻动的链路 重新定义区域边界
排除 IS-IS 故障
1、IS-IS 邻接问题
通常由链路故障和配置错误引起。 show clns neighbors 显示所有希望与被调查的路由器成为邻接的邻居 debug isis adj-packets 命令来调试
2、部分或所有邻接没有形成
步骤 1—— 检查链路故障。 show ip interface brief 步骤 2—— 检查配置错误。 show run 步骤 3—— 检查不匹配的 1 级和 2 级接口。 步骤 4—— 检查区域的错误配置。 步骤 5—— 检查错误配置的子网 步骤 6—— 检查重复的系统 ID
3、邻接陷入 INIT 状态
常见原因:不匹配的接口 MTU 和认证参数。 show clns neighbors 可看到 步骤 1—— 检查认证 debug isis adj-packets 步骤 2—— 检查不匹配的 MTU debug isis adj-packets 步骤 3—— 检查 IS-IS 的 HELLO 填充禁止 (命令同上) 使用 show clns interface 查看接口上的 HELLO 填充状态
4、ES-IS 邻接形成代替了 IS-IS 邻接形成
在 IP 环境中运行 IS-IS 的 CISCO 路由器仍然监听 ES-IS 协议所产生的 ISH.当物理层和 数据链路层工作时,即使没有建立IS-IS邻接的适当条件,仍能形成ES-IS邻接。 show clns neighbors
5、路由通告问题
大多数路由通告问题都可被限制为源端的配置问题或链路状态分组 (LSP)的传播问题。 Dijkstra 算法运行在 LS 数据库上来获得每个被通告路由的最佳路径。 debug isis update-packets debug isis snp-packets 以上两个调试帮助故障排除 LSP 洪泛问题和链路状态数据库同步。 路由没有到达网络远端的问题可能有许多潜在原因,包括邻接问题,第 1/2 层问题,IS-IS错误配置以及其他问题。
6、路由翻动问题
网络中 SPF 进程的高 CPU 利用率( SHOW PROCESS CPU 命令)也应标记为不稳定。 不稳定链路。 翻动还有可能是由 LSP 的错误风暴或一个路由选择环路引起。 show isis spf-log 命令显示哪个 LSP 变化最频繁以及哪个 LSP 角发了 SPF 计算。 show isis update-packets
排除 BGP 故障
1、故障排除 BGP 邻居关系问题
遵循:首先,应检查第 1/2 层,然后是 IP 连通性(第 3 层),TCP 连接(第4层),最后是 BGP 配置。 (1)直接的外部 BGP 邻居没有初始化 自治系统( AS)不会向 AS 发送或从 AS 接收任何 IP 前缀更新,除非邻居关系达到established 状态,该状态是 BGP 邻居建立的最后阶段。当 AS 有一条单一的 EBGP 连接时,直到 BGP 完成了它的收发 IP 前缀操作后 IP 连通性才能发生。 原因: 第 2 层宕掉了,阻止了与直接的 EBGP 邻居通信 在 BGP 配置中有错误的邻居 IP 地址 命令: show ip bgp summary 和 show ip bgp neighbors 检查 BGP 邻居关系 active 状态表示邻居间没有发生成功的通信, 并且邻居未形成。 用 PING 测试其连通性,失败则表示要修复第 1/2 层问题。 debug ip bgp 能够帮助诊断问题 (2)非直接的外部 BGP 邻居没有初始化 有些情况下, EBGP 邻居不是直连的。 BGP 邻居关系能够建立在试图形成由一台或多台路由器分隔开的 EBGP 邻居关系的路由器之间。这种邻居在 IOS 中被称为 EBGP 多跳。 当路由器之间存在多个接口并且需要在那些接口之间 IP 流量负载均衡时,通常在回环接口之间建立 EBGP 对等实体。 可能的原因: 到非直连对等实体地址的路由从路由选择表中丢失了 BGP 配置中缺少 ebgp-multihop 命令 缺少 update-source interface 命令 命令: show ip bgp summary 和 show bgp neighbors router bgp 109 neighbor x.x.x.x remote-as 110 neighbor x.x.x.x ebgp-multihop 2 neighbor x.x.x.x update-source loopback0 (3)内部 BGP 邻居没有初始化 原因: 到非直接 IBGP 邻居的路由丢失了 BGP 配置中缺少 update-source interface 命令 (4)BGP 邻居(外部和内部)没有初始化 接口访问列表 /过滤是 BGP 邻居活动问题的一个常见原因。
2、故障排除 BGP 路由通告
发生在 BGP 路由通告的产生和接收中。 (1)没有产生 BGP 路由 原因: IP 路由选择表中没有匹配的路由 发生了配置错误 BGP 自动汇总到有类别 /网络边界 (2)向 IBGP/EBGP 邻居传播 /产生一条 BGP 路由的问题配置的分布列表过滤可能是该问题的起因,或者是策略路由选择有问题。 (3)向 EBGP 邻居但没有向 IBGP 邻居传播一条 BGP 路由的问题 show run show ip bgp show ip bgp summary 解决: 使用 IBGP 全互联 设计一个路由反射器模型。 router bgp 109 neighbor x.x.x.x route-reflector-client 设计一个聪明模型 (4)向 IBGP/EBGP 邻接传播一条 IBGP 路由的问题 一条 BGP 路由只有首先通过 IGP 或静态路由获得后才是同步的。 show ip bgp 命令的输出显示了 BGP 表中的不同步路由。
3、排除路由没有装入 IP 路由选择表中的故障
原因: ( 1) IBGP 原因 IBGP 路由不同步 BGP 下一跳不可达 ( 2)EBGP 原因 在多跳 EBGP 情况下 BGP 下一跳不可达 BGP 路由被抑制 多出口鉴别器( MED )值为无穷
4、BGP 下一跳不可达
解决: 使用静态路由或再分布经由 IGP 宣告 EBGP 下一跳 router ospf 1 network x.x.x.0 0.0.0.255 area 0 使用 next-hop-self 命令将下一跳改变为一个内部对等实体地址 router bgp 109 router ospf x.x.x.x next-hop-self
BGP 路由被抑制 抑制( dampening)是减小本地 BGP 网络中来自 EBGP 邻居的不稳定 BGP 路由所引起的不稳定性的方法。 抑制是一种为一条翻动的 BGP 路由指派一个罚点的方法。 router bgp 109 bgp dampening