从一次跨域业务中断说起:用Wireshark抓包带你复盘MPLS Option B的故障排查全流程

张开发
2026/4/17 17:00:27 15 分钟阅读

分享文章

从一次跨域业务中断说起:用Wireshark抓包带你复盘MPLS Option B的故障排查全流程
从一次跨域业务中断说起用Wireshark抓包带你复盘MPLS Option B的故障排查全流程那天凌晨3点17分监控大屏突然跳出红色告警——核心业务系统的跨域交易成功率断崖式下跌至12%。作为网络团队的值班负责人我立刻意识到这绝非普通故障我们采用MPLS Option B架构连接的两个自治域AS65001和AS65002之间可能出现了路由黑洞。抓起笔记本冲向机房时脑海中已经浮现出ASBR设备R3/R4的拓扑位置以及Wireshark捕获面板上那些熟悉的MPLS标签字段。本文将完整还原这次历时4小时37分钟的故障排查过程你会看到如何通过逐层解码BGP VPNv4报文最终定位到那个被所有人忽略的RT属性匹配异常。1. 故障现象与初步诊断当核心业务系统出现跨域访问异常时首先需要明确故障的影响范围。通过以下快速检查清单我们在8分钟内完成了第一轮故障定位连通性测试# 在AS65001的PE设备R2上测试跨域路径 ping -vpn-instance VPN_A 10.2.0.5 # 目标为AS65002的PE设备R5下挂业务地址返回结果显示请求超时但同一VPN实例内的本地业务10.1.0.0/24网段通信正常。路由表检查display bgp vpnv4 vpn-instance VPN_A routing-table对比正常状态发现缺少AS65002传来的200多条VPN路由。MPLS标签转发表display mpls lsp include 10.2.0.0 24输出显示标签分发异常远端路由对应的出标签值为NULL。关键发现ASBR设备R3的BGP会话状态显示正常但VPNv4路由更新出现中断。这提示我们需要深入分析MPLS标签分发过程。2. Wireshark抓包策略设计在MPLS Option B架构中ASBR设备R3/R4是故障排查的关键节点。我们采用以下抓包方案捕获点选择控制平面在R3的GigabitEthernet0/0/1接口连接R4抓取BGP VPNv4报文数据平面在R4的GigabitEthernet0/0/2接口连接R5捕获MPLS标签交换流量Wireshark过滤器配置# 控制平面过滤器 bgp.type 2 bgp.update.nlri.len 0 # 只捕获携带路由更新的BGP消息 # 数据平面过滤器 mpls ip.addr 10.2.0.5 # 聚焦目标业务地址的MPLS流量关键字段解析表协议层字段名正常值示例异常可能MPLSLabel17 (私网标签)0 (隐式空标签)BGPMP_REACH_NLRIAFI1, SAFI128缺失或SAFI值错误VPNv4Route Target65001:100与对端配置不匹配BGPNEXT_HOP192.168.3.1跨域未自动修改3. 控制平面深度分析通过对比正常时段的基线抓包文件我们发现三个异常点异常1RT属性不匹配BGP Update Message (Wireshark解析片段) Path Attribute: MP_REACH_NLRI Address Family Identifier VPNv4 (1,128) Next Hop Network Address: 192.168.3.1 NLRI: Route Distinguisher: 65002:200 Route Target: 65002:200 # 应为65001:100 Label: 24006异常2下一跳未自动更新# 正常情况下的ASBR行为 R3(config-router-af)# neighbor 192.168.34.1 next-hop-unchanged ? all Retain the next-hop attribute for all routes vpnv4 Retain the next-hop attribute for VPNv4 routes # 实际配置误设为all导致路由黑洞异常3标签分发中断MPLS Label Stack (Wireshark解析) Time: 03:22:17.543 Label: 17 (Bottom of Stack) Label: 24011 (Expired) # 标签映射超时未刷新操作建议在ASBR上执行debug bgp vpnv4 updates可实时观察路由更新过程配合Wireshark捕获更易定位问题。4. 数据平面转发验证根据控制平面分析结果我们在R4上进行了标签转发测试正常转发路径入口PER5压入两层标签外层1025R4的公网标签内层24011VPN私网标签ASBRR4交换私网标签display mpls lsp verbose InLabel: 24011 - OutLabel: 17, Interface: GE0/0/1出口ASBRR3继续转发至PER2实际故障路径# 在R4上观察到的错误标签操作 InLabel: 24011 - OutLabel: 3 (implicit-null) # 导致提前弹出标签通过流量注入测试我们最终确认问题根源# 使用Scapy构造测试报文简化版 from scapy.all import * mpls_pkt Ether()/IP(dst10.2.0.5)/MPLS(label24011,cos1)/MPLS(label1025)/ICMP() sendp(mpls_pkt, ifaceeth0) # 在R5的接入端口发送 # 在R4上抓包显示标签栈被异常剥离5. 故障修复与经验总结根本原因锁定后我们实施了以下修复步骤修正RT配置R4(config)# vpn-instance VPN_A R4(config-vpn)# route-target import 65001:100 # 添加缺失的RT导入策略调整下一跳处理R3(config-router-af)# no neighbor 192.168.34.1 next-hop-unchanged all R3(config-router-af)# neighbor 192.168.34.1 next-hop-self # 强制下一跳更新优化标签分发R4(config)# mpls ldp R4(config-mpls-ldp)# graceful-restart # 启用平滑重启防止标签超时这次故障给我最深刻的教训是MPLS Option B架构中ASBR的BGP策略必须与两端PE严格同步。特别是在以下场景需要特别注意跨域扩容时新增VPN实例路由反射器拓扑变更后ASBR设备软件版本升级凌晨4点53分当监控大屏上的业务指标恢复绿色时我保存了完整的Wireshark抓包文件——这将成为团队知识库中最新的排错案例。下次遇到类似问题或许只需要检查display bgp vpnv4 all routing-table输出中那些不起眼的RT属性就能少走4个小时的弯路。

更多文章