防火墙双机热备典型故障现象及定位
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
双机热备份典型故障现象及定位
当前现网组网基本上都是双机热备份组网,而现在由于双机热备份配置或者是组网带来的问题导致现网业务中断也是多有案例出现,下面就几个典型案例来介绍防火墙双机热备份组网中的常见故障及故障定位解决办法。
1案例一:双机热备份组网部分业务中断的问题
业务与软件部门在河北某局点于2007年11月用两台Eudemon 1000替换NetScreen的防火墙NS500,业务割接之后发现部分业务不通,最终定位为双机热备份配置的问题。
1.1组网图:
组网图如下所示,其中图中注明的新增的两台Eudemon 1000是替换掉NS500割入的设备,防火墙使用路由模式组网,使用的版本是EU300&500&1000&SP1800-VRP3.30-0359(08)。
1.2防火墙配置:
防火墙配置如下附件所示:
由于此次割接是Eudemon 防火墙替换NS500的防火墙,所以防火墙的配置基本上是把NS500的配置翻译成防火墙的配置之后割接上去。
1.3故障现象:
防火墙割接上去之后,发现用一个测试软件从trust到dmz域做NAT outbound出去访问一个指定的server不通,但是可以从防火墙上ping通此server服务器,查看防火墙会话,有从测试PC到server的会话。
刚开始业务与软件部门的兄弟开始检查配置,找自己的部门人员分析,反复查看配置及组网,对比防火墙和NS500的配置之后,仍然没有发现任何疑点,因为NAT地址的地址以前在NS500上使用是可以的对外发起访问的,但是在Eudemon 1000上却对外发起访问不成功,由于此次割接只是用防火墙Eudemon 1000替换NS500,其他设备没有什么改动,初步定位问题出现在防火墙上。但是防火墙上已经建立了从内网访问server的会话,如果按照防火墙的转发原理,只要回来的报文能到达防火墙,都能命中会话转发到测试PC上。
1.4定位过程:
最后现场技术支持和用服找到防火墙研发,防火墙研发登陆到防火墙上,开始进行定位。首先查看从测试PC到指定Server的会话,确实是存在从测试PC到指定Server的TCP会话,同时存在从F5到Server的会话。当时让现场工程师从F5 ping Server,发现ping不通,然后查看防火墙上的从测试PC到Server的会话,发现会话的老化时间都是10S钟。
根据上面的现象,初步断定是报文从防火墙做NAT出去之后回来的报文没有达到防火墙上,因为如果报文能回到防火墙上,会命中会话转发到F5或者是测试PC上,ping和TCP的三次握手能完成,F5能ping通Server,从测试PC到Server的TCP连接的会话老化时间应该是20分钟而不是10S。
首先让现场工程师查看从防火墙的上行设备上是否有地址池地址的路由能到达防火墙,查看路由没有问题,然后查看防火墙上行设备上的对应的地址池的ARP表项是否正确,发现此设备上没有到地址池的ARP表项,所以导致到防火墙NAT地址池的地址的报文因为没有ARP转发不到防火墙上。通过在防火墙上行设备上ping防火墙的NAT地址的地址,使上行设备
主动请求防火墙的NAT地址池的ARP,还是得不到防火墙NAT地址池的ARP。
最后查看防火墙的NAT地址池的配置,发现配置的NAT地址池的VRRP ID和回来的报文的接口上的VRRP的ID不一致,把VRRP ID修改成回来报文的入接口的VRRP的ID,F5能ping通Server,测试PC能正确和Server建立连接,问题解决。
1.5原因分析:
防火墙做双机热备份,配置的NAT地址池的地址需要带上出接口的VRRP的ID,保证和防火墙相连的设备请求NAT地址池地址的ARP的时候,主防火墙能正确的回应ARP报文而备防火墙不回应此ARP请求。如果出接口的VRRP ID和NAT地址池上的VRRP的ID不一致,主备防火墙都不会回应此ARP请求,导致业务中断。如果NAT地址池不带VRRP的ID,主备防火墙都会使用接口MAC地址回应此ARP请求,会导致报文被转发到备防火墙上,出现业务时而通时而不通的情况。如果出接口没有配置VRRP的ID,配置NAT地址池或者是NAT Server的时候不带VRRP的ID,也不能带其他接口的VRRP的ID。
1.6问题定位思路:
此问题虽然是由配置引起的,但是也涵盖了双机热备份定位的思路,这些问题基本上是部分业务中断。
1:首先排除包过滤的原因,以及攻击防范的原因。
2:查看防火墙上的会话的状态,用ping进行测试,查看如果有对应的ICMP的会话,但是仍然ping不通,就要查看icmp的回应报文是否达到发火墙了。
3:对于判断是回应的报文没有到达防火墙上,可以查看防火墙上下行的路由是否配置正确,ARP表项是否正确,如果不正确,查看并修改配置。
4:如果配置没有问题,查看业务故障的时候备防火墙的日志信息,如果有出现主备倒换的日志,说明备防火墙发生备->主->备的倒换,更新了上下行设备的ARP表,
导致业务异常,此时需要在防火墙上下行配置静态ARP,恢复业务,并寻求技术支
持。
1.7类似问题的其他局点:
坦桑尼亚局点曾经也因为NAT地址池和NAT Server的问题导致业务中断,最后在NAT地址池和NAT Server上配置上VRRP的ID后业务恢复。
2案例二:双机热备份组网全网业务中断的问题。
PS部门2007年8月在江苏某局点新上线2套GPRS设备,其中涉及到四台防火墙,分别部署在两个机房,两个机房的配置和组网完全对称,其中一个机房在运行中发生业务全网业务中断,主备倒换之后业务恢复,另外一个机房的防火墙没有出现此问题。问题没有复现,后来研发到现网支持,并进行相关业务割接的时候复现问题,最终定位为防火墙双机热备的问题。
2.1组网图:
组网图如下所示,两个机房形成对称组网,其中左边的机房出现了全网业务中断的情况,二右边的机房业务一直都运行正常,两边机房组网配置几乎完全一样。图中虚线表示是备份链路,防火墙上下行设备都起VRRP,防火墙起HRP。
2.2防火墙配置:
防火墙下行是交换机,做二层转发用,防火墙上行是NE40,上面配置二层板,能透传组播及广播报文。附件中是防火墙的配置,除了主备防火墙的ACL不一致之外,其他的配置