华为TN11TOM单板故障导致4个端口同时LINK_ERR告警
问题描述
某日OSN8800设备TN11TOM单板的4个端口同时上报LINK_ERR告警,导致所承载的4个GE业务中断。硬复位单板后,业务恢复。用户需要找到故障原因。
处理过程
Step 1 确认故障现象,2014-11-12 16:48:38 lp2和lp3 4个GE端口上报LINK_ERR告警, 2014-11-12 16:49:28 上报3个HARD_BAD,2014-11-12 17:14:34硬复位后故障消失。
Step 2 确认告警含义,3个HARD_BAD表示单板3片业务芯片均上报了锁相环失锁告警,与提供给业务芯片的业务参考时钟相关;
同时,从日志来看8103第2、3、4号芯片都有HARD_BAD告警产生,日志里记录了时钟失锁以及一线手动复位的的记录,没有其他异常记录。
Step 3 多个业务芯片同时上报告警,可能的原因有芯片同时失效(业务芯片和时钟芯片)、业务配置错误、电源失效、业务流有问题。
故障可能原因 |
详细分析 |
结论 |
|
业务配置错误 |
和一线沟通,事故前未有对事故单板、端口修改配置等操作;同时分析日志确实无端口修改配置的操作。实验室模拟故障环境,对比单板的时钟配置无异常。 |
排除业务配置错误 |
|
电源失效 |
单板日志无电源异常告警,同时单板硬复位后故障消失,若电源异常硬复位故障不会消失。 |
排除电源失效 |
|
业务流问题 |
实验室模拟50次单板出现LINK_ERR告警,但单板上都无HARD_BAD告警上报,与现网现象不一致。 |
排除业务流问题 |
|
芯片失效 |
DDS 时钟芯片同时失效 |
3Pcs DDS时钟芯片同时失效可能性极小,同时结合之前DDS的失效现象硬复位是不会消失的。 |
排除DDS 时钟芯片同时失效 |
业务芯片SD8103同时失效 |
3Pcs 业务芯片同时失效可能性极小。 |
排除业务芯片同时失效 |
|
单板小逻辑DDS故障 |
单板小逻辑DDS控制部分是业务芯片时钟的源头,同时单板硬复位后会重新加载DDS。故障现象吻合。 |
确定单板小逻辑DDS故障 |
单板的时钟控制框图如下,FPGA DDS部分控制着多片DDS和SD8103业务芯片的,为单板业务时钟的源头,若FPGA DDS控制部分失效,会同时造成业务芯片上报锁相环失锁告警。
Step 4 TN11TOM单板已发货超过20K PCS, FPGA DDS控制部分失效为首次发现。
根因
1) TOM单板LINK_ERR告警是由于FPGA芯片失效导致。
2) TN11TOM单板已发货20K Pcs,FPGA DDS控制部分失效为首次发现。硬件故障。
解决方案
1)单板上报HARD_BAD 告警,支持DDS时钟异常,从而导致业务上报LINK_ERR
2)分析HARD_BAD,确认为FPGA逻辑芯片失效 3)经过排查,该失效为零星失效,更换TOM单板后故障排除。
公司所销售的TN11TOM产品质保一年,终身服务。 洽淡热线:18925278760 QQ:2997986357 王生