第二十八章,重大事故(1 / 2)

加入书签

<!--go--><div id=center_tip> 第二天中午,曹松和钱旦站在“ST电信”的楼下准备打电话叫兄弟们一起去吃饭。

曹松拨着手机,越拨越紧张:“旦哥,我打楼上几个人的电话打不通了。”

钱旦掏出手机:“我打下林汉的电话。”

那天林汉不在“ST电信”,在“伟中”的办公室里。

钱旦也紧张了:“打不通。”

曹松说:“旦哥,我打你电话。”

说罢他拨了钱旦的电话。

两个人面对面站着,尽管曹松没有用免提,钱旦还是清清楚楚地听见他手机里的忙音。

没有风,时间凝固,两个人背上直冒汗,转身“噔噔噔”往楼上跑。

他俩冲进机房,就见甘法斯和两个客户围着小伟,小伟专注地盯着维护终端。曹松叫:“小伟,怎么回事?”

小伟的声音颤抖:“不知道,好像业务全断了,我在跟踪消息、看日志。”

“你怎么不通知我们?”

“我不知道你们在哪儿,打你们电话打不通。”

曹松看了一眼维护终端,当机立断:“别找原因了,你把几个业务进程重启一下,我去把交换机的几块板子倒换了。”

他俩分头操作,一个重启主机上的软件进程,一个倒换交换机上的主备板,然后,几个人焦急地等待着,几十秒的时间特别漫长。

小伟喊:“哎,应该是好了,我拨测看看。”

话音未落,老钟黑着脸冲了进来,陈永生紧跟在后面。

老钟大声说:“怎么回事?我正在见‘CEO’,说业务全断了,是我们预付费系统的问题?!”

曹松赶紧说:“好了,好了,我们正在拨测,已经恢复了。”

老钟连着发问:“断了多久?断了多少用户?什么原因?”

曹松回答:“看日志断了三十分钟,还不知道原因。”

老钟很不满意:“不知道原因?你们断了也不知道怎么断的?好了也不知道怎么好的?”

钱旦解释说:“钟总,我们先通过重启、复位把业务恢复了,接下来再找原因。我们处理重大事故应该是优先恢复业务、然后再找原因这个顺序的。”

老钟身后的陈永生发言:“不知道事故原因?那事故会不会重现?”

钱旦赶紧表态:“我们守着,找到原因之前我们全部守在这里。已经向家里通报事故,拉研发的专家上来分析了。”

老钟要求:“向家里哪个领导通报事故了?给你们王总打电话没有?马上安排最牛的研发专家支持,赶紧查清楚原因,我先回‘CEO’那里去,有进展第一时间打电话给我。”

陈永生跟着老钟走出去又折返回来,把钱旦拉到一旁,压低声音说:“最好别是‘伟中’的原因,尤其不能是现场导致的人为事故,即使‘是’,你也要弄成‘不是’,不然要‘死人’的!”

通信网络的重大事故通常指的是因为设备故障导致电话打不通、短信发不出、上网上不了等业务中断的情况。这样的重大事故不仅会给电信运营商造成经济损失、品牌伤害,还可能带来恶劣的社会影响。

一张通信网络不可能永远是零事故,但必须能够及时恢复事故,必须避免同样的事故一再发生,“伟中”作为设备供应商,有理所当然的责任和义务。

“伟中”有严格的事故处理以及回溯的机制,在每一起重大事故处理完成后都必须先进行技术回溯,找到导致事故发生的所有原因,识别出根因,然后在技术回溯的基础上进行管理回溯,找到在业务流程、管理机制上的改进点,并且对责任人进行相应的问责。

重大事故的根因分类要么是因为客户或者网络上的第三方设备导致的“非供方原因事故”,要么是因为“伟中”的设备原因或者现场服务人员操作错误导致的“供方原因事故”。

最糟糕是被定性为现场服务人员操作错误导致的“人为事故”,当事人往往会受到严厉的处罚,例如一年多以前,也门子公司的人为重大事故之后,当事工程师被辞退,子公司服务主管被撤职、调离,连地区部的老韩、老谢都负连带责任被通报批评并被罚掉一笔“巨款”。

几个人已经不存在吃午饭这回事了,也忘记了晚饭。

他们一直忙到深夜才把事故的来龙去脉梳理清楚,“ST电信”的这套预付费系统的核心数据网络未与客户维护人员的维护操作网络做有效隔离,客户维护人员的网络也没有与客户办公室的办公网络做有效隔离,正是其办公室网络上的异常网络流量,也就是所谓的网络风暴导致核心系统受到影响,从而导致事故发生。

事故中断时长三十分钟,五十万用户呼叫受影响,也就是说当天中午苏丹有五十万手机用户在三十分钟内打不通电话。

事故的导火线是客户办公室网络的网络风暴,客户的维护团队也不想把账算在自己头上。他们和“伟中”的团队一起写了报告,把事故原因归结在了其办公网络的管理上。

再加上陈永生跑上跑下地做着几个关键客户的关系,两边的管理层对曹松他们并没有太大不满,只是责令双方技术团队完成数据网络的整改。

过了两天,曹松、钱旦召集团队所有成员开事故总结会。

小伟讲解了事故回溯报告,他说:“这次幸好是客户原因造成的事故,影响不算太大,我们要提高警惕,不能再出事故。”

曹松站起来走到门口望望外面,把门关上,等不及回到座位上就开口了:“没有外人,别客户原因事故了,我一世英名差一点就毁在苏丹了!这就是人为事故,几年前在国内就发生过因为网络没有隔离,客户维护人员在维护终端上用‘金山影霸’看电影把网络搞瘫了的事故。早几年公司就发过预警要求全网整改,现在都是哪一年了?亏得是在苏丹,要是在国内现在出这种事故我就死定了。都算我的错,下不为例,我明天请大家好好吃一顿去。”

钱旦说:“这颗雷好歹是被我们自己踩了,没有留给后人。不仅是‘ST电信’的数据网络要整改,我们要组织检查北非中东的所有数据网络,有隐患的都得整改。另外,我这两天琢磨,我们要把维护工作的要素总结出来,提高警惕,抓好‘三个K’,第一个‘K’是‘Key Network’,我们把区域内需要重点保障的关键网络识别出来,重点盯防;第二个‘K’是‘Key Actions’,明确每张网络日常维护要做的关键动作,包括日常的检查;第三个‘K’是‘Key Time’,每张网络都要有应急预案,维护人员要熟知事故发生时的应对方法,还要不时演练。”

林汉说:“‘三个K’,好!我现在就提一条‘Key Action’,今后所有兄弟都要有两个手机,而且必须是两个不同运营商的手机,万一再出这种业务全断了的事故不能再互相联系不上了。”

小伟说:“我也提一条……”

↑返回顶部↑

书页/目录