小部件影响大系统?析航空公司电脑当机原因

人气 961

【大纪元2017年05月30日讯】(大纪元记者林燕综合报导)航空公司电脑系统庞大,有时候却能因为一个小部件引起全局瘫痪,这种短板效应正在对各国航空业提出更高的要求。

而近日英国航空公司(British Airways)的当机事件只是其中一件,在国际化的今天,当机足已影响全球。

故障开始于英国当地时间星期六(5月27日),因电脑故障,英航取消约800班航班。除了国内航线大部分被取消,英航来往多个城市的航班也受影响,包括飞往罗马、布拉格、希拉格、斯德哥尔摩和马拉加的飞机停飞。

英航飞往亚洲主要的航点——包括香港国际机场、北京首都国际机场、上海浦东机场、新加坡樟宜机场、东京成田国际机场和曼谷素万那普国际机场——航班都被取消。

到星期日(5月28日),部分电脑系统已经恢复,但还有航班受影响需延迟,乘客持续滞留机场,网上传出乘客盖毛毯睡地板、靠行李车上打盹的图片。

星期一(5月29日),电脑系统修复完成,据悉英航计划当天恢复95%以上的伦敦希斯罗(Heathrow)和盖特威克(Gatwick)机场之间的航班。

近几年来,因电脑当机引发的机场混乱几乎年年有。就在上个月,德国汉莎航空公司(Lufthansa)和法国航空公司(Air France)电脑也出现当机,发生短时间内不能让乘客登机的现象。在电脑技术发展的今天,为何连小企业都能轻易通过云端处理器操作业务,而大型航空公司每年耗费巨资,却频现当机事件?原因何在?航空电脑系统的升级与维护再次引起大家的关注。

三因素可能引发航空电脑当机

航空专家称有三个因素会导致电脑系统当机。这也是每次航空公司电脑当机后,一一排除的三个因素。

第一、无备用系统或备用系统不工作。有的航空公司可能没有备用电脑系统,但值得关注的是,近年来大型航空公司发生的当机事件中,基本上都是未能正常启动备用系统。

第二、骇客恶意攻击。航空公司都有加强安全性,以防骇客攻击网站,获取公司或客户信息。这是目前最容易被怀疑、担忧的造成电脑当机的原因。

在英航当机当天,英航首先排除的就是电脑网络未遭受袭击。英航首席执行官克鲁兹(Alex Cruz)表示,初步调查认为事故原因跟电脑的电力系统有关。

第三、人为错误导致。分层系统可能随着时间,突然出现某种故障,导致整个系统崩溃。这个原因就需要较长时间来查明和修复。

短板效应 小零件影响大系统

在过去五年间,美国有三分之一大型企业都表示曾发生过至少一次大型的电脑当机事件。《华尔街日报》在2016年指,系统复杂性增高会产生更多的当机与恢复速度变慢的问题。像航空公司通过各层架构——每一层系统具有不同的配置、有不同的功能——都会意外地增加电脑网络当机的风险。

“网络规模、嵌入或连接网络的设备数量都在持续增加”,航空顾问曼尼(Bob Mann)表示,“即便是最信赖的设备仍然有出错的概率,只是比较随机和出错少。因此,在设备越多的情况下,任何一个设备出错,产生的潜在危害都会越大。”

对航空电脑系统而言,需要把电脑与数十亿的其它电子设备或电器连在一起时,有时由于一些小部件当机。IT咨询公司高德纳(Gartner)的利坦(Avivah Litan)表示:“当机可能是上百个独立部件引起,软体、硬体或者网络都有可能。”

比如2016年7月,美西南航空公司电脑系统瘫痪的原因是,系统中有一个路由器出现故障;而同年8月,达美航空公司也出现电脑当机,原因是重要系统与网络设备没有转换到备份系统,大约7,000个资料中心零部件中有300个没有配备到备用电源。

但是这种短板效应,由小部件引发的影响却能影响全局。“任何单一部件的问题都会放大到整家企业,因为在系统恢复过程中,各项服务间所有协调过程对企业而言都是一个大工程。”利坦分析道。

航空电脑拼凑升级留隐患

另外一个可能导致航空电脑系统不工作的原因是,电脑系统里新旧并存,既有领先的新技术应用,同时也在不断升级老技术,可能新老技术之间存有磨合的可能。

专家称,现代航空公司背后的计算机系统并不现代,有些仍在沿用过去几十年的旧系统,一直靠拼凑升级维护;但在面对现在的高需求下,可能旧系统滞后或力不从心。美联社(AP)指,这些年航空业快速整合,电脑系统也可能成为包含各种不同年代及不同合并公司原有系统的大杂烩,随着客流量的增加,电脑系统承担的工作负担更重,要进行处理的作业也多很多,出问题的可能性也会越多。

“现在的电脑系统存在大量的‘拼凑’升级,但是又没有更好的办法来改变这种情况,除非彻底改革整个航空业的计算机基础设施,才能真正改善IT系统运作。”航空公司新闻(Airways News)商业分析师巴斯卡拉(Vinay Bhaskara)告诉商业内幕(Business Insider)。

“航空业电脑系统有很多标准,整个行业需要大改变才行。”巴斯卡拉表示。而这种改变不可能来自某一航空公司或供应商,只能期待领先的航空公司或科技公司来引领航空业到另一个科技高度。

防当机 先保证备用系统工作

要预防电脑当机,专家指解决办法就是安装更为自动化的备用系统。在不忙碌的时间段,让现运行的系统脱机,并同时启动辅助和备用系统,确保后者能够正常工作。

按道理,航空公司(尤其是大型)都有备用应急恢复系统,但近年来少见备用系统起作用。2015—2017年发生的航空公司电脑当机事件中,至少有两起因为电力供应问题引起备用系统不工作。

所以不是说有备用系统,而是要保证备用系统能正常工作。因为航空公司跟银行和零售商店不同,要是出现电脑故障,处理会特别麻烦,从操作航班、处理票务、登机以及行李运送等,再到航空公司网站以及手机App程序,都离不开这套系统。一出问题,往往需要花上几小时甚至几天才能发现故障原因,成功修复。

“每个人都要面对有时技术靠不住的时候,但是你要有足够的弹性,如果不能在几分钟之内快速恢复系统,或许可以(保证)在半小时以内恢复。”利坦表示。

电脑系统“外包安全性”再惹关注

外包部分电脑系统是航空业常见的做法,“外包安全性”质疑在英航当机事件中再次被提出。英航工会GMB将本次当机事件归咎于英航把电脑系统服务外包,指2016年英航的电脑系统就存在缺陷,因为英航一方面省钱,裁减IT员工,另一方面将工作外包给印度。

面对质疑,英航强调外包是行业做法,并没有因为外包而忽视安全。其CEO克鲁兹告诉英国天空新闻台(Sky News),本事件不是因为电脑系统外包服务所致。“这次事件涉及的各方都不存在任何类型的境外外包。它们全是当地数据中心在当地(发生的)问题,也同样找当地资源进行管理和修复。”

因为航空业的特殊性,尤其是国际航班,航空电脑与政府的禁飞名单(No Fly Lists)以及签证系统相连,所以对安全性要求非常高。《航空周刊》的卡普兰(Seth Kaplan)表示:“因为他们在安全与安保方面必须有大量考虑,所以有些方面它们被限制住、而其它商业则不会触及这些。”因此,航空公司也不可能像其它商业那样,把电脑系统完全托给第三家公司来运转,通过云端处理器轻松完成各项事宜。

换句话说,在备用与安全之间,航空公司不自主地必须选择后者。这也是英航回应工会指责时,强调英航不会牺牲系统的安全,并表示本次事件没有涉及电脑系统的外包事宜的原因。

除了外包,专家表示还有以下原因可能影响航空公司对电脑系统的投入与维护:第一、航空公司裁减与电脑系统相关的IT支出,包括把IT系统的保养与修复经费转作客服端的应用程序与服务;第二、在并购企业中,为整合部门或为了省钱,直接使用或导入新并购公司的IT系统,也会造成IT风险增加;第三、航空公司商业与科技团队之间缺乏协作能力,也同样会导致电脑系统恢复速度缓慢。

每次当机事件会给航空公司带来巨大经济损失,所以在一定程度上,这也是航空公司改进电脑系统的契机,只是说代价很大。比如这次英航电脑当机正好赶在长周末以及学校放假期间,有上千名旅客出行受影响,据估计至少给英航带来近七千万美元的经济损失。

根据飞行补偿网站Flightright.com估计,星期六和星期日两天,英航在希斯罗和盖特威克两个机场约取消800次航班。根据欧盟规定,英航可能要支付约6,800万美元(6,100万欧元)赔偿金,这还不包括顾客入住酒店的报销费用。

而受影响的乘客除了等待,重新预约航班、打电话联系行李外,还可以记住一条:在登记台(Check-in)托运行李时,不要托运牙刷,以备不时之需。#

责任编辑:林诗远

相关新闻
希斯罗机场混乱持续 迷航行李堆积如山
英航大当机 美多个机场航班延误
电脑系统当机 英航取消伦敦起飞班机
英航电脑系统当机 电源供应故障所致
如果您有新闻线索或资料给大纪元,请进入安全投稿爆料平台
评论