澎湃Logo
下载客户端

登录

  • +1

航信故事|中国民航旅客服务系统容灾体系的探索与建设

2025-03-21 17:10
来源:澎湃新闻·澎湃号·政务
字号

原创 中国航信集团 中国航信集团

上期回顾:

在即将跨入新千年之际,中国航信全面升级系统,成功克服千年虫难题,并建成北京东四机房,综合实力显著提高。

2001年,美国纽约的“9·11”恐怖袭击事件彻底改变了IT行业对数据安全的认知,美国纽约曼哈顿下城世贸中心双子塔被彻底摧毁,大厦内无数企业的办公场所瞬间化为乌有,大量历史数据永久丢失。这一突发事件让全球企业都深刻认识到数据容灾和业务连续的重要性。

此时,全球范围内数据备份和灾备系统正处于探索阶段,缺乏成熟的解决方案和可借鉴的成功案例,实现数据实时备份的技术尚不成熟,受到网络带宽、磁盘复制技术等诸多制约,中国航信在有限的技术条件下,开启了自主探索与实践。

根据当时制定的备份维护流程,北京东四机房生产系统每天以早、中、晚三次将数据库数据进行磁带备份,通过交通工具将磁带转送到北京三里屯备份机房,再将数据装入备份系统。这种“土办法”虽然在一定程度上提高了数据的安全性,但仍然存在数据丢失的风险,在最坏情况下,系统可能会丢失八小时数据。

2002年底,中国航信在北京东四机房与北京三里屯机房之间建成了高速光纤数据通道,为数据的实时传输提供了有力支持。随后,SRDF磁盘同步技术的引入使得中国航信实现了数据的异地实时同步,提高了数据的安全性和业务的连续性。这项磁盘技术是当时非常先进的一项异地数据实时同步技术,经过测试,在东四、三里屯之间,其数据的损失可以降到很小的一个数据包,将备份主机系统与异地实时同步远程磁盘相连接,当中国民航旅客服务系统发生灾难时,可以在30分钟内完成向备份系统的切换,在超大型信息系统灾备领域达到了世界领先水平。

2003至2005年期间,中国航信完成了DCS(离港)、ICS(订座)、CRS(分销)等系统的灾难备份系统建设。

在中国航信持续推进容灾体系建设的这一时期,中国民航业也迎来了高速发展的关键阶段。自1999年黄金周制度实施以来,中国民航旅客量呈现出井喷式增长,旅客需求的激增对信息系统提出了更高要求。在黄金周期间,中国航信的核心业务交易量成倍增长,原有的单一主机架构逐渐暴露出性能瓶颈。

2006年,随着ICS(订座)系统、DCS(离港)系统从CS7802主机转移到Dorado280主机上运行,磁盘响应时间和应用指令的响应时间均得到明显的优化,主机系统硬件平台的安全性也有所提升。

2005年Dorado280主机安装现场

硬件工程师在磁带库里做维护工作

但Dorado280的引入只是权宜之计,当时的主机系统仍采用单一架构,所有业务都集中在一台机器上。为了应对激增的负载,中国航信不断为这台“独苗”升级CPU以提升处理能力,但硬件迭代的速度始终滞后于业务量的增长,随着民航业发展,客户对系统安全性和稳定性的要求也越来越高,每一次因硬件维护导致的计划停机(至少需要1小时),都可能引发旅客滞留、航班延误的连锁反应。单一主机的瓶颈始终存在,技术团队意识到必须从根本上改变架构,才能破解困局。

与此同时,2007年全国上下都在紧锣密鼓地推进奥运会筹备工作,中国航信所运营的中国民航离港、订座系统被国家确立为奥运保障的重要信息系统之一,中国民用航空总局要求,必须确保奥运会期间两个系统的无故障运行,即系统零停机,这就好比一个电脑需要连续开机数个月,持续满负荷运转,不出现程序崩溃、蓝屏、死机等情况。

构建主机集群架构是解决这一问题的唯一途径。但即使是现在,对一个超大规模、复杂、实时交易型的主机系统进行架构改造谈何容易,何况当时国内外无此先例,连国外资深技术专家都决绝地表示这不可能实现。“国外能做到的,我们也可以做到;国外做不到的,我们仍然可以做到!”中国航信XTC(主机松耦合架构)项目组毅然踏上了攻坚之路。

负责主机XTC架构的OS团队

在此过程中,项目组遇到了很多在世界范围内尚属第一次出现的难题,他们集思广益,通过一系列技术创新,攻克了一个又一个“难关”,构建起多台主机支持一个应用系统的系统架构。即多台主机同时运行一个业务系统,如果其中一台主机出现问题,系统可以立刻将其处理的业务切换到其他主机上,使前端无感,确保了系统的稳定性和可靠性。

2007年9月15日深夜,热备份构架首先在DCS(离港)系统投产。至2008年4月间,CRS(分销)、ICS(订座)系统完成投产。XTC投产后,ICS、CRS、DCS系统处理能力分别提升了97%、160%、118%,节省直接投资数千万美元。

此外,中国航信还成功完成了电子客票、OPENAV、运价、电子客票行程单、油料控制等5个重要开放业务的灾难备份系统的投产工作;自主研发的自动化工具提高了系统维护效率,SPO的使用实现集中监视和控制系统环境,简化了管理流程;“一键式开放平台灾备自动控制系统”的建成,把整个切换工作程序化管理,将灾备切换时间缩短到60%以上,同时杜绝了人为操作失误,有力保障了奥运会期间中国民航旅客服务系统的安全稳定运行。

2008年8月,北京奥运会期间,中国民航离港系统、订座系统创造了“零停机”的奇迹。

北京东四机房和北京三里屯机房的系统灾备工程的完成,使中国航信解决了数据中心级的运行风险,安全保障水平迈入新阶段。随后NEWAPP(机场前端数据备份系统)的推广,较好地解决了中央系统与机场之间线路故障所导致的业务中断问题,形成了离港系统的三级备份体系,这是基于业务特点之上保障业务连续性的突破与创新。

2008年,中国航信推出了OpenAudit和BPDQ两个新系统。OpenAudit从主机读取跟踪数据磁带,并在开放系统中进行处理和查询,其速度比原来的工具提升几十到几千倍,不仅满足了客户需求,还降低了读取跟踪数据文件的主机成本。BPDQ则利用批处理后台作业的方式处理实时性较低的报文,这是在USAS领域内首次以后台作业处理报文的模式,有效减少了主机系统的事务量。

中国航信始终顺应技术发展的时代潮流,在容灾体系建设上不断取得突破性进展,在国内外持续保持领先水平,为中国民航的高速发展和稳定运行提供了坚强保障和有力支撑。

“未经授权,禁止转载”

原标题:《航信故事|中国民航旅客服务系统容灾体系的探索与建设》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2025 上海东方报业有限公司

            反馈