ANAで大規模システムトラブル

いろいろメモ.結局原因は分からってないのかな.

ITmediaANAシステム障害、サーバ4台全てダウン 同期機能に問題?」

http://www.itmedia.co.jp/news/articles/1603/23/news078.html

その後の復旧作業では、2台目を起動すると、先に立ち上げた1台が停止するという事態が繰り返された。この時点でバックアップのシステムに切り替えることもできたが、全日空は離陸のピークとなる時間帯でのシステム完全停止を避け、空港の業務に絞って1台で対応する道を選んだ。

ANA、国内線の旅客システムをオープン化、34年間のメインフレームの歴史に終止符」

http://it.impressbm.co.jp/articles/-/10706

“次”を考え始めたのは、2000年頃だったと思います。30年以上にわたって、メインフレームを使い続けてきましたが、そのころから限界を感じ始めていたのです。

――しかし、言語はCOBOLですよね。であれば、技術者の確保には、そう大きな問題はないはずですが。

金子:実は、Fortranなのです。国内旅客システムが稼働した当時は、比較的主流でした。金融機関の第2次オンラインシステムでも使われていましたし。

一通り調査はしましたが、2006年には、ユニシスのパッケージに絞り込みました。後は、自社の要件にフィットするかどうか。米国のユニシス本社に担当者が乗り込んで、1カ月間ほどヒアリングし、感触をつかみました。

業務仕様は違っても構わない。ただ、路線や空港、機材の数が同程度、年間利用者が約4000万人だと想定してサイジングしたシステムを動かしてほしいと。AirCoreには、その規模の実績はなかったので、ちゃんと動く確証を得たかったのです。

金子:データベースサーバーは、HPのUNIXサーバーを選びました。過去にANAのシステムで採用実績があり、他システムとの親和性が高いことを評価しました。データベースは、OracleDatabaseをクラスタリングして使っています。AirCoreを稼働させるサーバーはLinuxサーバーにしました。

もう1つは、物量です。現行システムの強化に携わるFortran部隊の倍にあたる人数を、新基幹システムのJavaチームに投入しました。ピークは約800人くらいでした。この作戦が当たって、首尾良く行きました。

日高:日本企業でグローバル化していると言われているところでも、人事の仕組みが日本と海外で別々だったり、人材に求める要件が日本でしか通用しないものだったりします。結局、グローバル人材を登用できない。

「 「うまくいかないので我々のやり方を変えました」全日本空輸 インドでソフトを開発して分かったコツ」

http://itpro.nikkeibp.co.jp/article/COLUMN/20140410/549829/

幸重:みんな今頑張っています。少し前、グループのシステム会社で管理職になる条件にTOEICの点数を加えました。ANA本体は昔からそうです。

 グループのシステム会社であっても英語ができないと管理職になれません。刺激を受けて、勉強している人が沢山います。

「開発してほしいことは全部きちんとドキュメントを書いて、それからオーダーしてくれ。ドキュメントに書いてないことはリクエストに入っていないから、やらない。もらったドキュメント通りに作って納品したのに何が悪い」

 こう言われると、こちらは真っ当な答えができない。その時ようやく、ああ、我々が日本のIT企業と長年続けてきたやり方が特殊なんだと気が付きました。

本当に当たり前なのですが、要件をきちっと書けるというのは身に付けておくべき基本なんだということに、オフショアをやってみて気付いたわけですね。

本気で今まで気付いてなかったのか?

あれだけ言われ続けていたのに????

「クソ貧乏人向け - 羽田空港で始発を待つ方法」

http://chip-pe.jugem.jp/?eid=456
ついでにメモ.関係あるような無いような.


ANAシステム障害の原因判明、シスコ製スイッチの異常

追記

DBサーバーが停止した理由は「正常に機能が働いた」(ANA広報)ため。4台のDBサーバーはデータを同期しており、同期処理が異常終了した場合に自動停止する機能を備えていた。

 同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。

 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。

 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。