みずほ銀行 トラブル報告書メモ

もう,お腹いっぱい.

このシリーズの続きが楽しみだ.

https://www.tokyo-np.co.jp/article/110790

業務委託先の管理センターからみずほ銀行の6つ以上の部署へ430件のエラーを検知したとの緊急メールが送られたが、対応に動く担当者はいなかった。

「持ち場を越えて意見を述べる行動が高く評価されず、間違いがあれば大きく評価を下げる企業風土」。報告書では企業風土が、行内の情報共有が進まず顧客対応が後手に回った原因と指摘。過去の大規模障害にも共通する遠因であり、「改革は容易でないことが今回実証された」と断じた。

契約違反ではなかったのなら,契約先に問題はない.そういう契約で丸投げした経営者の問題.

https://ja.kohsuke.org/software/mizuho-outage/

  • 9:50am 障害発生
  • 10am ATMから繋がる電話を受けるATMコールセンターがパンクして90%の電話が繋がらなくなる
  • 10:15am Opsから障害発生の一報がメールされる
  • 11am-12am 危機管理の司令塔に様々なルートから情報が入って障害規模が大きいことが把握される
  • 2pm 関係各部門の部長会が招集される
  • 2:30pm 部長会で対応方針が決定されてこれ以後場当たりでない組織だった対応が始まる
  • 5pm 非常対策プロジェクトチームが初会合

報告書を読むと、実質的な対応方針の決定は部長会で決まったように見えるが、そうすると非常対策プロジェクトチームというのが何なのかよくわからない。

https://b.hatena.ne.jp/entry/s/ja.kohsuke.org/software/mizuho-outage/
  • id:masudatarou あんなん学びようないやろ エンジニアとしての領域を超えとるわ そもそも銀行業界でGoogleDocsとか使えるわけがない 基本外部サービス全部禁止なのがデフォだっての 理想だけ書かれても。。 現場見てから書いてみろ
  • id:dekaino 多くのケースで、障害の影響範囲が深刻だと報告するのをためらわせるプレッシャーが常日頃からかかってるんだよね。深刻な障害だと偉い人に即時報告するルールになってて大ごとになるから、みんな嫌がる。
  • id:Shinwiki え、統合で下請けいじめまくったからまともなスキルや意欲のあるBPの人は名前だけで案件避けてるような戦略的失敗がまずあんだよ。これ。
  • id:puyop あれだけやる気ない事なかれ部署ばかりだと、何しても無駄じゃないかという気がする。/特権持った部署置いて、関連部門をひっぱたいて回るしか無いとは思うが、それだって大物役員が統括しないときっと有耶無耶
  • id:dazz_2001 組織がきちんと機能していない事を、技術的に解決しようとしても、無理な話。要は経営陣が官僚的で保身的なだけど、そういう組織はトップから変わらないとどうにもならないが、官僚的保身的な人だけが出世する地獄