先日みずほ銀行がまた障害を起こしましたね。しかも2回。
・・・と思っていたいたら、本日9/8に再び障害を起こしましたね。
通算で今年は7回の障害を起こしています。
→また障害が発生して通算8回になりました。記録はどこまで伸びるのでしょう。(2021/09/30追記)
さすがに多すぎということで、現役の金融系SEである私がみずほ銀行の障害について思うことを書いていきます。
あくまでネットで得られたら情報からの個人的な見解です。
内部事情を知っているわけではないので、的外れなことを言っている可能性もありますので、その点はご了承ください。
また、みずほ銀行もメインフレームを使用している(Wikipedia参照)ので、メインフレームについての記事も読んでいただければと思います。
なぜ障害は発生する?
まず障害発生の原因ですが、ぱっと思いつくもので以下があります。
- 機器の故障
- コーディングミス
- タイミング障害
では、これらの原因について、簡単に説明していきます。
ちなみにですが、顧客影響の出ない障害(エラー)であればちょくちょく起きます。
ちゃんと障害時のことを考えたシステム構成にしているので、顧客影響のあるような障害は基本的に発生しません。
機器の故障
当たり前ですが、機械なので壊れるときは壊れます。
そのため、定期的に点検をしたり、故障しても大丈夫なように複数台用意して、片方が故障してももう片方で稼働できるようにします。(冗長化って言ったりします)
コンピュータは様々な機器が組み合わさってできているので、意外とパーツの小さな故障はちょいちょい発生します。
もちろんそのような故障でもサービスが停止しないように基本的に冗長化されています。
コーディングミス
私は開発ではなく基盤側の人間なので詳しいことまでは言えないですが、基本的な機能については本番稼働する前に入念にテストします。
ただどうしても人間が作るものなので、細かいミスであったり、様々なパターンで使われることで、稀にある条件を満たした場合にのみ発生するエラーというものがあります。(メインフレームではエラーのことをABENDと言います。ABNORMAL ENDを略してABEND)
あとはアプリケーションの組み合わせとかもあります。(これはコーディングミスとはニュアンスが違いますが)
アプリケーションAとアプリケーションBを組み合わせて使ったときにエラーが発生する等。
ちなみに私はあるベンダーの製品バージョンアップをしたときに、今まで使えた機能が使えなくなったというようなことがありました。(ベンダー曰く、その機能使われてないと思ったとか・・・)
タイミング障害
これはたまたま処理が競合したときに起こるような障害です。
例えばですが、Aさんがシステムログのファイルを見ようとしたタイミングと、そのファイルをアーカイブする処理動くタイミングが競合してしまったとかです。
この場合はアーカイブ処理が滞留して、後続の処理が稼働できなかったりすることがあります。
なぜみずほ銀行で何回も障害が発生するのか
みずほ銀行はいくつかの銀行が吸収合併してできた銀行です。
現在の「MINORI」というシステムが完成するまでは、吸収合併前の各銀行のシステムを使っていました。
当然、それらのシステムを1つに再構築となると、どんでもない工数がかかります。
実際にかかった費用は4500億だとか・・・。
また、IT業界独特の働き方なのですが、客先常駐という働き方があります。
簡単に言うと、自社で技術者を賄えないから、他社の技術者と契約して作ってもらおうというものです。
システムというのは構築するときに最も人が必要です。
逆に言うとリリースしてからの運用に関しては、構築時よりは人が少なくてよくなります。
みずほ銀行は6割のシステムエンジニアを削減したらしいですが、これはおそらくクビではなく構築時に委託した他社の技術者との契約を終了したということです。
システムの規模感がわからないので、6割削減が妥当かはわかりません
しかし、運用が構築に比べたらそこまで人員がいらないのは事実です。
みずほ銀行のシステム統合では、1000社以上のベンダーが参加するくらい超絶大規模案件です。
ぶっちゃけそんなシステムの全容を理解するのは事実上不可能です。(そもそもみずほに限らずシステムの全容を理解している人なんてそうそういません)
そのため、リリース後に契約を終了した人しか細かい仕様まで理解できていないので、何かちょっとしたエラーが起きても解決することができず、顧客影響まで出てしまったのかなと思います。
さらに細かい仕様を知る人がいないから、障害が発生した原因究明もなかなかできないという状態になっているのだと思います。
(2021/09/10追記)
2021年8月の障害の原因となった機器が点検の対象外だったとか。
詳細はリンク先にて。
見た瞬間これは気の毒とは言えんなと。
点検しても故障が見つからなかった可能性もありますが、点検してないのはありえないですね。
そんな体制を続けてたらそりゃ障害起きるわなっていうのが率直な感想です。
どうすれば障害を未然に防げたのか
これも内部事情までわからないので、なんとも言えないですが、一番はテストが甘かったのだと思います。
やっているとは思いますが、これだけ障害が発生するとテストが甘いとしか思えないです。
また、障害発生を想定したテストもしていないから、顧客影響まで出てしまうのではないかなと。
結果論ですが、これだけ障害が起きるなら、多少人件費がかかったとしても構築時の要員はもっと残すべきでしたね。
おわりに
金融系SEとしては、同じような状況になることが絶対にないとは言えないので、そんなことにならないようにせねばという感じです。
よくWebサイトやオンラインゲームなどがメンテナンス中でサービスが利用できない時間があります。
実はそういう時は我々のような人間が裏で結構頑張ってます。
ユーザーからしたら「なんで使えねえんだよ!!!」となります。
その気持ちはもちろんわかりますが、システムの維持って大変なんです・・・。
サービス開始までにどうにか作業が終わるように必死にやってます。
なので、私みたいな人が裏でがんばってんだな、と思っていただければ。
擁護するわけではないですが、みずほ銀行のシステム担当者の人は気の毒だなと思います。
コメント