セキュリティブログ

【東京証券取引所/システム障害】まとめ

2020.10.03

※2020年10月に発生した東京証券取引所のシステム障害についてまとめてみた/2020年10月2日/piyolog

2020年10月1日、東京証券取引所はアローヘッドの機器故障によりシステム障害が発生し、終日売買を停止すると発表しました。故障した機器は交換が行われ、取引は翌日再開されています。ここでは関連する情報をまとめます。

機器故障起きるも縮退運用に失敗

f:id:piyokango:20201002195119p:plain
障害概要図
  1. アローヘッド内の共有ディスク装置1号機で機器故障が発生した。実際故障したのはサーバー上のメモリ周辺機器とされる。
  2. 1号機故障により両現用で稼働していた2号機のみのフェールオーバー(縮退運用)が行われるはずだったが何らかの問題により行われなかった。
  3. 共有ディスク装置を使用する相場配信、売買監視のシステムで障害が発生。
  4. 障害復旧時に発生する注文データ消失による市場混乱を避けるため当日終日の取引停止の措置を実施。(遮断)

 

フェールオーバー失敗原因は設定ミス
  • フェールオーバーに失敗した理由が特定できたとして10月5日に発表。
  • 障害発生時のフェールオーバー機能の内、メモリ故障に起因する障害パターンで自動切替が機能していなかった。
  • ファームウェアに設定された切替用設定値の不備。
  • 強制フェールオーバーは構築当時テスト済で、テスト時は二号機への縮退運転も正常に行われていた。ただし、取材に対しメモリ故障に対するテストは難しかったとコメントもしている。テスト時にこのミスを防げなかった理由は調査中。*1
  • 開発、設定は富士通が担当。設定内容の確認は東証が実施していた。*2

 

機器故障がシステム障害に波及
  • 共有ディスク装置が故障したことにより、アローヘッド内部のシステム(情報配信ゲートウェイ、売買監視サーバー)の2つで障害が発生した。
  • 情報配信ゲートウェイは相場情報を利用者に対し送信する役割を担う。配信処理に異常が起きたことにより、銘柄等の情報を送るジョブが連携できない状況が発生した。
  • 売買監視サーバーの監視業務も処理異常が発生してしまった。
  • 東証内システムで稼働する機器故障そのものは珍しくなく、発生もしている。
  • これらの機器故障に対してフェールオーバー、多重化、故障前の予備交換等の対応により今回の様なシステム障害は発生していなかった。

 

故障した共有ディスク装置とは
  • アローヘッド内に設置された約350のサーバー群で構成されるものの1つ。
  • 開場前の定時処理(ジョブ)を行う際、各サーバーより共有が必要な情報が格納、参照する場所として機能する。
  • 現在稼働するシステム・機器類は2019年11月納入されたものでこれまでに機器交換は行われていない。

 

混乱回避のため売買停止を判断

  • 東証は証券会社など内外関係者と事前協議の上、市場混乱回避を目的に終日売買停止することを決定した。
  • 東京証券取引所で終日取引が停止されるのは1999年5月にシステム化が行われてから初めて。
  • 東証の株券売買システムを使用している国内3か所の証券取引所(札幌、名古屋、福岡)も全銘柄の売買を停止された。
  • 10月1日も市場自体は開かれており、休場という措置ではなく、障害により取引ができないという状況となった。

 

※ここまで

個人的な意見ですが、1日3兆円を動かすシステム管理者と責任者というものはかくあるべき、というお手本を見せていただけた記者会見だったかと思います。感動しました。

・障害発生から取引停止までの判断が(7時発生9時前判断)早かったこと。記者会見も当日。

・システムやトラブルについてわかりやすくお話してくれたこと

・責任は富士通ではなく我々にある、と言い切られたこと

ITサービスを展開する事業者として、学ぶべき点の多い事案でした。

東証横山CIOがおっしゃられていたとおり「機械は壊れるもの」であるので、バックアップやリスク分散について、改めて当社内でも洗いなおして参りたく考えております。