赤坂タロウの日記: 重大システム障害８選

Apr 29, 2026

重大システム障害８選

ITmediaさんの「IT史に名を残すシステム障害」8選 (04/17)の要点を、実務視点で簡潔に整理します。

① IT史に残る重大システム障害（2015年以降・8事例）

共通点：

クラウド・ネットワーク中核に集約が進んだ結果、単一点のミスや不具合が社会全体に波及
原因の多くは 「人」×「想定不足」

代表的な事例と本質

Dyn（2016）

DDoS攻撃（Mirai）でDNS停止
SNS・動画・ニュースなど多数のWebサービスに連鎖影響

AWS S3（2017）

停止期間 約 4時間
被害総額：数百万ドル規模と報道
運用コマンドの入力ミス
「長年再起動していなかった設計」が復旧遅延を招く

Verizon（2019）

BGPルーティング情報の誤公開
フィルタリング未実施が世界規模障害に拡大

Google（2020）

停止期間 約 45分間
影響　Googleアカウントに依存するサービスで障害

Gmail、Google Drive など
認証エラーにより、ログイン不可のユーザーが広範囲で発生
影響ユーザー数の具体記載はなし

クオータ管理システム切替ミス
フェイルセーフはあったが「想定外パターン」をカバーできず

Fastly（2021）

停止期間 障害発生から 49分以内にネットワークの95％が復旧
潜伏していたソフトウェアバグが設定変更で顕在化
復旧は迅速だが影響範囲は極めて広い

Facebook / Meta（2021）

影響

全データセンターの接続断
停止したサービス　Facebook、Instagram、WhatsApp

メンテナンス作業で全DC接続断
防ぐべき監査ツール自体にバグ

Rogers（2022）

停止期間

約1日間

影響

カナダ全土で 1,200万人以上 に影響
利用不可となったサービス

携帯電話回線
インターネット
緊急通信サービス

ACL削除という単純ミス
通信・緊急通報含め1200万人超に影響

CrowdStrike（2024）

停止・影響継続期間

不具合更新の公開停止：問題発見から約1時間後
センサー 99％復旧宣言：障害発生から10日後

影響

影響端末数：

約850万台のWindowsデバイス（Microsoft推定）

影響業界

航空（American / United / Delta など）
金融
医療

一部企業では数日後も完全復旧に至らず

セキュリティ製品の更新不具合
Windows端末約850万台がクラッシュ
サプライチェーン型リスクの象徴事例

② システム障害の「よくある3つの原因」

ヒューマンエラー

設定ミス、運用手順ミス、バグ
最も頻発・最も現実的

ハードウェア／環境要因

故障・停電・災害
クラウド時代でも消えないリスク

悪意ある行動（サイバー攻撃）

DDoS、不正アクセス、ランサムウェア
完全防御は不可能

③ 想定外に備えるための3つの対策（教訓）

セーフティネット（冗長性・監視）

フェイルオーバー
継続的モニタリングとアラート

事前テストと全社的コミュニケーション

災害・障害対応訓練は IT部門だけで完結させない
経営・業務部門を含めた合意形成

バックアップの実効性確保

オフライン参照手段
定期バックアップ＋「復旧できるか」の検証

④ 全体を貫くメッセージ（超要約）

「障害は起きるもの」
重要なのは “起こさない努力” より
“起きたときに社会的被害を最小化できる設計と運用”

No comments:

Subscribe to: Post Comments (Atom)