Apr 29, 2026

重大システム障害8選

ITmediaさんの「IT史に名を残すシステム障害」8選 (04/17)の要点を、実務視点で簡潔に整理します。


① IT史に残る重大システム障害(2015年以降・8事例)
共通点
  • クラウド・ネットワーク中核に集約が進んだ結果、単一点のミスや不具合が社会全体に波及
  • 原因の多くは 「人」×「想定不足」
代表的な事例と本質
  1. Dyn(2016)
    • DDoS攻撃(Mirai)でDNS停止
    • SNS・動画・ニュースなど多数のWebサービスに連鎖影響
  2. AWS S3(2017)
    • 停止期間4時間
    • 被害総額: 数百万ドル規模と報道
    • 運用コマンドの入力ミス
    • 「長年再起動していなかった設計」が復旧遅延を招く
  3. Verizon(2019)
    • BGPルーティング情報の誤公開
    • フィルタリング未実施が世界規模障害に拡大
  4. Google(2020)
    • 停止期間45分間
    • 影響  Googleアカウントに依存するサービスで障害
      • Gmail、Google Drive など
      • 認証エラーにより、ログイン不可のユーザーが広範囲で発生
      • 影響ユーザー数の具体記載はなし
    • クオータ管理システム切替ミス
    • フェイルセーフはあったが「想定外パターン」をカバーできず
  5. Fastly(2021)
    • 停止期間 障害発生から 49分以内にネットワークの95%が復旧
    • 潜伏していたソフトウェアバグが設定変更で顕在化
    • 復旧は迅速だが影響範囲は極めて広い
  6. Facebook / Meta(2021)
    • 影響
      • 全データセンターの接続断 
      • 停止したサービス  Facebook、Instagram、WhatsApp
    • メンテナンス作業で全DC接続断
    • 防ぐべき監査ツール自体にバグ
  7. Rogers(2022)
    • 停止期間
      • 約1日間
    • 影響
      • カナダ全土で 1,200万人以上 に影響
      • 利用不可となったサービス
        • 携帯電話回線
        • インターネット
        • 緊急通信サービス
    • ACL削除という単純ミス
    • 通信・緊急通報含め1200万人超に影響
  8. CrowdStrike(2024)
    • 停止・影響継続期間
      • 不具合更新の公開停止:問題発見から約1時間後 
      • センサー 99%復旧宣言:障害発生から10日後 
    • 影響
      • 影響端末数:
        • 約850万台のWindowsデバイスMicrosoft推定)
      • 影響業界
        • 航空(American / United / Delta など)
        • 金融
        • 医療 
      • 一部企業では数日後も完全復旧に至らず 
    • セキュリティ製品の更新不具合
    • Windows端末 約850万台がクラッシュ
    • サプライチェーン型リスクの象徴事例

② システム障害の「よくある3つの原因」
  1. ヒューマンエラー
    • 設定ミス、運用手順ミス、バグ
    • 最も頻発・最も現実的
  2. ハードウェア/環境要因
    • 故障・停電・災害
    • クラウド時代でも消えないリスク
  3. 悪意ある行動(サイバー攻撃)
    • DDoS、不正アクセス、ランサムウェア
    • 完全防御は不可能

③ 想定外に備えるための3つの対策(教訓)
  1. セーフティネット(冗長性・監視)
    • フェイルオーバー
    • 継続的モニタリングとアラート
  2. 事前テストと全社的コミュニケーション
    • 災害・障害対応訓練は IT部門だけで完結させない
    • 経営・業務部門を含めた合意形成
  3. バックアップの実効性確保
    • オフライン参照手段
    • 定期バックアップ+「復旧できるか」の検証

④ 全体を貫くメッセージ(超要約)
「障害は起きるもの」
重要なのは “起こさない努力” より
“起きたときに社会的被害を最小化できる設計と運用”


No comments: