ITmediaさんの「IT史に名を残すシステム障害」8選 (04/17)の要点を、
- クラウド・ネットワーク中核に集約が進んだ結果、単一点のミスや
不具合が社会全体に波及 - 原因の多くは 「人」×「想定不足」
- Dyn(2016)
- DDoS攻撃(Mirai)でDNS停止
- SNS・動画・ニュースなど多数のWebサービスに連鎖影響
- AWS S3(2017)
- 停止期間 約 4時間
- 被害総額: 数百万ドル規模と報道
- 運用コマンドの入力ミス
- 「長年再起動していなかった設計」が復旧遅延を招く
- Verizon(2019)
- BGPルーティング情報の誤公開
- フィルタリング未実施が世界規模障害に拡大
- Google(2020)
- 停止期間 約 45分間
- 影響 Googleアカウントに依存するサービスで障害
- Gmail、Google Drive など
- 認証エラーにより、ログイン不可のユーザーが広範囲で発生
- 影響ユーザー数の具体記載はなし
- クオータ管理システム切替ミス
- フェイルセーフはあったが「想定外パターン」をカバーできず
- Fastly(2021)
- 停止期間 障害発生から 49分以内にネットワークの95%が復旧
- 潜伏していたソフトウェアバグが設定変更で顕在化
- 復旧は迅速だが影響範囲は極めて広い
- Facebook / Meta(2021)
- 影響
- 全データセンターの接続断
- 停止したサービス Facebook、Instagram、WhatsApp
- メンテナンス作業で全DC接続断
- 防ぐべき監査ツール自体にバグ
- Rogers(2022)
- 停止期間
- 約1日間
- 影響
- カナダ全土で 1,200万人以上 に影響
- 利用不可となったサービス
- 携帯電話回線
- インターネット
- 緊急通信サービス
- ACL削除という単純ミス
- 通信・緊急通報含め1200万人超に影響
- CrowdStrike(2024)
- 停止・影響継続期間
- 不具合更新の公開停止:問題発見から約1時間後
- センサー 99%復旧宣言:障害発生から10日後
- 影響
- 影響端末数:
- 約850万台のWindowsデバイス(
Microsoft推定) - 影響業界
- 航空(American / United / Delta など)
- 金融
- 医療
- 一部企業では数日後も完全復旧に至らず
- セキュリティ製品の更新不具合
- Windows端末 約850万台がクラッシュ
- サプライチェーン型リスクの象徴事例
- ヒューマンエラー
- 設定ミス、運用手順ミス、バグ
- 最も頻発・最も現実的
- ハードウェア/環境要因
- 故障・停電・災害
- クラウド時代でも消えないリスク
- 悪意ある行動(サイバー攻撃)
- DDoS、不正アクセス、ランサムウェア
- 完全防御は不可能
- セーフティネット(冗長性・監視)
- フェイルオーバー
- 継続的モニタリングとアラート
- 事前テストと全社的コミュニケーション
- 災害・障害対応訓練は IT部門だけで完結させない
- 経営・業務部門を含めた合意形成
- バックアップの実効性確保
- オフライン参照手段
- 定期バックアップ+「復旧できるか」の検証
「障害は起きるもの」
重要なのは “起こさない努力” より
“起きたときに社会的被害を最小化できる設計と運用”