解決した課題

  • ECシステムが突然「白画面」になり、画面遷移・購入フローを含めて操作不能となった。
  • 管理画面にもアクセスできず、障害原因の切り分けと復旧を短時間で進める必要があった。

対応内容

  • 一次切り分け:Webサーバ/アプリケーション/DBのどこで詰まっているかを確認し、エラーログ出力状況を点検した。
  • ストレージ状況の確認:
    • ディスク使用率を確認し、ストレージ不足(空き容量枯渇)により書き込みが失敗している状況を特定した。
    • ログ、キャッシュ、アップロード、セッション、テンポラリ領域等の増加が疑われるため、肥大ポイントを分解して確認した。
  • 応急復旧:
    • 影響が大きい領域(例:ログ肥大、不要な一時ファイル、世代が残り続けたバックアップ等)を優先して整理し、最小限の空きを確保した。
    • 必要に応じてアプリ/Webプロセスを再起動し、白画面が解消するかを確認した(再起動のみでの解決に依存しない方針)。
  • 恒久対応:
    • ストレージ拡張(ボリューム拡張等)を行い、突発的な増加に耐えられる余裕容量を確保した。
    • ログローテーションの設定・保存世代・圧縮・削除ポリシーを見直し、「増え続ける」状態を解消した。
    • キャッシュ/セッション/一時領域のクリア方針と、上限・保存期間の基準を運用に組み込んだ。
  • 再発防止:
    • ディスク使用率の監視(閾値アラート)を整備し、枯渇前に検知できる状態にした。
    • 「白画面」発生時の初動手順(確認コマンド、見るべきログ、復旧判断)をチェックリスト化した。

結果

  • ストレージ不足による書き込み失敗を解消し、ECシステムの表示・操作を復旧した。
  • ログ/一時領域の肥大を抑制する設定と監視を整備し、同種障害の再発リスクを低減した。