このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

【障害報告】2014.2.19発生:/data0 テープデータ大量消失(7/22更新)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成27年5月8日

(7/22更新) 

下記の通りストレージに障害が発生し、再発防止策を設定しました。詳細はわかり次第追記します。

 日時:発生する可能性があった期間は/data0サービス開始時(2011.5.1)から2015.5.7まで。最初の発見は2015.4.28。実際に上書きが起きた期間は2014.2.19から2014.6.13。

 影響: /data0 のテープ上の多くのデータが上書きされ消失

 詳細: 

 現在、詳細を確認中です。

 テープドライブの設定ミスにより、大量のテープ(160本)の上書きが確認されました。これによりRecallが不可能なファイルは711,990ファイルあり、その内347,803ファイルについてはバックアップが存在しますが、残りの364,187件については完全にデータがロストした事になります。

 バックアップがあるデータを含め、現在は消失したデータにアクセスしようとするとPermission DeniedとなりRecallできません。

 完全に復旧できないファイルは、2011年5月1日(サービス開始時)から2012年3月30日までに作成されたファイルで、かつテープへマイグレーションされたファイルが対象になります。

 完全に復旧できないファイル。復旧できるファイルの復旧方法等は後日決まりましたら掲載いたします。

 設定はすでに修正され以後同様な障害は発生しません。現在利用していただいても全く問題ありません。

 新しい情報や補償についてはこちらのページに順次掲載いたします。


(5/11 11:30追記)

 本件の連絡先は data0_recovery【あっと】o.cc.titech.ac.jp となります。近日中に影響のある利用者(グループ)への連絡を順次行う予定です。


(5/13 13:45追記) 

 以下の通り続報を追記いたします。

【現象】
 テープライブラリに自動退避されたファイル(長期間アクセスの無かったファイルが対象)が上書きされたことにより消失が判明しました。

被害ファイル数 711,990
内、バックアップがあるファイル 347,803
内、バックアップがないファイル 364,187

 バックアップがないファイルは、2011年5月1日〜2012年3月31日に作成され、かつ、テープライブラリに自動退避されたファイルとなります。

 既にユーザが存在しない古いデータも多く、一部のユーザにファイル数が限定されているので、影響のあったユーザ数は数十名程度と現在見積もっていますが、正確な影響ユーザ数は調査中です。

【原因】
 ベンダー側の設定ミスによるテープライブラリに格納された予備テープの割り当て設定の不備による上書き。

【今後の対応】
 既に障害の原因は判明しており、今後同様の障害が起きない対策は済んでいて、本インシデントに対する対応はファイル損失のあったユーザに対する対応になります。

 障害発生の第一報は5月8日にWeb及びメールにてアナウンス済。テープライブラリの設定も修正済。

 5月11日(月)9:00より、松岡教授、東工大スタッフ、NEC、DDN(ストレージ担当のベンダ)で協議を行い、以下のとおり対応することとしました。

○なるべく早い時期に以下の対応を実施
・緊急対応用の専用の問合せメールアドレス(alias)を作成し、ベンダーを含め専従的に対応(作成済み)
・被害のあったグループへの通知(第一報)。
・被害のあったユーザやファイルの精査
(現在有効なグループ所有のものかどうかの確認、最終アクセスタイムの確認等)
・最適なリカバリのためのユーザへの調査・ヒアリング
(喪失ファイルの外部バックアップの有無や再生成可否の調査)

○調査及び準備ができ次第、順次以下の作業を実施
・被害のあったグループへの詳細な案内。
(ヒアリングより得られた情報を加味し、ユーザ毎に適切なリカバリサポートプランを提示)
・ユーザの緊急性に応じたプライオリティの設定
・外部を含めバックアップがあるファイルの復旧
・バックアップの多重化を含むより堅牢な対策の検討
・障害発生から対応の詳細過程をナレッジベースとして記録

 これらの情報を速やかに公開するとともに、今回得られた知見はユーザへのヒアリング結果も含め、今後のサービス向上とシステムの可用性向上に利用いたします。

以上


(5/20 15:35追記)

 本日、現在TSUBAMEグループが有効なデータ消失の対象者のメイン管理者及びサブ管理者宛に消失ファイルの通知を行いました。従いましてメールを受け取っていないグループは対象外となります。

 なお、現在、/data0のテープドライブに本件とは別の障害が発生しており修理を依頼しております。混同されませんようご注意ください。


(5/21 16:00追記)

 I/O専用ノード(io-t2.g.gsic.)の /data0_20150507 にバックアップから復元できたデータの公開を順次始めました。


(6/7 11:20追記)

 バックアップから復旧できるすべてのデータのリストアがI/O専用ノード(io-t2.g.gsic.)の /data0_20150507 に完了しました。対象の利用者の皆様におきましては、これらのディレクトリから必要に応じてデータのコピーをお願いいたします。


(6/12 17:45追記)

 本日、回答が無いグループに対してメールにて再度ご連絡いたしました。


(7/22 14:30追記)

 本日、回答が無いグループに対してメールにて再度ご連絡いたしました。