TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

【障害報告】2017.3.25発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年3月29日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:3月25(土)8:11から13:32頃

 影響範囲:/work1, /gscr0 の一部にアクセスできない。

 詳細:

8:11頃/work1を構成する104個あるOSTのうちの1つ(work1-OST0034)にアクセスができなくなりました。復旧を開始しましたがテイクオーバ時に処理がスタックする既知の問題が再発する可能性があったため、8台あるOSSの内のwork1-OST0034を管理しているOSS(t2s007045)を12:47頃より再起動しました。このOSSは全体の1/8を管理しているため、再起動中の12:47から13:32の間、/work1, /gscr0の1/8にあたる領域にアクセスができませんでした。

用語説明

OST:Lustreファイルシステムにおいて、ファイルの中身を実際に保存しているディスクの集合体