TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

【障害報告】2016.12.22発生:/gscr0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2016年12月27日

 下記の通りストレージに障害が発生し、復旧いたしました。

 記

 日時:12月22日(木) 23:27 から 26日(月) 16:25 頃

 影響: /gscr0 のごく一部にアクセスできない。復旧作業中に/work1の一部にアクセスできない。

 詳細:

コントローラ上で、ディスク障害(Idx: 518)のエラーが発生しており、SCSI コマンドに対してエラーが繰り返されたのち、12/22 23:27にmultipath がパスを認識できないエラーに繋がったものと思われます。
以下の時間帯でストレージ領域に障害が発生しました。

12/22 23:27 から 12/26 12:46:gscr0_OST03 へのアクセス不能
12/26 12:46 から 12:56:gscr0_OST03,  work1_OST27からOST33 へのアクセス遅延
12/26 13:32 から 14:02:gscr0_OST03,  work1_OST27からOST33 へのアクセス遅延
12/26 15:40 から 15:55 : gscr0_OST03, work1_OST27からOST33 へのアクセス遅延
12/26 12:46 から 15:55:gscr0_OST03, work1_OST27からOST33 へ仮想マシン(U/Vキュー)からアクセス不能

影響を受けた可能性のある計算ノードは全台となりますが、障害発生時刻に環境変数で障害の発生したストレージ領域を指定しているジョブのみが影響を受けたと考えられます。
ご自身のジョブが影響を受けたと判明した場合には問い合わせフォームよりお知らせください。

用語説明

OSS:Lustreファイルシステムにおいて、計算ノードに対してファイルの中身を実際に送受信するサーバ

OST:Lustreファイルシステムにおいて、ファイルの中身を実際に保存しているディスクの集合体