障害

【障害報告】2017.3.21発生:/work1, /gscr0 ストレージ障害 (2)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年3月21日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:3月21(火)18:53から20:03頃

 影響範囲:/work1, /gscr0にアクセスできない

 詳細:

(調査中です。)

用語説明

MDS:Lustreファイルシステムにおいて、計算ノードに対してファイルのメタ情報を実際に送受信するサーバ

MDT:Lustreファイルシステムにおいて、ファイルのメタ情報を実際に保存しているディスクの集合体


 なお、影響があったと思われるジョブ(障害発生期間中に実行中であったジョブ)の一覧は下記の通りです。

Undefined

【障害報告】2017.3.21発生:/work1, /gscr0 ストレージ障害 (1)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年3月21日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:3月21(火)11:51から15:44頃

 影響範囲:/work1, /gscr0にアクセスできない

 詳細:

(調査中です)

用語説明

MDS:Lustreファイルシステムにおいて、計算ノードに対してファイルのメタ情報を実際に送受信するサーバ

MDT:Lustreファイルシステムにおいて、ファイルのメタ情報を実際に保存しているディスクの集合体


 なお、影響があったと思われるジョブ(障害発生期間中に実行中であったジョブ)の一覧は下記の通りです。

Undefined

【障害報告】2017.3.17発生:/work1, /gscr0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年3月17日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:3月17(金)14:41から20:08頃

 影響範囲:/work1, /gscr0にアクセスできない

 詳細:

(調査中です。MDSのテイクオーバーで処理がスタックした模様)

用語説明

MDS:Lustreファイルシステムにおいて、計算ノードに対してファイルのメタ情報を実際に送受信するサーバ

MDT:Lustreファイルシステムにおいて、ファイルのメタ情報を実際に保存しているディスクの集合体


 なお、影響があったと思われるジョブ(障害発生期間中に実行中であったジョブ)の一覧は下記の通りです。

Undefined

【障害報告】2017.2.13発生:/work0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年2月15日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:2月13(月)14:58から15:13頃

 影響:/work0へのアクセスに一時的なI/O遅延やエラーが発生した可能性があります

 詳細:

/work0 を構成する2台で冗長化されている MDS(MetaData Server) として稼働していた t2s007017 において障害が発生しました。

その結果、MDS のサービス(MDT, MetaData Target)を対となる t2s007019 にフェイルオーバーしました。

期間中、一時的なI/O遅延やエラーが発生した可能性があります。

Undefined

【障害報告】2017.2.3発生:/work1, /gscr0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年2月9日

 下記の通りストレージに障害が発生し、仮復旧いたしました。報告が遅くなり申し訳ありませんでした。

 時間帯と影響範囲:
 2月3日(金) 12:36 から 14:49 /work1利用不可
 2月3日(金) 14:31 から 14:49 /work1, /gscr0利用不可

 詳細:

/work1 を構成する2台で冗長化されている MDS(MetaData Server) として稼働していた t2s007015 において Lustre の処理がスタックする問題が発生致しました。

Undefined

【障害報告】2016.12.22発生:/gscr0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2016年12月27日

 下記の通りストレージに障害が発生し、復旧いたしました。

 記

 日時:12月22日(木) 23:27 から 26日(月) 16:25 頃

 影響: /gscr0 のごく一部にアクセスできない。復旧作業中に/work1の一部にアクセスできない。

 詳細:

コントローラ上で、ディスク障害(Idx: 518)のエラーが発生しており、SCSI コマンドに対してエラーが繰り返されたのち、12/22 23:27にmultipath がパスを認識できないエラーに繋がったものと思われます。
以下の時間帯でストレージ領域に障害が発生しました。

Undefined

【障害報告】2016.12.25発生:Infiniband Edgeスイッチ不調

(t2a0041[37-50]を利用していた利用者への情報です)

                             学術国際情報センター
2016年12月27日

 下記の通りネットワークに障害が発生し、復旧いたしました。

 日時:12月25日(日) 9:02 から 12月26日(月)17:50頃

 影響: InfinibandネットワークEdgeスイッチIBEDGE158配下の計算ノードの通信不可

 詳細:

   InfinibandネットワークEdgeスイッチIBEDGE158に障害が発生しスイッチ交換を行いました。交換が完了するまで配下のノードであるt2a0041[37-50]が通信することができませんでした。

Undefined

【障害報告】2016.11.5発生:Xキュー利用不可

(バッチキューを利用している方向けの情報です)

                             学術国際情報センター
2016年11月9日

 下記の通りバッチキューに障害が発生し、復旧いたしました。

 日時:11月5日(土) 11-05のスロット

 影響: Xキューが作成されず利用できない

 詳細:

11/5 9:00 に11-04のスロットが終了しました。終了時点で予約キューに5,000本以上のジョブが残っていたためジョブの削除が開始されました。9:02にcronにより11-05のXキューの作成処理が始まりましたが、ジョブ削除が間に合わずタイムアウトし、Xキューの作成に失敗しました。その結果11-05のスロットでXキュー(この日は163台)が開始できませんでした。

対策としてタイムアウト値を見直したりリトライ処理したり行うよう改修をする予定です。

Undefined

【障害報告】2016.10.25発生:/work1, /gscr0 ストレージ障害(2/27更新)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2016年10月27日

 下記の通りストレージに障害が発生し、復旧いたしました。

 日時:10月25日(月) 7:41 から 27(水)16:40 頃

 影響: /work1, /gscr0 の一部にアクセスできない

 詳細:

詳細は現在まとめております。

(11/1追記)

Undefined

【障害報告】2016.10.7発生:/work0 ストレージ障害 (10/21更新)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2016年10月11日

 下記の通りストレージに障害が発生し、復旧いたしました。

 日時:10月7日(金) 13:32 から 16:35 頃

 影響: /work0 の一部にアクセスできない

 詳細:

原因は現在調査中です。

(10/21追記)

Undefined

ページ