【障害報告】2017.6.3発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年6月5日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯: 6月3日(土)12:50 から 6月4日(日)13:24頃

 影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

 詳細:

/work1を構成する2台で冗長化されたMDSの1台(t2s007013)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(6/4 12:34から13:01)となりましたが12:34に復旧しました。

 

用語説明

OST:Lustreファイルシステムにおいて、ファイルの中身を実際に保存しているディスクの集合体

MDS:Lustreファイルシステムにおいて、計算ノードに対してファイルのメタ情報を実際に送受信するサーバ

MDT:Lustreファイルシステムにおいて、ファイルのメタ情報を実際に保存しているディスクの集合体


なお、影響があったと思われるジョブ(障害発生期間中に実行中であったジョブ)の一覧は下記の通りです。

(集計中)