このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害

【障害報告】2017.6.30発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年6月30日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯: 6月30日(金)11:51 から 12:58頃

 影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

 詳細:

/work1を構成する2台で冗長化されたMDSの1台(t2s007013)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(6/30 12:13から12:23)となりましたが12:58に復旧しました。

 

用語説明

Undefined

【障害報告】2017.6.26発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

学術国際情報センター
2017年6月27日

下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯: 6月26日(月)11:23 から 6月26日(月)12:20

 影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

 詳細:

/work1を構成する2台で冗長化されたMDSの1台(t2s007015)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(6/26 12:35から12:44)となりましたが12:20に復旧しました。

用語説明

OST:Lustreファイルシステムにおいて、ファイルの中身を実際に保存しているディスクの集合体

Undefined

【障害報告】2017.6.3発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年6月5日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯: 6月3日(土)12:50 から 6月4日(日)13:24頃

 影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

 詳細:

/work1を構成する2台で冗長化されたMDSの1台(t2s007013)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(6/4 12:34から13:01)となりましたが12:34に復旧しました。

 

用語説明

Undefined

【障害報告】2017.5.29発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年5月30日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯: 5月29(月)18:51 から から19:55頃

 影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

 詳細:

/work1を構成する2台で冗長化されたMDSの1台(t2s007015)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(19:29から19:38)となりましたが19:55に復旧しました。

 

用語説明

Undefined

【障害報告】2017.5.18発生:U/Vキュー管理サーバ停止

(バッチキューを利用している方向けの情報です)

                             学術国際情報センター
2017年5月19日

 下記の通りバッチキューに障害が発生し、復旧いたしました。

 日時:5月18日(木) 1:31から8:58頃

 影響: U/Vキューの管理サーバの動作停止

 詳細:

1:31頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり8:58頃リスタートを実施し復旧しました。

ログの調査から,新規ソケットを作成できない状態となったこと,計算ノードとの UDP 通信リトライが多発している事象が確認されました。製造元からは,ネットワーク通信が不安定になり障害につ ながった可能性がある旨の回答があり,緩和するためのパラメータが提示されました.また,追加の調査 で PBS サーバプロセスのファイルディスクリプタ数上限(ulimit の open files)と,UDP 通信で多数の check sum エラーが発生していることを確認しました。

Undefined

【障害報告】2017.5.15発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年5月15日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯: 5月14(日)21:52 から 5月15(月)から10:30頃

 影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

 詳細:

/work1を構成する2台で冗長化されたMDSの1台(t2s007013)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(09:59から10:13)となりましたが10:30に復旧しました。

 

用語説明

Undefined

【障害報告】2017.5.14発生:U/Vキュー管理サーバ停止

(バッチキューを利用している方向けの情報です)

                             学術国際情報センター
2017年5月15日

 下記の通りバッチキューに障害が発生し、復旧いたしました。

 日時:5月14日(土) 2:02から5月15日(日)8:43頃

 影響: U/Vキューの管理サーバの動作停止

 詳細:

2:02頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり、

・t2sub コマンドで U/V キューへのジョブ投入が出来ない
・U/V キューの Q (待ち状態) のジョブが R (実行中) 状態に遷移しない
・Cloud Utilization、t2statコマンドによるU/Vキューのジョブ実行状況の確認ができない
・電力制御の再計算がエラーとなり、全キューでジョブを投入しても休止中の計算ノードが起動しない

Undefined

【障害報告】2017.5.11発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年5月12日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:5月11(木)19:53から20:43頃

 影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

 詳細:

/work1を構成する2台で冗長化されたMDSの1台(t2s007015)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(20:21から20:29)となりましたが20:43に復旧しました。

 

用語説明

Undefined

【障害報告】2017.5.9発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年5月11日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:5月9(火)10:44から13:14頃

 影響:一部の計算サーバから/work1にアクセスできない。復旧中に一時的に/gscr0にアクセスできない。

 詳細:

/work1を構成する2台で冗長化されたMDSの1台(t2s007013)が不安定となり(5/1の障害で待機系である013で稼働中)、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源をともにする/gscr0にもアクセス不能(12:29から12:54)となりましたが13:14に復旧しました。

 

用語説明

Undefined

【障害報告】2017.5.1発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年5月1日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:5月1(月)9:03から10:54頃

 影響範囲:/work1にアクセスできない。

 詳細:

/work1を構成する2台で冗長化されたMDSの1台(t2s007015)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。10:29 にt2s007015をフェイルオーバし復旧しました。

 

用語説明

OST:Lustreファイルシステムにおいて、ファイルの中身を実際に保存しているディスクの集合体

Undefined

ページ