TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

【障害報告】2017.5.14発生:U/Vキュー管理サーバ停止

(バッチキューを利用している方向けの情報です)

                             学術国際情報センター
2017年5月15日

 下記の通りバッチキューに障害が発生し、復旧いたしました。

 日時:5月14日(土) 2:02から5月15日(日)8:43頃

 影響: U/Vキューの管理サーバの動作停止

 詳細:

2:02頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり、

・t2sub コマンドで U/V キューへのジョブ投入が出来ない
・U/V キューの Q (待ち状態) のジョブが R (実行中) 状態に遷移しない
・Cloud Utilization、t2statコマンドによるU/Vキューのジョブ実行状況の確認ができない
・電力制御の再計算がエラーとなり、全キューでジョブを投入しても休止中の計算ノードが起動しない

状態が発生しました。8:43頃リスタートを実施し復旧しました。

今回は、障害発生中に PBS開発元の Altair 社の調査ツールを実行し情報採取することができました。

先日発生した2件の障害との関連性とも含めて調査をお願いしているところです。

・2017.4.22発生:U/Vキュー管理サーバ停止
 http://tsubame.gsic.titech.ac.jp/node/1577

・2017.3.24発生:U/Vキュー管理サーバ停止
 http://tsubame.gsic.titech.ac.jp/node/1562