このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

【障害報告】2017.5.18発生:U/Vキュー管理サーバ停止

(バッチキューを利用している方向けの情報です)

                             学術国際情報センター
2017年5月19日

 下記の通りバッチキューに障害が発生し、復旧いたしました。

 日時:5月18日(木) 1:31から8:58頃

 影響: U/Vキューの管理サーバの動作停止

 詳細:

1:31頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり8:58頃リスタートを実施し復旧しました。

ログの調査から,新規ソケットを作成できない状態となったこと,計算ノードとの UDP 通信リトライが多発している事象が確認されました。製造元からは,ネットワーク通信が不安定になり障害につ ながった可能性がある旨の回答があり,緩和するためのパラメータが提示されました.また,追加の調査 で PBS サーバプロセスのファイルディスクリプタ数上限(ulimit の open files)と,UDP 通信で多数の check sum エラーが発生していることを確認しました。

そのため,PBS サーバプロセスのファイルディスクリプタ数上限の変更と,PBS の UDP 通信のパラメータ修正の実施を行いました

関連障害:

・2017.5.14発生:U/Vキュー管理サーバ停止
 http://tsubame.gsic.titech.ac.jp/node/1584

 

・2017.4.22発生:U/Vキュー管理サーバ停止
 http://tsubame.gsic.titech.ac.jp/node/1577

・2017.3.24発生:U/Vキュー管理サーバ停止
 http://tsubame.gsic.titech.ac.jp/node/1562