このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

予約マシンに障害が発生したのですが ? (特に夜間、休日の対応について)

予約キューの改修(2011.12.21)以後は、使用予定数に対して一定の割合で予備マシンが付加されております。
夜間、休日等に障害が発生した場合は以下の手順で継続してご利用いただけます。
※平日でも同様の手順で対応できます。

- ノードダウンの場合は、以降のバッチキュー処理からは自動的に外されます。
- ノードは生きているが利用できない(ECC errorなど)場合は、下記のように手作業でバッチキュー処理から外してください。

1.障害が発生したマシンを確認ください。
  OTHER.o.xxxxやexxxxでマシン名が確認できます。

2.次のようなシェルをご用意ください。
  $ cat sleep.sh
  #!/bin/sh
  sleep 3600  (この例は1時間のスリープです)

3.このシェルを次のようにして投入します。
  (障害発生マシンを"t2a000113",予約キュー名をR12345と仮定)

  t2sub -q R12345 -l select=1:vnode=t2a000113 ./sleep.sh

  これにより、t2a000113のマシンは使用中となります。
  (-lオプションのvnodeコマンドを使用します)

4.通常通りジョブを投入します。
予備マシンを使用してジョブが実行されます。

---------------
5.障害数が予備マシンを超えてしまった場合やその他の障害でジョブが投入できない場合
   この場合、申し訳ございませんが継続利用はできません。お手数ですがsoudan宛にご連絡ください。