このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

ジョブの待ち時間が長いとお感じの皆様へお願い

(バッチキューを利用する方向けの情報です)
 
                            学術国際情報センター
                             平成23年8月8日

    【ジョブの待ち時間が長いとお感じの皆様へお願い】

 TSUBAME2.0では様々なタイプのジョブがバッチスケジューラによって
スケジュールされていきます.しかし,ジョブによって実行時間や
ノード数はばらばらであるため,それらが混在すると必要以上に長い
待ち時間が発生したり,システム利用率が低下することがあります.
そのような状況を軽減するために,

* 実行時間(walltime)の短めでなるべく正確な指定
* ジョブの特性にふさわしいキューの選択

について,ご協力をよろしくお願いいたします.
 本文書では主にSキューをお使いの方を対象としますが,Gキュー/Vキュー
にも考え方は共通します.

* walltimeの短めでなるべく正確な指定について

ジョブ投入時のwalltimeには,「実行打ち切りは起こらない範囲で,
なるべく実態に近い値」を,できるだけ指定していただくよう,
お願いいたします.

たとえば4時間前後で終了しそうなジョブを投入する場合,
-l walltime=04:00:00 と指定することは,walltimeによる実行打ち切り
の可能性のため望ましくありません.しかし逆に,それを避けるために
長すぎるwalltime (たとえば-l walltime=24:00:00)を指定して
しまうと,待ち時間が必要以上に長くなってしまう可能性が
高まります(理由は下記の「補足」に記します).

このような場合,-l walltime=06:00:00 や -l walltime=08:00:00
のように,「実行打ち切りは起こらないが,なるべく実態に近い値」
を指定していただくと,ジョブがすぐ流れる可能性が高くなります.

混雑度や状況次第ですが,たとえば,24時間と指定すると一日以上
待たされるのに,walltimeを6時間とするだけで,数分でジョブが
開始するケースも存在します.

* ジョブの特性にふさわしいキューの選択について

 百ノードを超えるような利用につきましては,Hキューの利用を
おすすめしております.通常のスケジューリングでなく日時指定
の予約制のため,確実に実行できます.

 実行時間が一時間未満のケースにつきましては,Yキューを
ご利用いただけます(夏季節電期間のみのキュー).比較的空いて
いますので早く実行できます.
(2011年のみで現在利用できません) * パラメータサーベイ型のジョブについて  複数のジョブからなり,各ジョブのノード数は小さいような パラメータサーベイ型のジョブについては,すでにアレイジョブ機能 を提供しておりますが,さらに待ち時間を改善するために,ワーク フローエンジン・並列シェルのGXPの整備を進めております。正式に
利用できるようになりましたら、改めてご連絡いたします。

実験的サービスをご覧ください。(追記) * 補足  正確なwalltimeが待ち時間短縮に役立つ理由を二点記します. (1) バッチスケジューラはすでにスケジュールされたジョブの隙間を 効率よく他のジョブでスケジュールしていきます(backfill)。しかし、 walltimeの値が大きいとノードが空いていても、すでにスケジュール されたジョブの開始時刻までにジョブが終了しないと判断され、 スケジュールされません。そのため短いwalltimeを指定したほうが 待ち時間が小さくなります。 (2) Sキューの機能として,「Hキューのノードが空いていれば そちらにもジョブを流す」というものがあります.この機能を Xキューと呼びます(ただし内部的な表記でありt2statなどには 現れません). walltimeを短くするとXキューで実行される可能性が高くなり、 さらに実行開始までの時間が短縮されます。 Xキューで実行されるかはSキューに投入した時点でのみ判断されるので、 うまくXキューに流れなかった場合は、一度ジョブを削除して再度投入してみる のも効果的です。