Vキューにおいてノードが空いているようですが待たされます(QやHの状態)。

以下をご確認ください。

有料オプションは適切に設定されていますか?

Vキューは購入ユニット数に応じて最大同時実行数が可変するキューとなっており、ユニット単位で申し込みが必要です。1ユニットあたり、TSUBAMEグループ内で合計で最大64coreまで同時にジョブを実行できます。同じTSUBAMEグループで複数の利用者がジョブを実行している場合はそれらの合計が64core以下となる事にご注意ください。有効期間は月単位のため月が変わった場合、その月にも正しく購入されているか確認してください。

例.1ユニット購入した場合。
 :8並列の場合同時に8ジョブまで実行できます。
 :64並列の場合同時に1ジョブまで実行できます。
 :32並列のジョブとシングルジョブ(1core)が実行中の場合、
  残り31coreになるので、ここで32並列のジョブを投入すると、
  既に流れているジョブのどちらかが終了するまで待ち(Q)又は保留(H)となります。
 

プレミアオプションを利用した場合、その内容に応じて、実際の2倍、4倍…のcoreを利用した事になることにご注意ください。

ジョブが「H」状態になる場合は、二つのケースがあります。

一つ目は、前のジョブの結果を次のジョブに渡した場合などジョブに依存関係を付けた場合です。 http://tsubame.gsic.titech.ac.jp/node/153

もう一つは http://tsubame.gsic.titech.ac.jp/docs/guides/tsubame2/html/usage.html#id6 などで紹介している保留(H)の状態ですが、これは、Vキューで、自分のジョブに順番が回ってきた際に、同時実行数制限にかかっていると保留(H)の状態になります。毎時32分に、保留(H)からふたたび待ち(Q)の状態に自動的に戻り、課金情報の確認をいたします。指定資源に空きがあり、制限にかからなければ、実行(R)となりジョブが実行されます。制限にかかれは、再び保留(H)となります。そのため、ノードが空いていて課金状態にも問題が無い場合でも実行開始までに最大30分1時間の遅延が発生する場合がある事にご注意ください。

巨大なアレイジョブが投入されているとジョブの開始が大幅に遅れる事があります。

Vキューにおいてアレイサイズの大きなアレイジョブが投入されると、これ以後に投入されたジョブがノードや課金に問題が無い状態でも、なかなか待ち(Q)から実行(R)にならない場合があります。これはアレイジョブの同時実行数制限の計算がジョブ管理サーバーに大きな負荷をかけ処理が追いつかないためです。大きな負荷をかけている利用者には個別に連絡して、アレイサイズを縮小して複数のアレイジョブに分割したり、投入間隔を開ける等のお願いをする事があります。1アレイジョブのアレイサイズの目安として、最大同時実行数を下回る程度のサイズであるとジョブ管理サーバーの負荷を大幅に減らす事が可能です。

例:1ユニット購入している場合、アレイサイズは64以下。

TSUBAMEグループ内の別の利用者が既に利用している場合があります。

同じTSUBAMEグループ内でジョブが投入されていることを確認する場合、次のようなコマンドを使用します。同じTSUBAMEグループを使用しているジョブが全て表示されます。

> t2group -g t2gxxxxxxx (TSUBAMEグループを指定します)
                                                                                                  Req'd   Req'd         Elap
Group         Job ID                Username  Queue   Jobname     NDS   TSK  Mem     Time    S   Time
--------- ------------------ -------- ------- --------- ----- ----- ------- -------- --- --------
t2gxxxxxx   3637xx.t2zpbs-vm1    xxxxx1       V     OTHERS        1     1      1gb 02:00:00   R  00:12:18 
t2gxxxxxx   3637xx.t2zpbs-vm1    xxxxx2       V     OTHERS        8     64   64gb           0   Q