このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

ジョブがエラーとなった場合の対応方法について教えてください

始めに、標準エラー出力(XXX.exxxx)のjob exit status のコードを確認してください。
PBSのExit codeは以下の3つに分類されます。
      X < 0        … PBSが返す特別なリターンコード
0 =< X < 128    … シェルなどが返すリターンコード
      X >=128    … ジョブがシグナルできられたことを意味します。
  ●標準出力/エラー出力が見当たらない場合は、
    「バッチジョブの結果リストが無いのですが。?」
    http://tsubame.gsic.titech.ac.jp/node/345 を参照ください。

1. 終了コードが "0" の場合は、正常終了です。

2. 終了コードが 0 < X (正の整数の場合)
    終了コードで多くみられる番号と対応は以下の通り
     1    Vキューでインテルでfast付きでコンパイルされたモジュールを動かした場合に発生します
   139     Segmentation fault などが原因で、エラー出力に出ているメッセージを確認してください。
          Segmentation fault,Segmentation violation,bus error の場合は、ほぼ同じ原因(配列外参照)
             ですので、利用の手引き6.7 節を参照ください。
             http://tsubame.gsic.titech.ac.jp/docs/guides/tsubame2/html/programming.html#id22
 143,243  プロセスが終了コードを発行した場合(MPIでの実行障害などを含)
         出力されているシステムメッセージを確認(下記)してください。また、
              「MPIジョブでエラーが出るのですが。?」
                 http://tsubame.gsic.titech.ac.jp/node/148 なども参照してください。
   271    制限などにかかった場合(プログラムの実行に障害があった場合などを含)
          出力されているシステムメッセージを確認(下記)してください。
その他    出力されているシステムメッセージを確認(下記)してください。

 ○標準出力/エラー出力に次のようなメッセージがある場合

     =>> PBS: job killed: walltime 3601 exceeded limit 3600
            この場合は、-wオプションで実行に必要な時間を指定してください。

     =>> PBS: job killed: mem job total 2131052 kb exceeded limit 1048576 kb
           この場合は、-lオプションで実行に必要なメモリを指定してください。

      cp: closing `/home/usr0/xxxx/OTHER.oxxxx': Disk quota exceeded
      cp: writing `hoge.tar.gz.0': Disk quota exceeded
            この場合は、ディスクの制限にかかっています。
           ファイルの整理を実施、あるいは、グループディスクをご利用ください。

      cp: closing `hoge.tar.gz.0': Input/output error
          ストレージサーバー側で障害が発生している可能性があります。
          webを確認ください。出ていない場合、soudan宛に連絡をお願いいたします。

     -bash: /var/spool/PBS/mom_priv/jobs/xxxx.t2zpbs01.SC: xxxx : bad interpreter: No such file or directory
           この場合、実行シェルの不具合の可能性が高いと思われます。
            FAQ「バッチキューで処理がすぐに終了してしまいます。?」
             http://tsubame.gsic.titech.ac.jp/node/530 を参照ください。

     ssh: connect to host t2a000xxx port 22: Connection refused
         この場合、マシンに障害が発生している可能性があります。
         しばらく時間を置いてからジョブを投入ください。(*注意)

     device 1): all CUDA-capable devices are busy or unavailable
          GPUを残留プロセスが掴んでいる場合などに発生します。
         しばらく時間を置いてジョブを投入ください。(*注意)

      *注意 定期的に残留プロセスの削除、エラーマシンの切り離しが行なわれます。
      1~2時間待ってもこのエラーが出る場合は soudanに連絡をお願いいたします。

 ○標準出力/エラー出力にメッセージが何も出ていない場合
   メッセージが表示されない場合、原因がわからない場合もありますが、次の点を確認、お試しください。

   (1) 実行プログラムをケースごとにコンパイルしている場合などは、
          a.out などではなく、ケース別に名前をつけて使用する。
          PBSに投入したら、終了するまで、その実行プログラムは更新しない
     (2) 配列外参照をしている場合、メッセージが出ずにフリーズ状態になる場合もあります。
          コンパイル時に -C (intelでは -CB) オプションをつけてみる。
     (3) 再現性がある場合、デバッカを使って不具合発生部分を特定する。

3. 終了コードがマイナスの場合
標準エラー出力の終了コードがマイナスの場合は課金対象外となります。
job exit status     : -14 (例)
通常、終了コードがマイナスの場合はハード障害のため、再実行されます。