TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

MPIジョブでエラーが出るのですが。?

 MPIの利用環境が数種類ありますので、実行環境を確認してください。以下に、実行した環境とエラーの例を示します。

1.openmpiで実行している場合
  openmpiで実行していて以下の様なエラーが出る場合は、

     /var/spool/PBS/mom_priv/jobs/1662.t2zpbs03.SC: line 10: c: command not found
   --------------------------------------------------------------------------
    orterun was unable to launch the specified application as it could not access
    or execute an executable:

     Executable: ./check
     Node: t2a001121-vm1

     while attempting to start process rank 0.
    --------------------------------------------------------------------------

 (a) mvapich2,mpich2でコンパイルされている可能性があります。
 (b) Vキューで動作させた可能性があります。
        (Vキューは、仮想環境ですので、mpich2をお使いください)

 2.mvapich2で実行している場合
  mvapich2で実行していて以下の様なエラーが出る場合は、

     /var/spool/PBS/mom_priv/jobs/1663.t2zpbs03.SC: line 10: c: command not found
    /usr/apps/mvapich2/1.5.1/pgi/bin/mpirun_rsh: error while loading shared libraries: libibumad.so.3: cannot open shared object file: No such file or directory

 (a) openmpi,mpich2でコンパイルされている可能性があります。
 (b) Vキューで動作させた可能性があります。
         (Vキューは、仮想環境ですので、mpich2をお使いください)

3.mpich2で実行している場合
 (a) mpich2で実行していて以下の様なエラーが出る場合は、openmpiでコンパイルされています。

    --------------------------------------------------------------------------
    It looks like opal_init failed for some reason; your parallel process is
    likely to abort.  There are many reasons that a parallel process can
    fail during opal_init; some of which are due to configuration or
    environment problems.  This failure appears to be an internal failure;
    here's some additional information (which may only be relevant to an
    Open MPI developer):

       opal_carto_base_select failed
      --> Returned value -13 instead of OPAL_SUCCESS
    --------------------------------------------------------------------------
    [t2a001121-vm1:31986] [[INVALID],INVALID] ORTE_ERROR_LOG: Not found in file runtime/orte_init.c at line 77
    --------------------------------------------------------------------------
      :

  (b) mpich2で実行していて以下の様なエラーが出る場合は、mvapich2でコンパイルされています。

     ./check: error while loading shared libraries: libibumad.so.3: cannot open shared object file: No such file or directory
    ./check: error while loading shared libraries: libibumad.so.3: cannot open shared object file: No such file or directory

4.その他のエラー
[[54475,1],0][btl_openib_component.c:3224:handle_wc] from t2a001021 to:  
t2a001023 error polling LP CQ with status RETRY EXCEEDED ERROR status number  
12 for wr_id 187335168 opcode 0  vendor error 129 qp_idx 0
--------------------------------------------------------------------------

  または、

  [t2a000015][[14969,1],134][btl_openib_component.c:1492:init_one_device] error
obtaining device context for mlx4_1 errno says Device or resource busy
--------------------------------------------------------------------------
WARNING: There was an error initializing an OpenFabrics device.

  Local host:   t2a000015
    Local device: mlx4_1

 このようなエラーが発生した場合、IBに不具合が発生している可能性があります。
通常は、運用から外れて障害対応となりますが、祝休日等の対応が難しい場合は
次のような対処方法が考えられます。

 (a) IBの一方に障害が発生している場合、IBを片側のみの指定にしてみます。
    mpirun -n 2 --mca btl_openib_max_btls 1 -machinefile  ...
   これにより、通信性能は若干低下しますが、利用出来る場合があります。

 (b) 直接ログインを実施して、エラーの発生していないマシンのみを使用します。
   1ノード分が無駄になりますが、実行可能となります。

5.mpirunを直接実行した場合に次のようなエラーが出る場合があります。

> mpirun -np 4 ./sample5a
Fatal error in PMPI_Bcast: Invalid root, error stack:
PMPI_Bcast(1306): MPI_Bcast(buf=0x6afbc8, count=4, MPI_CHARACTER, root=1, MPI_COMM_WORLD) failed
PMPI_Bcast(1268): Invalid root (value given was 1)
 :
> mpirun -np 4 -hostfile ./host ./sample5a
mpirun_rsh: PMI key 'PMI_process_mapping' not found.[cli_0]: readline failed
[cli_1]: readline failed
[cli_2]: readline failed
 :
> mpirun -np 4 ./sample5a
[t2a006179:18372] *** An error occurred in MPI_Bcast
[t2a006179:18372] *** on communicator MPI_COMM_WORLD
[t2a006179:18372] *** MPI_ERR_ROOT: invalid root
[t2a006179:18372] *** MPI_ERRORS_ARE_FATAL (your MPI job will now abort)
     :
この場合、コンパイルしたMPIと実行したMPIが違っています。
(例えば、mpich2でコンパイルして、openmpiで実行しているなど)MPI環境を確認してください。 

6.以下のメッセージの場合、他ユーザーのプロセスが残っている可能性が高いため、
少し時間を置いてジョブを投入してください。(毎時10分にクリア処理が走ります)

(a)MPIにmvapich2を使用している場合
   Error in init phase...wait for cleanup! (1/8 mpispawn connections)
   Failed in initilization phase, cleaned up all the mpispawn!

(b)MPIにopenmpiを使用している場合、
   orterun was unable to cleanly terminate the daemons on the nodes shown
   below. Additional manual cleanup may be required - please refer tothe  
   "orte-clean" tool for assistance.