GPUジョブでのエラーについて教えてください。

GPUジョブで発生する障害はいくつか報告されています。
GPUで発生する主な障害/エラーには次のようなものがあります。

GPU LinkSpeed Down
Missing /dev/nvidia2 device
Uncorrectable PCI Express Error
GPU ECCエラー

現在、定期的(1時間)に障害チェックを実施しており、発生頻度は減少してきておりますが、発生自体は無くなっておりません。
特に、GPUのECCエラーは、CPUのECCエラーと違ってマシンがリブートしない場合もありますので、プログラム内で定期的な
確認をお願いします。例えば次のような関数を使用します。

  cudaError_t err = cudaGetLastError();
  if (err != cudaSuccess) { 
            printf("error : %s\n", cudaGetErrorString(err));
      exit(-1)
  }

この関数は、それより前に発生したエラーを検出しますので
実行開始時点で一度、計算途中では定期的に実行しておくと良いかもしれません。

 実行時に
call to cuMemHostRegister returned error 2: Out of memory
などと表示して実行しない場合は、配列が大きすぎます。
プログラムの再確認をお願いします。