TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

TSUBAMEの問題一覧

既知のTSUBAMEの問題

管理番号 確認日 更新日 内容
T2KI-20161027A 2016-10-24 2016-10-27 t2subをバックグランド実行(&付き)とループなどで一度に大量に実行すると課金情報が破損する場合がある。当面の間、大量投入の場合は逐次実行(&無し)のループで、ループ数も10程度で数分置きに分けるなど工夫をお願いします。
T2KI-20161021A 2016-9-23 2016-10-21 t2sub実行時に正しいTSUBAMEグループを指定しているのにもかかわらず、「Your accounting group id XXX is not found」といった、TSUBAMEグループが存在しないというエラーが時々発生する。時間を空けて再実行すると問題が解消されている。
T2KI-20141126A 2014-11-10 2015-04-03 Lustre OST において”Invalid block bitmap”とのエラーを検知し、OST が read-only で再マウントされ、復旧までの間、当該OSTに対する書き込みができない。根本的な対策としては kernel のアップデートが必要だが、 OS ディストリビューションの変更が必要で、現実的に対応が困難な状況。
(2014-12-11更新)カーネルにデバッグパッチを当てることにより、再発時に何が起きているのかを検証予定。
(2014-12-18更新)原因がわかり修正パッチを12/19に適用する事となりました。原因は read 処理時に対象 block の bitmap が最新である旨の bitmap_uptodata flag を立てますが、その処理が buffer のロックを行わないため、他 thread による buffer 領域の更新が可能となり、対象 buffer の read 処理が終了する前に先の bitmap 情報と buffer が異なってしまうためです。こちらはあくまでも内部 bitmap と buffer 上の不整合のため、Disk 上の実データの不整合を意味しません。なおこの問題は/work0でのみ発生し、他のLustre領域(/work1, /gscr0)では発生しません。
(2014-12-19更新)パッチの適用が完了しました。現在有効かどうか経過観察中です。
(2015-01-21更新)その後特に問題が発生していないためクローズ。
(2015-02-19更新)2/14に問題の再発を確認。デバックパッチから得られたログを解析中。
(2015-04-03更新)Lustre(サーバ側)のバージョンアップを行いました。有効かどうか経過観察を行います。
T2KI-20141030A 2014-10-28 2014-11-12 OpenMPI 1.8.2を使用した場合、マルチレール環境が正しく動作しない
お知らせ:OpenMPI 1.8.2 における性能上の問題について
(2014-11-12更新) Mellanox社より回答があり、OpenMPI 1.8系列では2つのFabric(ネットワークカード)を同時に利用した通信ができないことがわかりました。プログラムに応じた代替のMPIについては、上記リンク先をご参照ください。

 

 解決済みのTSUBAMEの問題

管理番号 確認日 更新日 内容
T2KI-20141113A   2015-06-18 MVAPICH2 2.0rc1 と PGI 14.6 の組み合わせに問題がある。
おしらせ:MVAPICH2 2.0rc1 と PGI Compiler 14.6 の組み合わせの不具合と対応方法のお知らせ
(
2015-06-18更新)新たに導入したPGI15.1を利用することで正常に動作します。
T2KI-20141030B 2014-10-28 2015-02-05 OpenMPI 1.8.2の環境下で、ジョブの割付が適切に行われない。
お知らせ:OpenMPI 1.8.2 における性能上の問題について
2014-11-4に対策を実施。
(2015-01-29) 特定の資源指定において、ノードごとのプロセス数には問題がないものの、順序が従来と異なるケースが発生することが判明いたしました、本件の対処について検討中です。
(2015-02-05)FAQ:OpenMPI 1.8.2のプロセスマッピングについて教えてくださいを公開しました。マッピング方法が公開されたためクローズとします。 
T2KI-20141112A 2014-10 2014-12-19 (2014-11-12更新)問題発生時の状況から調査を進めたところ、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生していることを確認致しました。
根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、暫定対策として定期的なロックのクリアとメモリ使用量の監視を行います。
(2014-11-26更新)Lustre クライアントにおけるロック数が制限できていない問題は、Lustre 2.X におけるクライアントのコード(LDLM = Lustre Distributed Lock Manager)上の不具合により発生していることを確認致しました。2014 年 11 月 25 日、lustre-2.5.27.ddn4 の RPM を作成致しましたので、作業可能なクライアントから順次、Lustre RPM の入れ替えを実施いたします。
(2014-12-19更新)全てのノードにパッチの適用が完了しました。
T2KI-20140830A 2014-08-30 2014-12-03 OSアップデート以降、ログインノード/インタラクティブノード間のInfiniband接続が不安定で、ログインに失敗することがある
(2014-10-16更新) 対策実施中
(2014-12-03更新) ログインノードの設定を変更しInfinibandネットワークを経由せずGbEでインタラクティブノードに転送されるよう設定を変更し解決。
T2KI-20141103A 2014-11-03 2014-11-06 OpenMPIの起動に失敗することがある。
計算ノードのSSDが満杯のときにOpenMPIのセッションファイルの作成に失敗して起動できなくなる事象が確認されました。
2014-11-6に対策を実施。
T2KI-20140830A 2014-08-30 2014-9-26 OSアップデート後に性能が低下することがある
(2014-9-26更新) 対策実施済み
解決策: カーネルパラメータの変更を実施
    2014-10-9 管理サーバの一部(LDAP)に負荷が集中し、ノード間のSSH接続が失敗することがある。
(2014/10/9更新) 設定を見直して頻度が下がりました。
  2014-08-15 2014-10-16 SP3更新後にジョブがメモリ不足で失敗する場合がある。
(2014/10/8更新) SP3更新後にシステムが消費するメモリ量が増加したためです。設定の変更を行います。詳しくはこちらをご覧ください
(2014/10/16更新) 設定変更が完了しました。