TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

頻発している/work1の障害について(IO回数の削減のお願い)

ここ最近/work1の障害が短期間に何度も発生しており利用者の皆様にはご迷惑をおかけして申し訳ありません。

原因が特定できていないため今後も再発する可能性があるのですが、障害の傾向としましてはmetadataを格納するMDSに突然大きな負荷がかかっていることがわかっています。(これが利用者のジョブの実装が原因なのかLustreファイルシステムのバグが原因なのかは現時点でははっきりとしておりません)

上の図はここ1日のMDSとOSSの負荷状況を表したグラフです。

MDSのCPUコア数はトータルで24(赤い線)となるため400近い負荷は明らかな高負荷状態となっています。

高負荷となる原因の一つとして細かなIOを大量に発行することが考えられます。一方でLusterのバグの可能性もあります。

利用者の皆様にはジョブの内容を再確認していただき、

  • 複数のIOはまとめる
  • 内臓SSDを利用する
  • 1ディレクトリのファイル数を減らす(最大でも10万程度まで。これは10万まで問題ないという意味ではなくできるだけ減らしてください)
  • ジョブの同時実行数を制限する

など負荷の軽減にご協力いただきますようよろしくお願いします。

 

関連リンク:

Lustre Grid Report
http://mon.g.gsic.titech.ac.jp/storage/?r=week&s=descending&c=

 

用語説明

OSS:Lustreファイルシステムにおいて、計算ノードに対してファイルの中身を 実際に送受信するサーバ

OST:Lustreファイルシステムにおいて、ファイルの中身を実際に保存しているディスクの集合体

MDS:Lustreファイルシステムにおいて、計算ノードに対してファイルのメタ情報を実際に送受信するサーバ

MDT:Lustreファイルシステムにおいて、ファイルのメタ情報を実際に保存しているディスクの集合体