TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

システムの主な自動チェック項目

計算ノードや管理サーバで自動で行っている主なチェック項目ついてまとめてみました。(2016.9.16現在)

項目 内容 監視間隔 対処
ネットワーク infinibandのリンク状態、ping、システムログ出力を確認 1時間 管理者へ通知
時刻 時刻が大きくずれていないか確認 1時間 管理者へ通知
GPU リンク速度、ドライバのパーミッション、ECCエラー、システムログ出力を確認 1時間(*2) 自動でノードoffline
ディスクマウント マウントされているか確認 1時間 管理者へ通知
SSD パーティションサイズ、パーミッション、実際にファイル書き込みできることを確認。ファイルシステムチェック(fsck)による確認 1時間 管理者へ通知
SSH SSHログインできるか確認 1時間 自動でノードoffline
プロセス 残存プロセスを確認(*1) (*3) 自動で残存プロセスのキル
ハードウェア ハードウェアログ(IML)を確認 1時間 管理者へ通知
PBS PBSのスケジューラの監視確認 qstatの(レスポンス60秒内)監視 1時間 管理者へ通知
PBS MOMの動作チェック 1時間 自動で起動(Sキューのみ)
PBS 待機(H)ジョブ解除(S系,L系,G/Vキュー) 1時間 自動で解除(毎時32分)
OpenSM 動作していることを確認 1時間 管理者へ通知
Lustre MDS、OST、サーバがActiveになっていること、クォータ情報を取得できること、クライアントのシステムログ出力を確認 1時間 管理者へ通知
Lustre クライアントから実際にファイル書き込みできることを確認 2時間 管理者へ通知
GPFS クライアントから実際にファイル書き込みできることを確認 2時間 管理者へ通知
インタラクティブ ロードアベレージ 1日 管理者へ通知
Hキュー ノードが確保されているか確認
PBSステータスを確認
1日 管理者へ通知
Xキュー キュー作成が成功しているか確認 1日 管理者へ通知
Hキュー/Xキュー SSHログインできるか確認 1日 自動でサーバリセット
VMチェック SSHログインできるか確認
空き容量やマウントされているか確認
1日 管理者へ通知
VMチェック Gキュー以外の物理ホスト上で仮想ゲストが稼働していないことを確認 1時間 管理者へ通知
IBCORE/IBEDGE リンクダウンや速度等のエラーが無いか確認 1日 管理者へ通知
IBEDGE ストレージとのリンクをチェック 1時間 管理者へ通知
ジョブ walltimeを超えて実行されている異常なジョブの検知 2時間 管理者へ通知
ライセンス 管理デーモンの死活監視 2時間 管理者へ通知

 *1…*1…残存プロセスか正しいプロセスかの判断は利用者以外判断できないので、ノードに割り当てられているユーザ以外のプロセスがあった場合それらを停止させる。インタラクティブやVキュー、Hキューはノード内で利用者が混在して判断がつかないのでチェックなし。

 *2…2013.3.8より試験的にGキューのチェック間隔を30分に縮めています。

 *3…S系、L系 毎時00分, 15, 30, 45
G系    03, 18, 33, 48
X     06, 21, 36, 51
U     04, 09, 14, 19, 24, 29, 34, 39, 39, 44, 49, 54, 59