TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害

【障害報告】2014.11.8発生:/work0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成26年11月12日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:11月9日(日) 22:48 から 23:18 頃

 影響: /work0の一部にアクセスできない。

 詳細:

 8台あるOSSの中の1台 t2s007019 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

 他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、暫定対策として定期的なロックのクリアとメモリ使用量の監視を行います。

Undefined

【障害報告】2014.11.8発生:/work0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成26年11月12日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:11月8日(土) 6:52 から 12:28 頃

 影響: /work0の一部にアクセスできない。

 詳細:

 8台あるOSSの中の2台 t2s007053, t2s007055 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

 他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、暫定対策として定期的なロックのクリアとメモリ使用量の監視を行います。

Undefined

【障害報告】2014.11.7発生:/work0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成26年11月12日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:11月7日(金) 23:15 から 8日(土) 5:20 頃

 影響: /work0の一部にアクセスできない。

 詳細:

 8台あるOSSの中の2台 t2s007057, t2s007059 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

 他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、暫定対策として定期的なロックのクリアとメモリ使用量の監視を行います。

Undefined

【障害報告】2014.11.4発生:/work0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成26年11月12日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:11月4日(火) 11:48 から 12:41 頃

 影響: /work0の一部にアクセスできない。

 詳細:

 8台あるOSSの中の1台 t2s007017 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

 他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、暫定対策として定期的なロックのクリアとメモリ使用量の監視を行います。

Undefined

【障害報告】2014.11.4発生:/work1, /gscr0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成26年11月12日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:11月4日(火) 10:22 から 11:15 頃

 影響: /work1, /gscr0 の一部にアクセスできない。

 詳細:

 8台あるOSSの中の2台 t2s007049, t2s007051 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

 他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、暫定対策として定期的なロックのクリアとメモリ使用量の監視を行います。

Undefined

【障害報告】2014.11.2発生:/work1, /gscr0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成26年11月12日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:11月02日(日) 15:00 から 17:48 頃

 影響: /work1, /gscr0 の一部にアクセスできない。

 詳細:

 8台あるOSSの中の1台 t2s007041 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

 他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、暫定対策として定期的なロックのクリアとメモリ使用量の監視を行います。

Undefined

【障害報告】2014.10.24発生:/work1, /gscr0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成26年10月24日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:10月24日(金) 0:56 から 11:55 頃

 影響: /work1, /gscr0 にアクセスできない。

 詳細:

10/23 21:00頃からswapの使用率が徐々に上昇し、その後サーバ間のheartbeatの応答が得られなくなったため、フェイルオーバーが発生しておりました。その後はハングやOut-of-Memoryの状況が見られますが、いずれのサーバも正常に稼働できる状態にはなかったと考えられます。

また、一部ノードではcorosyncプロセスのCPU使用率が100%になっておりました。

Undefined

【障害報告】2014.10.23発生:/work1ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成26年10月23日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:10月23日(木) 10:28 から 11:10 頃

 影響: /work1 の一部にアクセスできない

 詳細:

 /work1のMDSとなっているサーバ t2s007015 に障害が発生しました。非常に高い負荷状況でメモリ枯渇などにより発生した可能性があります。

 (11/12追記) Lustre クライアントが保持するロック数を Lustre フ ァイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、暫定対策として定期的なロックのクリアとメモリ使用量の監視を行います。

Undefined

【障害報告】2014.7.20発生:落雷停電によるTSUBAMEの停止

 (TSUBAMEのアカウントをお持ちのすべての方向けの情報です)

学術国際情報センター
平成26年7月22日

【落雷停電によるTSUBAMEの停止】

 7月20日18時57分頃東京電力送電線への落雷により、大岡山地区全域に停電が発生しました。この影響でTSUBAMEも停止しました。現在復旧作業を進めております。

(11:00更新) 停止していたG,U,Vキューが復旧し、すべてのキューが運用を再開しました。/data0のテープドライブとの連携部分に問題が残っています。

(16:00更新) 影響のあったジョブは以下の通りです。

Undefined

【障害報告】2014.2.9発生:バッチキュー障害(Vキュー)

(TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)

                            学術国際情報センター
平成26年2月14日

 下記の通りバッチキューに障害が発生し復旧しました。皆様にはご迷惑をおかけして申し訳ございません。

日時:

2014年2月9日(日) 9:30頃から2月10日(月)10:16頃

影響:

・Vキューへの新規ジョブ投入ができない。
・ t2stat コマンドによる V キューのジョブ実行状況の確認ができない
・「Cloud Service Utilization」「Utilization Monitoring System」でのモニタリングが出来ない.

詳細:

Vキューを管理するジョブ管理サーバがTSUBAMEホスティングの障害により停止しました。月曜日にTSUBAMEホスティングを復旧させる事により、サービスも復旧しました。

影響を受けたジョブ:

Undefined

ページ