障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2014-11-12

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年11月12日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:11月8日(土) 6:52 から 12:28 頃

     影響: /work0の一部にアクセスできない。

     詳細:

     8台あるOSSの中の2台 t2s007053, t2s007055 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

     他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、...


  • 2014-11-12

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年11月12日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:11月7日(金) 23:15 から 8日(土) 5:20 頃

     影響: /work0の一部にアクセスできない。

     詳細:

     8台あるOSSの中の2台 t2s007057, t2s007059 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

     他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、...


  • 2014-11-12

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年11月12日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:11月4日(火) 11:48 から 12:41 頃

     影響: /work0の一部にアクセスできない。

     詳細:

     8台あるOSSの中の1台 t2s007017 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

     他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、...


  • 2014-11-12

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年11月12日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:11月4日(火) 10:22 から 11:15 頃

     影響: /work1, /gscr0 の一部にアクセスできない。

     詳細:

     8台あるOSSの中の2台 t2s007049, t2s007051 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

     他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、...


  • 2014-11-12

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年11月12日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:11月02日(日) 15:00 から 17:48 頃

     影響: /work1, /gscr0 の一部にアクセスできない。

     詳細:

     8台あるOSSの中の1台 t2s007041 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

     他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、...


  • 2014-10-24

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年10月24日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:10月24日(金) 0:56 から 11:55 頃

     影響: /work1, /gscr0 にアクセスできない。

     詳細:

    10/23 21:00頃からswapの使用率が徐々に上昇し、その後サーバ間のheartbeatの応答が得られなくなったため、フェイルオーバーが発生しておりました。その後はハングやOut-of-Memoryの状況が見られますが、いずれのサーバも正常に稼働できる状態にはなかったと考えられます。

    また、...


  • 2014-10-23

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年10月23日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:10月23日(木) 10:28 から 11:10 頃

     影響: /work1 の一部にアクセスできない

     詳細:

     /work1のMDSとなっているサーバ t2s007015 に障害が発生しました。非常に高い負荷状況でメモリ枯渇などにより発生した可能性があります。

     (11/12追記) Lustre クライアントが保持するロック数を Lustre フ ァイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては...


  • 2014-07-22

     (TSUBAMEのアカウントをお持ちのすべての方向けの情報です)

    学術国際情報センター
    平成26年7月22日

    【落雷停電によるTSUBAMEの停止】

     7月20日18時57分頃東京電力送電線への落雷により、大岡山地区全域に停電が発生しました。この影響でTSUBAMEも停止しました。現在復旧作業を進めております。

    (11:00更新) 停止していたG,U,Vキューが復旧し、すべてのキューが運用を再開しました。/data0のテープドライブとの連携部分に問題が残っています。

    (16:00更新) 影響のあったジョブは以下の通りです。

    ...


  • 2014-02-14

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)

                                学術国際情報センター
    平成26年2月14日

     下記の通りバッチキューに障害が発生し復旧しました。皆様にはご迷惑をおかけして申し訳ございません。

    日時:

    2014年2月9日(日) 9:30頃から2月10日(月)10:16頃

    影響:

    ・Vキューへの新規ジョブ投入ができない。
    ・ t2stat コマンドによる V キューのジョブ実行状況の確認ができない
    ・「Cloud Service Utilization」「Utilization Monitoring System」でのモニタリングが出来ない.

    詳細:

    ...


  • 2013-12-24

    利用者各位

    学術国際情報センター
    平成25年12月24日

    【障害報告】モニタリング障害(Ganglia)

     下記の通りGangliaのデータが取得できていない状態になっており復旧しました。

    1.日時

    2013年12月20日(金) 19:04 から 2013年12月24日(火) 8:30

    2.詳細

    104室と105室の情報を採取する gmetad デーモンがsegfaultの発生によりダウンしました。結果として、障害期間中の104 室、105 室の情報をweb 表示できない状態となっています。

    3.対策

    gmetad デーモンのダウンを検知して 自動的に gmetad デーモンを起動し復旧させる仕組みの実装を検討いたします。

ページ