TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2015-02-19

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年2月19日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:2月14日(土) 18:33 から 2月16日(月) 12:17 頃

     影響: /work0の一部に書き込みができない。

     詳細:

     8台あるOSSの中の1台 t2s007001 に接続されるOSTの1つ work0-OST0000 において、”Invalid block bitmap”とのエラーを検知し、OST が read-only で再マウントされておりました。このため障害発生から復旧までの間、当該OSTに対する書き込みができない状態となっておりました。なお/work0を構成するOSTの数は56のため、1/56に問題があったことになります。...


  • 2014-12-18

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年12月18日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:12月7日(日) 18:15 から 12月10日(水) 15:41 頃

     影響: /work0の一部に書き込みができない。

     詳細:

     8台あるOSSの中の1台 t2s007003 に接続されるOSTの1つ work0-OST000C において、”Invalid block bitmap”とのエラーを検知し、OST が read-only で再マウントされておりました。このため障害発生から復旧までの間、当該OSTに対する書き込みができない状態となっておりました。

    ...


  • 2014-12-08

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年12月8日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:12月8日(月) 5:16頃 から 10:32 頃

     影響: /work1, /gscr0の一部にアクセスできない。

     詳細:

     8台あるOSSの中の6台 t2s007037, t2s007039, t2s007041, t2s007043, t2s007045, t2s007047, t2s007049, t2s007051 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

     ...


  • 2014-11-28

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年11月28日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:11月26日(水) 23:55 から 27日(木) 9:50 頃

     影響: /work1, /gscr0 にアクセスできない。

     詳細:

     8台あるOSSの中の2台 t2s007037, t2s007039 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

     他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。Lustre クライアントにおけるロック数が制限できていない問題は、Lustre...


  • 2014-11-28

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年11月28日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:11月26日(木) 15:42 から 17:38 頃

     影響: /work1, /gscr0 にアクセスできない。

     詳細:

     8台あるOSSの中の7台 t2s007039, t2s007041, t2s007043, t2s007045, t2s007047, t2s007049, t2s007051 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

     他の障害同様、Lustre クライアントが保持するロック数を Lustre...


  • 2014-11-26

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年11月26日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:11月19日(木) 21:00 から 11月20日(金) 12:13 頃

     影響: /work0の一部にアクセス書き込みできない。

     詳細:

     8台あるOSSの中の1台 t2s007011 に接続されるOSTの1つ work0-OST001d において...


  • 2014-11-26

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年11月26日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:11月10日(木) 10:44 から 11月11日(金) 12:41 頃

     影響: /work0の一部にアクセスできない。

     詳細:

     8台あるOSSの中の1台 t2s007011 に接続されるOSTの1つ work0-OST0018 において、”Invalid block bitmap”とのエラーを検知し、OST が read-only で再マウントされておりました。このため障害発生から復旧までの間、当該OSTに対する書き込みができない状態となっておりました。

    ...


  • 2014-11-26

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年11月26日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:11月14日(金) 5:20 から 9:22 頃

     影響: /work0の一部にアクセスできない。

     詳細:

     8台あるOSSの中の2台 t2s007019 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

     他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。Lustre クライアントにおけるロック数が制限できていない問題は、Lustre 2.X におけるクライアントのコード(LDLM...


  • 2014-11-26

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年11月26日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:11月13日(木) 1:25 から 9:59 頃

     影響: /work0の一部にアクセスできない。

     詳細:

     8台あるOSSの中の2台 t2s007057 及び t2s007059 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

     他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。Lustre クライアントにおけるロック数が制限できていない問題は、Lustre 2.X...


  • 2014-11-12

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成26年11月12日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:11月9日(日) 22:48 から 23:18 頃

     影響: /work0の一部にアクセスできない。

     詳細:

     8台あるOSSの中の1台 t2s007019 に障害が発生し、このサーバで管理されていたOSTにアクセスできませんでした。

     他の障害同様、Lustre クライアントが保持するロック数を Lustre ファイルシステムが制限できていないために問題が発生してメモリ不足になっていることを確認致しました。根本的な対策としては Lustre ファイルシステムの改修が必要となりますが、...

ページ