障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2016-05-10

    (TSUBAMEにSSHログインするすべての利用者向けの情報です)

                                 学術国際情報センター
    平成28年5月10日

     下記の通りストレージに障害が発生し、復旧いたしました。

     日時:5月10日(火) 2:40 から 10:45 頃

     影響: /homeへのアクセスが大きく遅延する

     詳細:

     2:40頃に4台ある/homeを構成するGPFSサーバの1台(t2s007067)が高負荷状態となり、このサーバをマウントしてる計算ノードやインタラクティブノードの/homeへのアクセスが極端に遅くなっておりました。その結果ログインできなかったり、データの読み書きが失敗した可能性があります。10:45頃、対象のGPFSサーバのサービスを再起動することで復旧しました。

     問題のサーバをマウントしていた計算機は以下のとおりです。

    ...

  • 2016-02-25

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成28年2月25日

     下記の通りストレージに障害が発生し、復旧いたしました。報告が遅くなり皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:2月20日(土) 1:18 から 1:48 頃

     影響: /work1, /gscr0に断続的にアクセスできない。またはパフォーマンスが低下する。

     詳細:

     8台あるOSSの中の2台のペア t2s007041 及び t2s007043 に何らかの問題が発生し、このサーバで管理されていたOSTに断続的にアクセスできませんでした。

     2/20 01:18、t2s007041 が t2s007043 からの死活監視信号の応答を得られなかったため t2s007043 が障害と判断されt2s007043 が自動で再起動しました。...


  • 2016-01-07

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成28年1月7日

     下記の通りテープライブラリに障害が発生し復旧したものの一部データが/data0上から消失しました。なおバックアップデータが存在します

     日時:2015年12月28日 (ドライブ復旧は1月5日18:40分)

     影響: /data0 のテープ上の一部のデータが消失

     詳細: 

     12月28日に/data0で利用される7台あるうちの1台のテープドライブ(DRIVE05)にてエラーが発生しました(この時点では原因・影響不明)。年内の修理は間に合わず、その後の調査で5000巻あるうちの1テープメディアのドライブ内で破損していることがわかり1/5 18:...


  • 2015-11-17

    (バッチキューを利用している全ての方向けの情報です)

                                 学術国際情報センター
    平成27年11月17日

    下記の通りストレージに障害が発生しました。皆様にはご迷惑をおかけして申し訳ございませんでした。

    日時:11月14日(土) 18:50 から 19:30 頃

    影響:

    /work1, /gscr0 上のファイル、ディレクトリへのI/Oが一時的に出来なくなりました。8台あるOSSの中の1台のt2s007045がマウントするOST(gscr0_OST04、work1_OST34〜40)上のファイル、ディレクトリが該当します。

    詳細...


  • 2015-11-11


  • 2015-11-04

    (バッチキューを利用している全ての方向けの情報です)

                                 学術国際情報センター
    平成27年11月4日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:10月30日(金) 14:35 から 23:09 頃

     影響:

    • ほぼすべてのキュー(L256, L512 以外)において、サービスしている計算ノードの台数が減少。
    • バッチジョブとして実行中のジョブの一部が、リスタートされる。
    • /work1、/gscr0 上のディレクトリ、ファイルへのアクセスが出来ない。

     詳細:

     2015年10月30日(金) 14:35 より、...


  • 2015-10-27

    (バッチキューを利用している全ての方向けの情報です)

                                 学術国際情報センター
    平成27年10月27日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:10月27日(火) 16:30 から 17:57 頃

     影響: /gscr0 にアクセスできない。

     詳細:

     2015年10月27日(火) 16:30 より、計算ノード上でマウントしている共有スクラッチ領域の /gscr0 にアクセスできない問題が発生致しました。/gscr0 を構成する MDS(MetaData Server) として稼働していた t2s007013 において Lustre の処理で問題が発生したためです。

     MDS の障害のため、クライアントからは /gscr0...


  • 2015-08-19

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年8月19日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:8月19日(水) 10:09 から 11:14 頃

     影響: /work1 の一部にアクセスできない。

     詳細:

     /work1を構成する104個あるOSTの一部(OST0041 から OST004d の13台)へのI/Oがなんらかの理由に不可能となりました。/work1を構成する8台あるOSSの中の1台 t2s007047を再起動し、サービスを t2S007045 にフェイルオーバーさせることで復旧しました。原因の詳細ついては現在調査中です。

    用語説明
      OSS:Lustreファイルシステムにおいて、...

  • 2015-07-06

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年7月3日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:7月3日(金) 21:58 から 7月4日(土)15:32 頃

     影響: /work1 にアクセスできない。

     詳細:

     2015年7月3日(金) 21:58 より、/work1 を構成する MDS(MetaData Server)として稼働していた t2s007015 において Lustre の処理がスタックし、クライアントから/work1 領域にアクセスできない問題が発生致しました。

     MDS での処理がスタックしておりましたので、Lustre クライアントからは/work1...


  • 2015-07-02

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年7月2日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:7月2日(木) 12:10 から 15:15 頃

     影響: /work1 のごく一部にアクセスできない。

     詳細:

     12:10にディスクのあるRAIDセットの一つ(Pool#30)が2台のディスク障害により冗長性のない状態(No Redundant)となりました。その結果、データ保護のためこのRAIDセットが自動で読み取り専用となり、work1を構成する104個あるOSTのうちの一つの「OST1b」に対する書き込みができない状態となりました。

     その後14:...

ページ