障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2016-06-29

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成28年6月29日

     下記の通りストレージに障害が発生し、復旧いたしました。発見、報告が遅くなり申し訳ありませんでした。

     日時:6月8日(水) 11:18 から 11:28 頃

     影響: /work1 にアクセスできない

     詳細:

    /work1 を構成する2台で冗長化されている MDS(MetaData Server) として稼働していた1台の t2s007015 において Lustre に障害が発生し、自動で MDS のサービスが t2s007013 にフェイルオーバーされたことで復旧しました。復旧までの間 /work1 にアクセスすることができませんでした。なお、次の障害が発生する6/24まで、/work1 の MDS は t2s007013...


  • 2016-05-19

    (hpci-loginノードを利用している方向けの情報です)

                                 学術国際情報センター
    平成28年5月19日

     下記の通りログインに問題があり、復旧いたしました。

     日時:4月21日(木) 2:10 から 5月18日(水)20:24 頃

     影響: hpci-loginノードへgsi-sshによるログインが出来ない。

     詳細:

    上記の期間におきまして、hpci-login への gsi-ssh ログインができない状態となっておりました。5月19日現在は回復しております。原因はホスト証明書の設定ミスによるものです。なお、当該期間中も公開鍵付きsshによるログインは可能な状態でした。ご利用者の皆様にはご迷惑をお掛けいたしました。


  • 2016-05-13

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成28年5月13日

     下記の通りストレージに障害が発生し、復旧いたしました。

     日時:5月11日(水) 15:10 から 16:24 頃

     影響: /work1 にアクセスできない

     詳細:

    /work1 を構成する2台で冗長化されている MDS(MetaData Server) として稼働していた1台の t2s007015 においてLustre の処理がスタックする問題が発生致しました。

    MDS の処理がスタックしたため、Lustre クライアントである各計算ノードからは/work1 のメタデータを取得できなくなりました。その結果、/work1 にアクセスができなくなる影響が発生しました。...


  • 2016-05-10

    (TSUBAMEにSSHログインするすべての利用者向けの情報です)

                                 学術国際情報センター
    平成28年5月10日

     下記の通りストレージに障害が発生し、復旧いたしました。

     日時:5月10日(火) 2:40 から 10:45 頃

     影響: /homeへのアクセスが大きく遅延する

     詳細:

     2:40頃に4台ある/homeを構成するGPFSサーバの1台(t2s007067)が高負荷状態となり、このサーバをマウントしてる計算ノードやインタラクティブノードの/homeへのアクセスが極端に遅くなっておりました。その結果ログインできなかったり、データの読み書きが失敗した可能性があります。10:45頃、対象のGPFSサーバのサービスを再起動することで復旧しました。

     問題のサーバをマウントしていた計算機は以下のとおりです。

    ...

  • 2016-02-25

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成28年2月25日

     下記の通りストレージに障害が発生し、復旧いたしました。報告が遅くなり皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:2月20日(土) 1:18 から 1:48 頃

     影響: /work1, /gscr0に断続的にアクセスできない。またはパフォーマンスが低下する。

     詳細:

     8台あるOSSの中の2台のペア t2s007041 及び t2s007043 に何らかの問題が発生し、このサーバで管理されていたOSTに断続的にアクセスできませんでした。

     2/20 01:18、t2s007041 が t2s007043 からの死活監視信号の応答を得られなかったため t2s007043 が障害と判断されt2s007043 が自動で再起動しました。...


  • 2016-01-07

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成28年1月7日

     下記の通りテープライブラリに障害が発生し復旧したものの一部データが/data0上から消失しました。なおバックアップデータが存在します

     日時:2015年12月28日 (ドライブ復旧は1月5日18:40分)

     影響: /data0 のテープ上の一部のデータが消失

     詳細: 

     12月28日に/data0で利用される7台あるうちの1台のテープドライブ(DRIVE05)にてエラーが発生しました(この時点では原因・影響不明)。年内の修理は間に合わず、その後の調査で5000巻あるうちの1テープメディアのドライブ内で破損していることがわかり1/5 18:...


  • 2015-11-17

    (バッチキューを利用している全ての方向けの情報です)

                                 学術国際情報センター
    平成27年11月17日

    下記の通りストレージに障害が発生しました。皆様にはご迷惑をおかけして申し訳ございませんでした。

    日時:11月14日(土) 18:50 から 19:30 頃

    影響:

    /work1, /gscr0 上のファイル、ディレクトリへのI/Oが一時的に出来なくなりました。8台あるOSSの中の1台のt2s007045がマウントするOST(gscr0_OST04、work1_OST34〜40)上のファイル、ディレクトリが該当します。

    詳細...


  • 2015-11-11


  • 2015-11-04

    (バッチキューを利用している全ての方向けの情報です)

                                 学術国際情報センター
    平成27年11月4日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:10月30日(金) 14:35 から 23:09 頃

     影響:

    • ほぼすべてのキュー(L256, L512 以外)において、サービスしている計算ノードの台数が減少。
    • バッチジョブとして実行中のジョブの一部が、リスタートされる。
    • /work1、/gscr0 上のディレクトリ、ファイルへのアクセスが出来ない。

     詳細:

     2015年10月30日(金) 14:35 より、...


  • 2015-10-27

    (バッチキューを利用している全ての方向けの情報です)

                                 学術国際情報センター
    平成27年10月27日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:10月27日(火) 16:30 から 17:57 頃

     影響: /gscr0 にアクセスできない。

     詳細:

     2015年10月27日(火) 16:30 より、計算ノード上でマウントしている共有スクラッチ領域の /gscr0 にアクセスできない問題が発生致しました。/gscr0 を構成する MDS(MetaData Server) として稼働していた t2s007013 において Lustre の処理で問題が発生したためです。

     MDS の障害のため、クライアントからは /gscr0...

ページ