障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2015-08-19

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年8月19日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:8月19日(水) 10:09 から 11:14 頃

     影響: /work1 の一部にアクセスできない。

     詳細:

     /work1を構成する104個あるOSTの一部(OST0041 から OST004d の13台)へのI/Oがなんらかの理由に不可能となりました。/work1を構成する8台あるOSSの中の1台 t2s007047を再起動し、サービスを t2S007045 にフェイルオーバーさせることで復旧しました。原因の詳細ついては現在調査中です。

    用語説明
      OSS:Lustreファイルシステムにおいて、...

  • 2015-07-06

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年7月3日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:7月3日(金) 21:58 から 7月4日(土)15:32 頃

     影響: /work1 にアクセスできない。

     詳細:

     2015年7月3日(金) 21:58 より、/work1 を構成する MDS(MetaData Server)として稼働していた t2s007015 において Lustre の処理がスタックし、クライアントから/work1 領域にアクセスできない問題が発生致しました。

     MDS での処理がスタックしておりましたので、Lustre クライアントからは/work1...


  • 2015-07-02

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年7月2日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:7月2日(木) 12:10 から 15:15 頃

     影響: /work1 のごく一部にアクセスできない。

     詳細:

     12:10にディスクのあるRAIDセットの一つ(Pool#30)が2台のディスク障害により冗長性のない状態(No Redundant)となりました。その結果、データ保護のためこのRAIDセットが自動で読み取り専用となり、work1を構成する104個あるOSTのうちの一つの「OST1b」に対する書き込みができない状態となりました。

     その後14:...


  • 2015-06-04

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年6月4日

     下記の通りグループディスク設定に問題が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:2015年6月4日 0:20 から 6月4日 11:01 頃

     影響: グループディスクを正しく購入していても、グループの最上位のディレクトリの所有者とパーミッションがroot 700に変更されアクセス不能となる。またクオータ設定もおかしくなる。

     詳細: 提示処理毎月3日夜間(今月は6/4日 0:20分)に実行される未購入グループのroot化処理に問題があり、ほとんどのグループ(*)においてグループディスクのディレクトリへのアクセスが不能となりました。9:30頃より復旧を開始し、11:00頃にすべての復旧作業及び確認が終わりました。

     *…...


  • 2015-05-22

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年5月21日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:2015年5月21日 16:49 から 5月22日 13:45 頃

     影響: /data0 のテープドライブ上のデータの一部にアクセスできない。

     詳細: 

      期間中、5000巻あるうちの1つのテープメディアTI1016が読み込めない状況でした。ロボットハンドがTI1016のテープの存在を認識しているが、バーコードが読めずテープ情報をシステムに誤報告したため、テープシステム内のDBと整合性が取れない状態に陥りました。テープ情報を更新することで復旧しました。


  • 2015-05-21

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年5月21日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:2015年5月20日 11:20 から 20:00 頃

     影響: /data0 のテープドライブ上のデータの一部にアクセスできない。

     詳細: 

      テープドライブのバーコード不良及びロボット不良によりテープをマウントすることができませんでした。既にドライブに入ってるメディアに関してはデータの読み/書きは可能でしたが、ドライブに入ってないメディアに関するデータの読み/書き
    (ドライブに対してメディアを入れる処理が障害によりできなかったため)はできない状況でした。

    ドライブ及びロボットを交換することで復旧しました。...


  • 2015-05-08

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年5月8日

    (7/22更新) 

    下記の通りストレージに障害が発生し、再発防止策を設定しました。詳細はわかり次第追記します。

     日時:発生する可能性があった期間は/data0サービス開始時(2011.5.1)から2015.5.7まで。最初の発見は2015.4.28。実際に上書きが起きた期間は2014.2.19から2014.6.13。

     影響: /data0 のテープ上の多くのデータが上書きされ消失

     詳細: 

     ...


  • 2015-04-24

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年4月24日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:2014年4月3日 から 2015年4月21日 頃

     影響: /data0 のテープドライブ上のデータの一部にアクセスできない。

     詳細: 

     /data0ではHDDとテープを利用した階層型ストレージを構成しておりますが(HSM)、それを実現するTivoli Storage Manager(以下TSM)が/data0 の テープ上のデータを Recall する際に Permission Denied となりデータが Recall できない状況が発生しました。...


  • 2015-04-22


  • 2015-03-02

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    平成27年3月2日

     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

     日時:2月28日(土) 12:24 から 15:32 頃

     影響: /work1 にアクセスできない。

     詳細: (確認中)

    (3/5追記) 2015 年 2 月 28 日 12:24 より、/work1 を構成する MDS(MetaData Server)...

ページ