障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2012-06-14

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年6月14日
    
     下記の通りG/Vキューに障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
    日時:
     2012年6月12日(火) 20:03から2012年6月13日(水) 10:56
    
    影響:
    ・G, V キューに投入したジョブが待ち状態から実行状態へ遷移しない
    
    詳細:
     G, Vキューを管理するt2zpbs03で稼働している
    PBS(ジョブ管理サーバソフト)に問題が発生しました。
    ジョブのスケジューリングを行うための管理プロセスがダウンし、
    結果としてジョブが待ち状態から実行状態へ遷移しない状態と
    なっておりました。そのため、ジョブ管理サーバの
    PBSサービス再起動を実施し、復旧いたしました。
    
    影響を受けたジョブ:
     実行中へのジョブへの影響はありませんでした...

  • 2012-06-05

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                  平成24年6月5日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
     日時:6月4日(月)19:34 から 6月5日(火)3:20
    
     影響:/data0にアクセスできない
    
     詳細:
    
     /data0を構成するストレージシステムsc10において,2つのpool(RAID6グループ一つ)
    でそれぞれ2本のディスク障害が発生し、冗長性が失われました。
     サービスは継続していましたが、19:34にこれらの片方のpool28において8本残ってい
    たディスクに対してコマンドがタイムアウトしたため,これ以上ディスクを壊さないよ
    う自動で書き込みロックがかかりました。
     ディスクそのものはこの状態でも読み出しは可能ですが、/data0のサービス的にはア...

  • 2012-05-18

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年5月18日
    
     下記の通りG/Vキューに障害が発生し、復旧いたしました。皆様にはご迷惑を
    おかけして申し訳ございませんでした。
    
    日時:
     2012年5月16日(水) 18:12から18:54
    
    影響:
    ・G, V キューへのPBSを用いたジョブ投入不可
    ・t2statコマンドによるジョブ実行状況の確認ができない
    ・Cloud UtilizationによるG, Vキューのジョブ実行状況の確認
    
    詳細:
     G, Vキューを管理するt2zpbs04で稼働しているPBS(ジョブ管理サーバソフト)
    に問題が発生しました。PBSサーバに対するt2stat等のコマンドの問い合わせに
    対しコマンドの結果が返却されず、結果としてジョブの投入、確認が
    正常に機能しない状態となっておりました。
    そのため、ジョブ管理サーバのOS再起動を実施し、復旧いたしました。
    
    影響を受けたジョブ:
     ...

  • 2012-04-06

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                  平成24年4月6日
    
              【現在発生している/data0の障害について】
    
     年度末メンテナンス後より発生している /data0 の障害で利用者の皆様には大変なご
    迷惑をおかけしており申し訳ございません。障害発生時より、センタースタッフ、スト
    レージ導入元及びGPFSの開発元等連携して、昼夜を通して調査、修復を続けていますが
    、いまだ完全な修復が完了できておらず、サービス再開の見込みが立っておりません。
    
     inodeの破損も含まれるため、まだはっきりとしておりませんが、広範囲で復旧不可
    能なデータ破損が発生している可能性もございます。
     ...

  • 2012-03-23

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年3月23日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
     日時:3月15日(木)00:14 から 00:14
    
     影響:/work0の一部にアクセスできない
    
     詳細:
    
     3月15日00:14頃から、4台あるOSSの一つ(t2s007059)でエラーが出力され始め、この
    時間以降 /work0 を構成している56あるOSTの一つ(OST2a)へのアクセスに問題が発生し
    ました。
     復旧のため10:20からt2s007059の停止を開始し、10:56にt2s007059のリカバリが完了
    し、復旧致しました。
    
     本障害に関してはバグの可能性が高く、再度発生した場合はstack trace を取得し
    解析する予定です。
    
    用語説明
     OSS:Lustreファイルシステムにおいて、...

  • 2012-03-23

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年3月23日
    
     報告が大変遅くなりましたが、下記の通りストレージに障害が発生し、復旧いたしま
    した。皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
    
     日時:3月5日(月)15:35 から 3月6日(火)0:38
    
     影響:/work0の一部、またはすべてにアクセスできない
    
     詳細:
    
    3月5日15:35より一部のノードで /work0 が参照できない状況が発生致しました。OSS
    のログを確認したところ、t2s007057 がマウントする OST27 でファイルシステムの不
    整合を検知し,read-only でリマウントされておりました。
    
     書き込みできなかった領域は/work0の1/56でしたが、障害が大きくなることを防ぐた
    め、20:00より/work0を停止し緊急のメンテナンスを実施しました。/work0のMDT,全OST
    に対して...

  • 2012-03-23

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年3月23日
    
     報告が大変遅くなりましたが、下記の通りストレージに障害が発生し、復旧いたしま
    した。皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
    
     日時:3月2日(金)9:20 から 10:43
    
     影響:work0に一時的にアクセスできない
    
     詳細:
    
     9:20 より/work0を構成するストレージ(sc50)の2つあるコントローラの片方
    (controller #1)に問題が発生し、複数のテディスクが認識てできない状態となり、コ
    ントローラ1が再起動致しました。その後もう片方のコントローラ(controller #0)側も
    再起動され、復旧致しました。
     この影響でLustre ファイルシステム/work0 が一時的に I/O できない状態となり、
    エラーを検知しておりましたが、10:43 に復旧致しました。障害の起因は sc50...

  • 2012-03-15

    
    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年3月15日
    
     下記の通りH/Xキューに障害が発生し、復旧いたしました(*)。皆様にはご迷惑を
    おかけして申し訳ございませんでした。
    
      *障害は復旧しましたが、その後もR156712キューに問題が残りました。
    
    
                       記
    
    日時:3月15日(木)9:45 から 10:01 
    
    影響:
    
    ・H/XキューへのPBSを用いたジョブ投入不可
    ・Cloud Utilization、t2statコマンドによるH/Xキューのジョブ実行状況の確認、
     t2rstatコマンドによる予約状況確認不可
    ・予約期間中の予約キューの一つ(R156712キュー)へのPBSを用いたジョブ投入不可
    
    詳細:
     Hキュー、Xキューを管理するt2zpbs05で稼働しているPBS(ジョブ管理サーバソフト)
    に問題が発生しました。9時45分にPBSを管理するデーモンがダウンし...

  • 2012-03-15

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年3月15日
    
     下記の通りH/Xキューに障害が発生し、復旧いたしました(*)。皆様にはご迷惑を
    おかけして申し訳ございませんでした。
    
      *障害は復旧しましたが、その後もR156017キューに問題が残りました。
    
                       記
    
    日時:3月12日(月)16:08 から 17:48
    
    影響:
    
    ・H/XキューへのPBSを用いたジョブ投入不可
     Cloud Utilization、t2statコマンドによるH/Xキューのジョブ実行状況の確認、
    ・t2rstatコマンドによる予約状況確認不可
    ・予約期間中の予約キューの一つ(R156017キュー)へのPBSを用いたジョブ投入不可
    
    詳細:
     Hキュー、Xキューを管理するt2zpbs05で稼働しているPBS(ジョブ管理サーバソフト)
    に問題が発生しました。Infiniband障害後のチェックのため,16:...

  • 2012-03-14

    (TSUBAME計算サービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年3月14日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                        記
    
    
     日時:3月12日(月)13:05 から 19:30
        (IBネットワーク障害13:05 から 14:22を含む)
    
     影響:/work0,/data0,/gscr0等の並列ファイルシステム領域
        全学ストレージへのアクセス不可(教育システムユーザー領域含む)
    
     詳細:
    
     3月12日13時05分に発生したInfiniband障害により、データの不整合やマウントはずれ
    等が発生したため、以下の通り作業を行いました。
    
     14:53 Lustre(/work0,/gscr0)停止、Server再起動開始
     16:23 GPFS(/data0)停止、Server再起動
     16:31 GPFS...

ページ