障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2012-04-06

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                  平成24年4月6日
    
              【現在発生している/data0の障害について】
    
     年度末メンテナンス後より発生している /data0 の障害で利用者の皆様には大変なご
    迷惑をおかけしており申し訳ございません。障害発生時より、センタースタッフ、スト
    レージ導入元及びGPFSの開発元等連携して、昼夜を通して調査、修復を続けていますが
    、いまだ完全な修復が完了できておらず、サービス再開の見込みが立っておりません。
    
     inodeの破損も含まれるため、まだはっきりとしておりませんが、広範囲で復旧不可
    能なデータ破損が発生している可能性もございます。
     ...

  • 2012-03-23

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年3月23日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
     日時:3月15日(木)00:14 から 00:14
    
     影響:/work0の一部にアクセスできない
    
     詳細:
    
     3月15日00:14頃から、4台あるOSSの一つ(t2s007059)でエラーが出力され始め、この
    時間以降 /work0 を構成している56あるOSTの一つ(OST2a)へのアクセスに問題が発生し
    ました。
     復旧のため10:20からt2s007059の停止を開始し、10:56にt2s007059のリカバリが完了
    し、復旧致しました。
    
     本障害に関してはバグの可能性が高く、再度発生した場合はstack trace を取得し
    解析する予定です。
    
    用語説明
     OSS:Lustreファイルシステムにおいて、...

  • 2012-03-23

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年3月23日
    
     報告が大変遅くなりましたが、下記の通りストレージに障害が発生し、復旧いたしま
    した。皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
    
     日時:3月5日(月)15:35 から 3月6日(火)0:38
    
     影響:/work0の一部、またはすべてにアクセスできない
    
     詳細:
    
    3月5日15:35より一部のノードで /work0 が参照できない状況が発生致しました。OSS
    のログを確認したところ、t2s007057 がマウントする OST27 でファイルシステムの不
    整合を検知し,read-only でリマウントされておりました。
    
     書き込みできなかった領域は/work0の1/56でしたが、障害が大きくなることを防ぐた
    め、20:00より/work0を停止し緊急のメンテナンスを実施しました。/work0のMDT,全OST
    に対して...

  • 2012-03-23

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年3月23日
    
     報告が大変遅くなりましたが、下記の通りストレージに障害が発生し、復旧いたしま
    した。皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
    
     日時:3月2日(金)9:20 から 10:43
    
     影響:work0に一時的にアクセスできない
    
     詳細:
    
     9:20 より/work0を構成するストレージ(sc50)の2つあるコントローラの片方
    (controller #1)に問題が発生し、複数のテディスクが認識てできない状態となり、コ
    ントローラ1が再起動致しました。その後もう片方のコントローラ(controller #0)側も
    再起動され、復旧致しました。
     この影響でLustre ファイルシステム/work0 が一時的に I/O できない状態となり、
    エラーを検知しておりましたが、10:43 に復旧致しました。障害の起因は sc50...

  • 2012-03-15

    
    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年3月15日
    
     下記の通りH/Xキューに障害が発生し、復旧いたしました(*)。皆様にはご迷惑を
    おかけして申し訳ございませんでした。
    
      *障害は復旧しましたが、その後もR156712キューに問題が残りました。
    
    
                       記
    
    日時:3月15日(木)9:45 から 10:01 
    
    影響:
    
    ・H/XキューへのPBSを用いたジョブ投入不可
    ・Cloud Utilization、t2statコマンドによるH/Xキューのジョブ実行状況の確認、
     t2rstatコマンドによる予約状況確認不可
    ・予約期間中の予約キューの一つ(R156712キュー)へのPBSを用いたジョブ投入不可
    
    詳細:
     Hキュー、Xキューを管理するt2zpbs05で稼働しているPBS(ジョブ管理サーバソフト)
    に問題が発生しました。9時45分にPBSを管理するデーモンがダウンし...

  • 2012-03-15

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年3月15日
    
     下記の通りH/Xキューに障害が発生し、復旧いたしました(*)。皆様にはご迷惑を
    おかけして申し訳ございませんでした。
    
      *障害は復旧しましたが、その後もR156017キューに問題が残りました。
    
                       記
    
    日時:3月12日(月)16:08 から 17:48
    
    影響:
    
    ・H/XキューへのPBSを用いたジョブ投入不可
     Cloud Utilization、t2statコマンドによるH/Xキューのジョブ実行状況の確認、
    ・t2rstatコマンドによる予約状況確認不可
    ・予約期間中の予約キューの一つ(R156017キュー)へのPBSを用いたジョブ投入不可
    
    詳細:
     Hキュー、Xキューを管理するt2zpbs05で稼働しているPBS(ジョブ管理サーバソフト)
    に問題が発生しました。Infiniband障害後のチェックのため,16:...

  • 2012-03-14

    (TSUBAME計算サービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年3月14日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                        記
    
    
     日時:3月12日(月)13:05 から 19:30
        (IBネットワーク障害13:05 から 14:22を含む)
    
     影響:/work0,/data0,/gscr0等の並列ファイルシステム領域
        全学ストレージへのアクセス不可(教育システムユーザー領域含む)
    
     詳細:
    
     3月12日13時05分に発生したInfiniband障害により、データの不整合やマウントはずれ
    等が発生したため、以下の通り作業を行いました。
    
     14:53 Lustre(/work0,/gscr0)停止、Server再起動開始
     16:23 GPFS(/data0)停止、Server再起動
     16:31 GPFS...

  • 2012-03-14

    (TSUBAME計算サービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年3月14日
    
    下記の通りネットワークに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                        記
    
    
     日時:3月12日(月)13:05 から 14:22
    
     影響:SSHログイン不可
        バッチジョブの動作全般
        TSUBAMEホスティングのパフォーマンス低下
        全学ストレージへのアクセス不可(教育システムユーザー領域含む)
    
     詳細:
    
     3月12日13時05分に何らかの理由によりInfinibandネットワークのサブネットマネージャ
    (SM,Infinibandネットワーク全体の経路等を制御するサーバ)がダウンし、待機系に自動
    でフェイルオーバーが発生しましたが、SMの起動に失敗しました。
    
    その後、Infinibandエッジスイッチ(IBEDGE146,002,004,005)...

  • 2012-02-06

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                 平成24年2月6日
    
     下記の通りH/Xキューに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
    日時:2月6日(月) 10:00 から 10:23
    
    影響:
    
     H/XキューへのPBSを用いたジョブ投入不可
     Cloud Utilization、t2statコマンドによるH/Xキューのジョブ実行状況の確認、
     t2rstatコマンドによる予約状況確認ができない。
     10時00分~10時23分に予約キューの一つ(R144187キュー)へのジョブ投入ができない。
    
    
    詳細:
    
     Hキュー、Xキューを管理するt2zpbs05で稼働しているPBS(ジョブ管理サーバソフト)
    に問題が発生しました。PBSが保持するデータベース情報のうち、ある特定レコードに
    問題があることを特定し、該当レコードを削除、...

  • 2012-01-27

    
    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年1月27日
    
     下記の通りH/Xキューに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
    日時:1月26日(木) 10:01頃 ~ 11:41頃
    
    影響:
    
     t2subでHキューに、またはSキューにジョブを投入しXキューに割り振られた場合、
     次のエラーメッセージが出力され、ジョブの投入に失敗する。
    
     Error: submit failed with error code = 32.
     Messages are as follows:
     qsub: request rejected as filter hook 'PBS_ibwins' encountered an exception. Please inform Admin
    
    
    詳細:
    
     Hキュー、...

ページ