障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2012-01-27

    
    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年1月27日
    
     下記の通りH/Xキューに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
    日時:1月26日(木) 10:01頃 ~ 11:41頃
    
    影響:
    
     t2subでHキューに、またはSキューにジョブを投入しXキューに割り振られた場合、
     次のエラーメッセージが出力され、ジョブの投入に失敗する。
    
     Error: submit failed with error code = 32.
     Messages are as follows:
     qsub: request rejected as filter hook 'PBS_ibwins' encountered an exception. Please inform Admin
    
    
    詳細:
    
     Hキュー、...

  • 2012-01-25

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年1月25日
    
     下記の通りXキューに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
     日時:1月22日(日)10:00 から 1月23日(月) 8:00 (01-22スロット分)
    
     影響:Xキューが利用できない。
    
     詳細:休日にノード確保に失敗して処理が停止したため、Xキューを開始できず、
        この日利用出来るはずであった82台すべてのノードが利用できませんでした。
        そのため今後処理方法の変更して再発防止を行います。
    
                                       以上
    
    ---
    お知らせに掲載されない個別の障害履歴は以下で確認できます。...

  • 2012-01-11

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年1月11日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月11日(水)2時52分 から 9時36分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
     11日2:52頃、4台あるOSSの中の2台(t2s007053及びt2s007055)が高負荷により
    ハングアップしました。
    
     3:23頃、OSTの一つ、work0-OST001bを除いて復旧しましたが、7:47頃、
    work0-OST001bの復旧処理がタイムアウトしたため、t2s007053を再起動しました。
    
     8:55頃、特定のOSS(t2s007053)...

  • 2012-01-11

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年1月11日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月9日(月)18時53分 から 21時20分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
     9日13:35頃、4台あるのOSSの中の2台(t2s007057及びt2s007059)が高負荷により
    ハングアップしたため、t2s007057及びt2s007059の再起動を行い21:20頃に復旧し
    ました。
    
     その結果、障害発生中t2s007053が管理するOST上のデータが読み書きできない期間
    がありました。
    
     また、復旧中にt2s007057,...

  • 2012-01-11

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年1月11日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月9日(月)13時35分 から 14時40分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
     詳細:
    
     9日13:35頃、4台あるOSSの中の1台(t2s007053)がハングアップしたため、
    14:02頃、t2s007053の再起動を行い、14:40頃サービスを再開いたしました。
    
     その結果、障害中t2s007053が管理するOST上のデータが読み書きできない期間が
    ありました。
    
     また、復旧中にt2s007053に対して以下の設定変更を行いました。
     ・Lustreを...

  • 2012-01-11

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年1月11日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月9日(月)3時25分 から 4時24分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
     9日3:25頃、4台あるOSSの中の1台(t2s007057)が高負荷により障害が発生し、
    t2s007057へのフェイルオーバーが開始されました。
    
     しかし、t2s007059へのフェイルオーバーが処理途中でタイムアウトしたため、3:53頃、
    t2s007057及びt2s007059の再起動を行い、4:24頃すべてのサービスを再開いたしました。
    
     その結果、3:...

  • 2012-01-11

    
    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年1月11日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月8日(日)10時35分 から 11時54分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
     8日10:35頃、4台あるOSS((Lustreファイルシステムにおいて、計算ノードに対して
    ファイルの中身を実際に送受信するサーバ)の中の1台(t2s007059)に高負荷による障害
    が発生し、マウントするOST(Lustreファイルシステムにおいて、ファイルの中身を実
    際に保存しているストレージ群)にアクセスすることができませんでした。
    
     その後、復旧作業を開始し11:34頃、...

  • 2012-01-04

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                  平成24年1月4日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月4日(水)13時43分 から 14時23分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
     3日に発生した障害同様、高負荷によるメモリ不足によって4台あるOSS((Lustreファ
    イルシステムにおいて、計算ノードに対してファイルの中身を実際に送受信するサーバ)
    の中の1台(t2s007059)がマウントするOSTにアクセスすることができなくなりました。
    
     障害発生時フェールオーバー処理が開始されましたが、高負荷が原因であり、特定の...

  • 2012-01-04

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                  平成24年1月4日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月3日(火)4時35分 から 9時50分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
    
     3日4:35頃、4台あるOSS(Lustreファイルシステムにおいて、計算ノードに対して
    ファイルの中身を実際に送受信するサーバ)の中の1台(t2s007059)に障害が発生して
    このOSSがマウントするOSTにアクセスすることができませんでした。
    
     9:00頃、t2s007059へのログインを試みましたが、高負荷状態のためコンソールでも
    ログインができず、OS上の操作ができない状態だったため、...

  • 2011-12-20

     (TSUBAME計算サービスで従量利用オプションを利用している方向けの情報です)

                                 学術国際情報センター
                                平成23年12月20日
    
     下記の通り、TSUBAME利用ポータルから利用状況確認の画面において、月ごとの
    TSUBAMEポイントの利用分および利用可能なTSUBAMEポイントに誤った数値が反映
    されておりました。
     現在は復旧し、正常な数値が表示されておりますのでご確認ください。
                      記
    
     日時:12月14日(水)12時00分頃 から 12月20日(火)10時00分頃まで
    
     影響:TSUBAME利用ポータル上の従量オプションのTSUBAMEポイントの月ごと...

ページ