TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2012-03-14

    (TSUBAME計算サービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年3月14日
    
    下記の通りネットワークに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                        記
    
    
     日時:3月12日(月)13:05 から 14:22
    
     影響:SSHログイン不可
        バッチジョブの動作全般
        TSUBAMEホスティングのパフォーマンス低下
        全学ストレージへのアクセス不可(教育システムユーザー領域含む)
    
     詳細:
    
     3月12日13時05分に何らかの理由によりInfinibandネットワークのサブネットマネージャ
    (SM,Infinibandネットワーク全体の経路等を制御するサーバ)がダウンし、待機系に自動
    でフェイルオーバーが発生しましたが、SMの起動に失敗しました。
    
    その後、Infinibandエッジスイッチ(IBEDGE146,002,004,005)...

  • 2012-02-06

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                 平成24年2月6日
    
     下記の通りH/Xキューに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
    日時:2月6日(月) 10:00 から 10:23
    
    影響:
    
     H/XキューへのPBSを用いたジョブ投入不可
     Cloud Utilization、t2statコマンドによるH/Xキューのジョブ実行状況の確認、
     t2rstatコマンドによる予約状況確認ができない。
     10時00分~10時23分に予約キューの一つ(R144187キュー)へのジョブ投入ができない。
    
    
    詳細:
    
     Hキュー、Xキューを管理するt2zpbs05で稼働しているPBS(ジョブ管理サーバソフト)
    に問題が発生しました。PBSが保持するデータベース情報のうち、ある特定レコードに
    問題があることを特定し、該当レコードを削除、...

  • 2012-01-27

    
    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年1月27日
    
     下記の通りH/Xキューに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
    日時:1月26日(木) 10:01頃 ~ 11:41頃
    
    影響:
    
     t2subでHキューに、またはSキューにジョブを投入しXキューに割り振られた場合、
     次のエラーメッセージが出力され、ジョブの投入に失敗する。
    
     Error: submit failed with error code = 32.
     Messages are as follows:
     qsub: request rejected as filter hook 'PBS_ibwins' encountered an exception. Please inform Admin
    
    
    詳細:
    
     Hキュー、...

  • 2012-01-25

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年1月25日
    
     下記の通りXキューに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
     日時:1月22日(日)10:00 から 1月23日(月) 8:00 (01-22スロット分)
    
     影響:Xキューが利用できない。
    
     詳細:休日にノード確保に失敗して処理が停止したため、Xキューを開始できず、
        この日利用出来るはずであった82台すべてのノードが利用できませんでした。
        そのため今後処理方法の変更して再発防止を行います。
    
                                       以上
    
    ---
    お知らせに掲載されない個別の障害履歴は以下で確認できます。...

  • 2012-01-11

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年1月11日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月11日(水)2時52分 から 9時36分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
     11日2:52頃、4台あるOSSの中の2台(t2s007053及びt2s007055)が高負荷により
    ハングアップしました。
    
     3:23頃、OSTの一つ、work0-OST001bを除いて復旧しましたが、7:47頃、
    work0-OST001bの復旧処理がタイムアウトしたため、t2s007053を再起動しました。
    
     8:55頃、特定のOSS(t2s007053)...

  • 2012-01-11

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年1月11日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月9日(月)18時53分 から 21時20分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
     9日13:35頃、4台あるのOSSの中の2台(t2s007057及びt2s007059)が高負荷により
    ハングアップしたため、t2s007057及びt2s007059の再起動を行い21:20頃に復旧し
    ました。
    
     その結果、障害発生中t2s007053が管理するOST上のデータが読み書きできない期間
    がありました。
    
     また、復旧中にt2s007057,...

  • 2012-01-11

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年1月11日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月9日(月)13時35分 から 14時40分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
     詳細:
    
     9日13:35頃、4台あるOSSの中の1台(t2s007053)がハングアップしたため、
    14:02頃、t2s007053の再起動を行い、14:40頃サービスを再開いたしました。
    
     その結果、障害中t2s007053が管理するOST上のデータが読み書きできない期間が
    ありました。
    
     また、復旧中にt2s007053に対して以下の設定変更を行いました。
     ・Lustreを...

  • 2012-01-11

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年1月11日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月9日(月)3時25分 から 4時24分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
     9日3:25頃、4台あるOSSの中の1台(t2s007057)が高負荷により障害が発生し、
    t2s007057へのフェイルオーバーが開始されました。
    
     しかし、t2s007059へのフェイルオーバーが処理途中でタイムアウトしたため、3:53頃、
    t2s007057及びt2s007059の再起動を行い、4:24頃すべてのサービスを再開いたしました。
    
     その結果、3:...

  • 2012-01-11

    
    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                 平成24年1月11日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月8日(日)10時35分 から 11時54分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
     8日10:35頃、4台あるOSS((Lustreファイルシステムにおいて、計算ノードに対して
    ファイルの中身を実際に送受信するサーバ)の中の1台(t2s007059)に高負荷による障害
    が発生し、マウントするOST(Lustreファイルシステムにおいて、ファイルの中身を実
    際に保存しているストレージ群)にアクセスすることができませんでした。
    
     その後、復旧作業を開始し11:34頃、...

  • 2012-01-04

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                  平成24年1月4日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月4日(水)13時43分 から 14時23分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
     3日に発生した障害同様、高負荷によるメモリ不足によって4台あるOSS((Lustreファ
    イルシステムにおいて、計算ノードに対してファイルの中身を実際に送受信するサーバ)
    の中の1台(t2s007059)がマウントするOSTにアクセスすることができなくなりました。
    
     障害発生時フェールオーバー処理が開始されましたが、高負荷が原因であり、特定の...

ページ