このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2012-01-04

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                  平成24年1月4日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:1月3日(火)4時35分 から 9時50分 頃
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
    
     3日4:35頃、4台あるOSS(Lustreファイルシステムにおいて、計算ノードに対して
    ファイルの中身を実際に送受信するサーバ)の中の1台(t2s007059)に障害が発生して
    このOSSがマウントするOSTにアクセスすることができませんでした。
    
     9:00頃、t2s007059へのログインを試みましたが、高負荷状態のためコンソールでも
    ログインができず、OS上の操作ができない状態だったため、...

  • 2011-12-20

     (TSUBAME計算サービスで従量利用オプションを利用している方向けの情報です)

                                 学術国際情報センター
                                平成23年12月20日
    
     下記の通り、TSUBAME利用ポータルから利用状況確認の画面において、月ごとの
    TSUBAMEポイントの利用分および利用可能なTSUBAMEポイントに誤った数値が反映
    されておりました。
     現在は復旧し、正常な数値が表示されておりますのでご確認ください。
                      記
    
     日時:12月14日(水)12時00分頃 から 12月20日(火)10時00分頃まで
    
     影響:TSUBAME利用ポータル上の従量オプションのTSUBAMEポイントの月ごと...

  • 2011-12-14

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                                 学術国際情報センター
                                平成23年12月14日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:12月13日(火)20時28分 から 12月13日(火)21時34分
    
     影響:work0の一部にアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
     13日20:28より継続してwork0に関するアラートが検知され、4台あるOSS((Lustreファ
    イルシステムにおいて、計算ノードに対してファイルの中身を実際に送受信するサーバ)
    の中の1台(t2s007057)がマウントするOST work0-OST001fがアンマウントされているこ
    とがわかりました。
    
    t2s007057へのログインを試みましたが、...

  • 2011-12-14

    (TSUBAME計算サービスを利用している方向けの情報です)
     
                                 学術国際情報センター
                                平成23年12月14日
    
     下記の通りネットワーク障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
     日時:12月4日(日)9時15分 から 12月5日(月)9時11分
    
     影響:SSHログイン不可
        バッチジョブの動作全般
        TSUBAMEホスティングのパフォーマンス低下
        全学ストレージへのアクセス不可(教育システムユーザー領域含む)
    
     詳細:
    
     12月4日9時15分に何らかの理由によりInfinibandネットワークのサブネットマネージャ
    (SM,Infinibandネットワーク全体の経路等を制御するサーバ)がダウンし、待機系に自動
    でフェイルオーバーが行われたのですが、SMの起動に失敗しました。
    
    その後、Infinibandエッジスイッチ(IBEDGE156)...

  • 2011-11-14

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                               平成23年11月14日
    
     下記の通りジョブ管理システム(ジョブスケジューラ)に障害が発生し、復旧いたし
    ました。皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
    
     日時:11月14日(月)14:30頃 ~ 15:45頃
    
     影響:t2subでS系キュー(S,S96,L128,L128F,L256,L512)にジョブを投入できない。
        t2stat、Cloud Service Utilization等の表示がおかしい。
    
     詳細:
      naregi...

  • 2011-11-10

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                             学術国際情報センター
                            平成23年11月10日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:11月7日(月)15時04分 から 11月7日(月)17時14分
    
     影響:期間中/work0が遅い、又はアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
      11月3日09:39頃、先日の障害と同様に高負荷により/work0を構成するLustre
     ファイルシステムのOST(Lustreファイルシステムを構成するディスクの集合体)
     をマウントしているOSSの処理にタイムアウトが発生し、処理がフェールオーバー
     しました。
    
      その後偏った状態ですが処理は問題なく継続されておりましたが、11月07日
     15:04頃、...

  • 2011-11-07

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                             学術国際情報センター
                             平成23年11月7日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                      記
    
     日時:11月2日(水)4時00分 から 11月2日(水)11時38分
    
     影響:期間中/work0が遅い、又はアクセスできない。
    
     原因:高負荷によるLustreファイルシステムOSS障害
    
     詳細:
    
      11月02日00:50頃、高負荷により/work0を構成するLustreファイルシステム
     のOST(Lustreファイルシステムを構成する集合体)をマウントするOSSの処理に
     タイムアウトが発生し、別のOSSへ縮退が起りました。
    
      この縮退により負荷がさらに集中する状況が続いておりましたが、サービスは
     継続しておりました。しかし、4:00頃一部のOSTがアンマウントされ、...

  • 2011-09-27

    (TSUBAME計算サービスでストレージサービスを利用している方向けの情報です)
    
                             学術国際情報センター
                             平成23年9月27日
    
     下記の通りストレージサービス(/work0)に障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
     日時:9月16日(金)12時53分 から 9月16日(金)22時6分
    
     影響:期間中/work0の一部・すべてにアクセスできない
    
     原因:ディスクコントローラー障害
    
     詳細:
    
      9月16日12時53分に/work0を構成するストレージシステムの2台あるディス
     クコントローラの片方(ctrl #1)で電源供給が途絶え、縮退が起きました。
    
      同時期にもう一台のディスクコントローラー(ctrl #0)で動作不良が発生し、
     一部のStoragePool(ストレージシステム内でのディスクの集合体)に対して、
     SCSIコマンドが処理されず読み書きができなかったり、メンテナンスコマン...

  • 2011-09-13

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成23年9月13日
    
     下記の通りジョブ管理システム(ジョブスケジューラ)に障害が発生し、復旧いたし
    ました。皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
    
     日時:9月12日(月)14:00頃 ~ 9月13日(火)10:27頃
    
     影響:t2subでGまたはVキュー投入してもステータスがQのまま実行されない。
    
        待機系への切り替え中に
          ・Cloud Service Utilizatioの表示がおかしい。
          ・t2subでGまたはVキューにジョブを投入できない。
    
     詳細:9月2日に発生したジョブスケジューラの障害が原因と思われる、
        ジョブスケジューラデーモンの動作不良が発生し、9月13日(月)10:01頃より
        待機系のサーバーへ切り替えをおこない、10:27頃正常動作を確認しました...

  • 2011-09-13

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成23年9月13日
    
     下記の通りジョブ管理システム(ジョブスケジューラ)に障害が発生し、復旧いたし
    ました。皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                        記
    
     日時:9月9日(金)  10:24頃 ~ 10:45頃
    
     影響:上記日時の間、t2sub, t2stat, t2del コマンドの実行ができませんでした。
        なお、この障害による待ちジョブ、実行ジョブへの影響はございません。
    
     原因:コマンド領域マウント作業ミス
    
                                       以上
    
    

ページ