TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2011-09-02

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
     
                                学術国際情報センター
                                 平成23年9月2日
    
     下記の通りジョブ管理システム(ジョブスケジューラ)に障害が発生し、復旧いたし
    ました。皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
    
     日時:9月2日(金)8:00頃 ~ 9月2日(金) 10:15頃
    
     影響:t2subでSキュー投入してもステータスがQのまま実行されない。
    
        待機系への切り替え中に
          ・Cloud Service Utilizatioの表示がおかしい。
          ・t2subでSキューにジョブを投入できない。
    
     詳細:
      9月1日に発生したジョブスケジューラの障害が原因と思われる、ジョブスケジューラ
     デーモンの動作不良が発生し、9:40頃より待機系のサーバーへ切り替えをおこない、
     10:15頃正常動作を確認しました。
      なお、この障害による待ちジョブ、...

  • 2011-09-02

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
     
                                学術国際情報センター
                                 平成23年9月2日
    
     下記の通りジョブ管理システム(ジョブスケジューラ)に障害が発生し、復旧いたし
    ました。皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
    
     日時:9月1日(木)16:22頃 ~ 9月1日(木) 18:10頃
    
     影響:t2subでSキューにジョブを投入できない。
        t2statの表示がおかしい。
    
     詳細:
      naregi関連の管理ノードより何らかの非常に大きな通信が発生して、Sキューの
     ジョブスケジューラの通信を塞いでしまい、通信不能になりました。通信の発生源
     となるノードを停止することにより復旧いたしました。
      なお、この障害による待ちジョブ、実行ジョブへの影響はございません...

  • 2011-08-30

    (TSUBAME計算サービスを利用している方向けの情報です)
     
                                学術国際情報センター
                                平成23年8月30日
     下記の通りネットワーク障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
     日時:8月29日(月)17:00 ~ 8月30日(火) 0:40
    
     影響:SSHログイン不可
        バッチジョブ
    
     詳細:
      17時頃にInfiniband(IB)のコアスイッチに障害が発生し、IBネットワークの通信
     ができなくなるという状況が発生致しました。一部のノード間は通信できる状態であっ
     たため、監視を続けておりましたが、状況が改善されなかったため,24時頃にIBのネッ
     トワーク経路等を制御するSubnetManager(SM)の再起動を行いました。その結果24時
     40分にSMが正常に立ち上り、通信できる状態になりました。
      なお、...

ページ