障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2013-07-02

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                 平成25年7月2日
    
     下記の通りXキューを開始する事が出来ませんでした。皆様にはご迷惑をおかけし
    て申し訳ございません。
    
    日時:
     2013年7月2日(火) 10:00から11:26
    
    
    影響:
     Xキューを開始する事が出来ませんでした。その結果、
     上記の期間にXキューが利用できませんでした。
    
     またその影響で、本日は夜間のXキューの台数が通常(ピークシフト680台)より少ない
     200台での運用となります。
    
    
    詳細:
     X キューの作成処理には作成時点で対象ノードが全て起動している必要があります.
    その中にあった不調なノードを除ききれず、Xキューの作成が失敗しました。 11:26に200ノードでXキューを再開しましたが、夜間に起動する残りの480ノードに ついては停止中で登録できないため、本日夜間も200ノードままとなります。...

  • 2013-06-20

    (TSUBAME計算サービスでグループディスクを利用している方向けの情報です。)
    
                                 学術国際情報センター
                                  平成25年6月20日
    
     下記の通りInfiniband障害によるストレージへのアクセス障害が発生し、
    復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
     日時:6月19日(水) 18:10 から 6月20日(木) 9:40
    
     影響: /work0,/work1,/gscr0,/data0
         にあるファイル/ディレクトリへのアクセスに失敗する事がある。
    
     詳細:
    
     6月19日(水)18時11分に/work0,/work1,/gscr0で利用してるLustreファイルシステ
    ムの異常を示すアラートが発行されました。6月20日(木)9時20分に調査を行った結果、
    SubnetManager のログ出力が停止していることを発見しました。

     また、...


  • 2013-06-04

    (TSUBAMEでmathematicaを利用者利用している方向けの情報です)
    
                                 学術国際情報センター
                                  平成25年6月4日
    
     掲載が遅くなりましたが、下記の通り障害が発生し復旧しました。皆様にはご迷惑を
    おかけして申し訳ございませんでした。
    
                       記
    
    日時:6月4日9:21 から 10:38
    
    影響:Mathematicaが起動できない
    
    詳細:
    
     6/4 9:21  Mathematica のライセンスログが,t2a006167 での出力を最後に途切れる
     10:35 システムによるMathematica ライセンス停止の自動通知
     10:38 手動で Mathematica ライセンスを起動
     障害原因は不明ですが,t2a006167 にてトリガーとなった事象が無いか確認します。
     なお前回(4/22)のライセンスサーバ障害発生時に構築した  ...

  • 2013-05-09

    (TSUBAME計算サービスを利用ているすべての方向けの情報です)
    
                                 学術国際情報センター
                                  平成25年5月9日
    
     下記の通りInfinibandスイッチの障害のため広範囲に障害が発生し、復旧いたしまし
    た。皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
     日時:4月27日(月) 20:33 から 4月30日(火) 16:05
    
     影響: ・/work1 にアクセスできない。
         ・Vキューを除く多くの計算ノードが徐々に減少。
         ・/work1 のグループディスクが購入できない。
    
         ・復旧作業中(*1)に/work0,/gscr0にアクセスできない。
          またTSUBAME2.0利用ポータルにアクセスできない。
    
         ・復旧作業中(*2)にジョブの投入ができない。
    
          *1…4月30日11時40分から12時5分
          *2…4月30日11時40分から13時30分
    
     詳細...

  • 2013-05-01

    (TSUBAMEでmathematicaを利用者利用している方向けの情報です)
    
                                 学術国際情報センター
                                  平成25年5月1日
    
     掲載が遅くなりましたが、下記の通り障害が発生し復旧しました。皆様にはご迷惑を
    おかけして申し訳ございませんでした。
    
                       記
    
    日時:4月22日16:37 から 4月26日10:58
    
    影響:Mathematicaが起動できない
    
    詳細:
    
    Mathematica のライセンスサーバが4月22日16:37に停止しました。
    Segmentation Fault がシステムのログに記載されておりましたが発生原因は不明です。
    
    発見が遅れてしまったためライセンスプロセス監視の自動化実装を検討いたします。

  • 2013-03-21

    (すべての利用者向けの情報です)

    学術国際情報センター
    平成25年3月21日

    掲載が大変遅くなりましたが、下記の通りTSUBAME2.0利用ポータルに障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。

    日時:3月13日(水) 1時30分から9時20分

    影響: TSUBAME2.0利用ポータルにアクセスできない(またはアクセスできにくい状態)
         課金情報が更新されない(実行されていたジョブに影響はありませんが,ジョブ終了後に課金情報が正しく表示されていない可能性があります。)

    詳細:システム領域へのバックアップ処理により高負荷となり、TSUBAME2.0利用ポータルのシステムからシステム領域に格納されているファイルにアクセスできなくなったため、TSUBAME2....


  • 2013-02-05

    (すべての利用者向けの情報です)
    
    
                                 学術国際情報センター
                                  平成25年2月5日
    
    
     掲載が大変遅くなりましたが、下記の通り広範囲に障害が発生し復旧しました。皆様
    にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
    日時:1月23日8:45頃から13:10頃
    
    影響:
    
     ・TSUBAME利用ポータルが利用できない
     ・S系/L系/G/Vキューでジョブの投入ができない
     ・Cloud Utilization等による利用状況の確認ができない
     ・Hキューが利用できない
    
    詳細:
    
     1月22日の20時39分頃より利用者のプロセスによってホーム領域(/home)が高負荷状
    態になり、同じストレージに格納されているシステム領域(/gsic/system)のパフォー
    マンスが低下しました。
     高負荷状態が続き1月23日 8:45についにシステム領域に格納されているファイルに
    アクセスできなくなったため、各システムに対して以下の障害が発生しました...

  • 2013-02-05

    (すべての利用者向けの情報です)
    
    
                                 学術国際情報センター
                                 平成25年2月5日
    
    
     掲載が大変遅くなりましたが、下記の通り東工大ポータルに障害が発生し、復旧いた
    しました。皆様にはご迷惑をおかけして申し訳ございませんでした。
    
                       記
    
     日時:1月18日(金) 1時38分から9時45分
    
     影響: TSUBAME2.0利用ポータルにログインできない。
    
     詳細:
    
     TSUBAME2.0利用ポータルに必要なストレージのマウントが外れたため、サービス
    が停止しておりました。再マウントすることでサービスが復旧しました。

     


  • 2012-12-26

    
    (グループディスクを利用している方向けの情報です)
    
    
                                 学術国際情報センター
                                平成24年12月26日
    
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
     日時:12月17日(月) 21:11 から 22:39
    
     影響: /work1, /gscr0 の一部にアクセスできない
    
     詳細:
    
     10日,14日に発生した障害同様、/work1,/gscr0を構成する8台OSSの1台である
    t2s007045 が管理していた一部のOSTへのアクセスが何らかの理由に待ち状態となりま
    した。その後 t2s007045 を再起動し22:39に復旧しました。
     vmcoreを取得する予定でしたが、一部のOSSのディスクコントローラーのFirmwareの
    バージョンが古く取得できなかったため、後日サービスに影響を与えないよう、ペアと...

  • 2012-12-26

    (グループディスクを利用している方向けの情報です)
    
    
                                 学術国際情報センター
                                平成24年12月26日
    
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
     
    
    
     日時:12月14日(金) 5:25 から 9:06
    
     影響:/work1, /gscr0 の一部にアクセスできない
    
     詳細:
    
     10日に発生した障害同様、/work1,/gscr0を構成する8台OSSの1台である t2s007037 
    が管理していた一部のOSTへのアクセスが待ち状態となりました。その後 t2s007037 
    を再起動し9:06に復旧しました。
     前回発生時にStackTraceだけでは原因を特定できなかったため、vmcoreを取得しよ
    うと試みましたが特定の設定の影響により取得に失敗したため、次回発生時に取得可能なよ
    うに設定の変更を行いました。
    
     用語説明
      OSS:...

ページ