このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害

【障害報告】2013.4.27発生:Infinibandネットワーク障害

(TSUBAME計算サービスを利用ているすべての方向けの情報です)

                             学術国際情報センター
                              平成25年5月9日

 下記の通りInfinibandスイッチの障害のため広範囲に障害が発生し、復旧いたしまし
た。皆様にはご迷惑をおかけして申し訳ございませんでした。

                   記

 日時:4月27日(月) 20:33 から 4月30日(火) 16:05

 影響: ・/work1 にアクセスできない。
     ・Vキューを除く多くの計算ノードが徐々に減少。
     ・/work1 のグループディスクが購入できない。

     ・復旧作業中(*1)に/work0,/gscr0にアクセスできない。
      またTSUBAME2.0利用ポータルにアクセスできない。

     ・復旧作業中(*2)にジョブの投入ができない。

      *1…4月30日11時40分から12時5分
      *2…4月30日11時40分から13時30分

 詳細:

 4月27日(土) 20:33,監視用のt2s007005からwork1のMDS(t2s007015), work1のOSS
日本語

【障害報告】2013.4.22発生:ライセンスサーバ障害(Mathematica)

(TSUBAMEでmathematicaを利用者利用している方向けの情報です)

                             学術国際情報センター
                              平成25年5月1日

 掲載が遅くなりましたが、下記の通り障害が発生し復旧しました。皆様にはご迷惑を
おかけして申し訳ございませんでした。

                   記

日時:4月22日16:37 から 4月26日10:58

影響:Mathematicaが起動できない

詳細:

Mathematica のライセンスサーバが4月22日16:37に停止しました。
Segmentation Fault がシステムのログに記載されておりましたが発生原因は不明です。

発見が遅れてしまったためライセンスプロセス監視の自動化実装を検討いたします。
 
英語

【障害報告】2013.4.22発生:ライセンスサーバ障害(Mathematica)

(TSUBAMEでmathematicaを利用者利用している方向けの情報です)

                             学術国際情報センター
                              平成25年5月1日

 掲載が遅くなりましたが、下記の通り障害が発生し復旧しました。皆様にはご迷惑を
おかけして申し訳ございませんでした。

                   記

日時:4月22日16:37 から 4月26日10:58

影響:Mathematicaが起動できない

詳細:

Mathematica のライセンスサーバが4月22日16:37に停止しました。
Segmentation Fault がシステムのログに記載されておりましたが発生原因は不明です。

発見が遅れてしまったためライセンスプロセス監視の自動化実装を検討いたします。
日本語

【障害報告】2013.3.13発生:TSUBAME2.0利用ポータル障害

(すべての利用者向けの情報です)

学術国際情報センター
平成25年3月21日

掲載が大変遅くなりましたが、下記の通りTSUBAME2.0利用ポータルに障害が発生し、復旧いたしました。
皆様にはご迷惑をおかけして申し訳ございませんでした。

日時:3月13日(水) 1時30分から9時20分

影響: TSUBAME2.0利用ポータルにアクセスできない(またはアクセスできにくい状態)
     課金情報が更新されない(実行されていたジョブに影響はありませんが,ジョブ終了後に課金情報が正しく表示されていない可能性があります。)

英語

【障害報告】2013.3.13発生:TSUBAME2.0利用ポータル障害

(すべての利用者向けの情報です)

学術国際情報センター
平成25年3月21日

掲載が大変遅くなりましたが、下記の通りTSUBAME2.0利用ポータルに障害が発生し、復旧いたしました。
皆様にはご迷惑をおかけして申し訳ございませんでした。

日時:3月13日(水) 1時30分から9時20分

影響: TSUBAME2.0利用ポータルにアクセスできない(またはアクセスできにくい状態)
     課金情報が更新されない(実行されていたジョブに影響はありませんが,ジョブ終了後に課金情報が正しく表示されていない可能性があります。)

日本語

【障害報告】2013.1.18発生:TSUBAME2.0利用ポータル障害

(すべての利用者向けの情報です)


                             学術国際情報センター
                             平成25年2月5日


 掲載が大変遅くなりましたが、下記の通り東工大ポータルに障害が発生し、復旧いた
しました。皆様にはご迷惑をおかけして申し訳ございませんでした。

                   記

 日時:1月18日(金) 1時38分から9時45分

 影響: TSUBAME2.0利用ポータルにログインできない。

 詳細:

 TSUBAME2.0利用ポータルに必要なストレージのマウントが外れたため、サービス
が停止しておりました。再マウントすることでサービスが復旧しました。

 

英語

【障害報告】2013.1.23発生:管理系ストレージ高負荷に伴う各種障害

(すべての利用者向けの情報です)


                             学術国際情報センター
                              平成25年2月5日


 掲載が大変遅くなりましたが、下記の通り広範囲に障害が発生し復旧しました。皆様
にはご迷惑をおかけして申し訳ございませんでした。

                   記

日時:1月23日8:45頃から13:10頃

影響:

 ・TSUBAME利用ポータルが利用できない
 ・S系/L系/G/Vキューでジョブの投入ができない
 ・Cloud Utilization等による利用状況の確認ができない
 ・Hキューが利用できない

詳細:

 1月22日の20時39分頃より利用者のプロセスによってホーム領域(/home)が高負荷状
態になり、同じストレージに格納されているシステム領域(/gsic/system)のパフォー
マンスが低下しました。
 高負荷状態が続き1月23日 8:45についにシステム領域に格納されているファイルに
アクセスできなくなったため、各システムに対して以下の障害が発生しました。
 各システム復旧後はホーム領域(/home)に多くのI/Oを行っている利用者特定し、
ジョブ停止をお願いしたけっか、パフォーマンスが改善されました。

英語

【障害報告】2013.1.23発生:管理系ストレージ高負荷に伴う各種障害

(すべての利用者向けの情報です)


                             学術国際情報センター
                              平成25年2月5日


 掲載が大変遅くなりましたが、下記の通り広範囲に障害が発生し復旧しました。皆様
にはご迷惑をおかけして申し訳ございませんでした。

                   記

日時:1月23日8:45頃から13:10頃

影響:

 ・TSUBAME利用ポータルが利用できない
 ・S系/L系/G/Vキューでジョブの投入ができない
 ・Cloud Utilization等による利用状況の確認ができない
 ・Hキューが利用できない

詳細:

 1月22日の20時39分頃より利用者のプロセスによってホーム領域(/home)が高負荷状
態になり、同じストレージに格納されているシステム領域(/gsic/system)のパフォー
マンスが低下しました。
 高負荷状態が続き1月23日 8:45についにシステム領域に格納されているファイルに
アクセスできなくなったため、各システムに対して以下の障害が発生しました。
 各システム復旧後はホーム領域(/home)に多くのI/Oを行っている利用者特定し、
ジョブ停止をお願いしたけっか、パフォーマンスが改善されました。

日本語

【障害報告】2013.1.18発生:TSUBAME2.0利用ポータル障害

(すべての利用者向けの情報です)


                             学術国際情報センター
                             平成25年2月5日


 掲載が大変遅くなりましたが、下記の通り東工大ポータルに障害が発生し、復旧いた
しました。皆様にはご迷惑をおかけして申し訳ございませんでした。

                   記

 日時:1月18日(金) 1時38分から9時45分

 影響: TSUBAME2.0利用ポータルにログインできない。

 詳細:

 TSUBAME2.0利用ポータルに必要なストレージのマウントが外れたため、サービス
が停止しておりました。再マウントすることでサービスが復旧しました。

 

日本語

【障害報告】2012.12.17発生:/work1, /gscr0ストレージ障害


(グループディスクを利用している方向けの情報です)


                             学術国際情報センター
                            平成24年12月26日


 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
して申し訳ございませんでした。

                   記

 日時:12月17日(月) 21:11 から 22:39

 影響: /work1, /gscr0 の一部にアクセスできない

 詳細:

 10日,14日に発生した障害同様、/work1,/gscr0を構成する8台OSSの1台である
t2s007045 が管理していた一部のOSTへのアクセスが何らかの理由に待ち状態となりま
した。その後 t2s007045 を再起動し22:39に復旧しました。
 vmcoreを取得する予定でしたが、一部のOSSのディスクコントローラーのFirmwareの
バージョンが古く取得できなかったため、後日サービスに影響を与えないよう、ペアと
なるOSS間でサービスを寄せながらFirmwareのアップデートを行いました。
 

 用語説明
  OSS:Lustreファイルシステムにおいて、計算ノードに対してファイルの中身を
     実際に送受信するサーバ
英語

ページ