TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

【障害報告】2016.8.2発生:落雷によるTSUBAME停止

(すべての利用者向けの情報です)

                             学術国際情報センター
2016年8月5日

 落雷により下記の通り障害が発生し復旧いたしました。

 日時:8月2日(火) 5:31 から

 影響: 落雷によるTSUBAME計算サービスのすべてが停止(すずかけ台TSUBAMEホスティングを除く)

 詳細:

8月2日(火) 5:31頃、落雷により大岡山キャンパス全域で停電が発生したため大岡山すべてのTSUBAME計算機、ストレージ等が停止しました。7:06頃の停電復帰後、8:30頃より本格的に復旧を開始しました。各サービス再開時刻は次の通りです。

 

・ログイン、インタラクティブ

8/2 17:00  /home再開(鍵認証可能に)

・バッチキュー

 8/3 11:30  S/S96/L256/L512
 8/3 12:10  G
 8/3 14:45  U/V
 8/3 15:00  H
 8/3 15:30  X

・TSUBAMEストレージ

8/3 11:00  再開(/work0, /work1, /gscr0, /data0)
なお、fsck完了は以下の通りでした(開始は8/2 13:30頃)
   /work0   8/2 17:00
   /work1   8/2 16:28
   /gscr0   8/2 16:28
   /data0   8/3 09:19
完了後、結果確認等を行うのに最低でも2時間程度の時間がかかるためサービス再開は翌日の8/3となりました

なお、20台あるテープ読み出し装置のうちの1台に問題があることがわかり8/4 17:30頃復旧しています。

・TSUBAMEアプリケーション

8/3 15:00  再開(動作確認完了)

・TSUBAME2.5利用ポータル

8/3 15:10  再開

・TSUBAMEホスティング

大岡山ホストも停止しましたが、サービス中の仮想マシンはすずかけ台に退避していたため停止はありませんでした。しかしキャンパスネットワークの障害により一部の仮想マシンへのアクセスが不能となり翌日8/3 10:00頃に復旧しました。

 

またこの障害により以下の機器が故障しました。

・計算ノード x39ノード

+ SSD交換 x1ノード
+ Memory交換 x1ノード
+ GPU交換 x1ノード
+ IB-HCA交換 x1ノード 
+ BIOSエラー x35ノード

・ストレージ

コントローラ用UPS交換 x3
ディスク交換 x2

・テープ装置

テープ装置用電源装置 x1
ドライブ故障 x1