このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害

【障害報告】2016.11.5発生:Xキュー利用不可

(バッチキューを利用している方向けの情報です)

                             学術国際情報センター
2016年11月9日

 下記の通りバッチキューに障害が発生し、復旧いたしました。

 日時:11月5日(土) 11-05のスロット

 影響: Xキューが作成されず利用できない

 詳細:

11/5 9:00 に11-04のスロットが終了しました。終了時点で予約キューに5,000本以上のジョブが残っていたためジョブの削除が開始されました。9:02にcronにより11-05のXキューの作成処理が始まりましたが、ジョブ削除が間に合わずタイムアウトし、Xキューの作成に失敗しました。その結果11-05のスロットでXキュー(この日は163台)が開始できませんでした。

対策としてタイムアウト値を見直したりリトライ処理したり行うよう改修をする予定です。

Undefined

【障害報告】2016.10.25発生:/work1, /gscr0 ストレージ障害(2/27更新)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2016年10月27日

 下記の通りストレージに障害が発生し、復旧いたしました。

 日時:10月25日(月) 7:41 から 27(水)16:40 頃

 影響: /work1, /gscr0 の一部にアクセスできない

 詳細:

詳細は現在まとめております。

(11/1追記)

Undefined

【障害報告】2016.10.7発生:/work0 ストレージ障害 (10/21更新)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2016年10月11日

 下記の通りストレージに障害が発生し、復旧いたしました。

 日時:10月7日(金) 13:32 から 16:35 頃

 影響: /work0 の一部にアクセスできない

 詳細:

原因は現在調査中です。

(10/21追記)

Undefined

【Failure information】The number of available nodes of X queue will be small.

(Information for the TSUBAME users who use batch nodes)

Global Scientific Information and Computing Center
2016-09-30

The number of available nodes of X queue will be small.

Date:
2016-09-30 20:00 - 2016-10-01 09:00

Impact:
The number of available nodes of X queue will decrease by 5 during the above period.

 

英語

【障害報告】2016.9.30発生:夜間Xキュー台数減少予定

(バッチキューを利用する方向けの情報です)

学術国際情報センター
2016年9月30日

下記の通りXキューに問題が発生する予定です。

日時:
9/30(金) 20:00 から 10/1(土) 9:00

影響:
上記の日時の間、Xキューの利用できる台数が5台減少する。

詳細:
 "TSUBAMEのより積極的な省電力運用について"を実現するソフトウェアの異常終了が発生したため、機器5台分の起動が間に合わず、上記の日時の間、Xキューの利用できる台数が5台減少します。

日本語

【障害報告】2016.9.27発生:夜間Xキュー台数減少予定

(バッチキューを利用する方向けの情報です)

学術国際情報センター
2016年9月27日

下記の通りXキューに問題が発生する予定です。

日時:9/27(火) 20:00 から 9/28(水) 9:00

影響: ピークシフト夜間Xキューの台数が大幅に減少する

詳細:

 ピークシフト運用機能とより積極的な省電力運用機能のスクリプトに不整合があり09-27のスロットのXキューに258台の組み込み漏れが発生しました。その結果夜間のXキューが本来503台となるところ最大245台に減少する予定です。XキューはTSUBAME内部では一つの特殊な予約キューとして機能しております。PBSの予約キューは後からノードを追加できないという仕様があるため、修正することができません。なお再発防止として新たな処理を追加したため明日以降同じ理由による障害は発生しない予定です。

Undefined

【障害報告】2016.8.18発生:H/X一部ノードリソース不足

(バッチキューを利用する方向けの情報です)

学術国際情報センター
2016年8月24日

下記の通りH/Xキューの一部に性能低下に繋がる問題が発生し、復旧いたしました。

日時:8/18(木) 15:00 から 8/22(月) 13:59

影響: 一部のH/XノードでU/V用の仮想マシン起動しリソースを圧迫

詳細:

 夏季停電メンテナンスの一つとしてピークシフト対応で一時的にU/VキューからH/Xキューに移動している計算ノードへのパッチ当てを行いました。その際に仮想マシン(U/Vマシン)の起動も行いました。しかし、チェックミスにより以下の期間中、本来停止している必要のある仮想マシンが起動したままとなり、H/Xノードのリソースが仮想マシンの分だけ少ない状態で運用する結果となりました。これにより十分な速度が出なかったりメモリが不足することとなりました。
 再発防止のため自己チェックスクリプトの見直しを行う予定です。

予約キュー:    R955698

Undefined

【障害報告】2016.8.2発生:落雷によるTSUBAME停止

(すべての利用者向けの情報です)

                             学術国際情報センター
2016年8月5日

 落雷により下記の通り障害が発生し復旧いたしました。

 日時:8月2日(火) 5:31 から

 影響: 落雷によるTSUBAME計算サービスのすべてが停止(すずかけ台TSUBAMEホスティングを除く)

 詳細:

8月2日(火) 5:31頃、落雷により大岡山キャンパス全域で停電が発生したため大岡山すべてのTSUBAME計算機、ストレージ等が停止しました。7:06頃の停電復帰後、8:30頃より本格的に復旧を開始しました。各サービス再開時刻は次の通りです。

 

・ログイン、インタラクティブ

8/2 17:00  /home再開(鍵認証可能に)

・バッチキュー

Undefined

【障害報告】2016.7.31発生:/nest2 ストレージ障害

(教育システム, /nest2, 全学ストレージを利用している方向けの情報です)

                             学術国際情報センター
平成28年8月1日

 下記の通りストレージに障害が発生し復旧いたしました。

 日時:7月31日(日) 11:27 から 8月1日(月) 9:38 頃

 影響: /nest2 にアクセスできない。(全学ストレージサービス, 教育システムのホームディレクトリを含む)

 詳細:

教育システム(GSIC管理のiMac)のホームディレクトリ, /nest2, 全学ストレージのサービスを提供しているBlueARC Mercury 100ストレージアプラインスにおいてライセンスの有効期限切れが発生しアクセス不能となりました。その結果、これらのサービスを利用することができませんでした。時系列は次の通りです。

Undefined

【障害報告】2016.6.26発生:/work1, /gscr0 ストレージ障害(2) (6/30更新)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成28年6月29日

 下記の通りストレージに障害が発生し、復旧いたしました。

 日時:6月26日(日) 21:16 から 21:30 頃

 影響: /work1, /gscr0 にアクセスできない

 詳細:

Undefined

ページ