このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害

【障害報告】2013.12.20発生:モニタリング障害(Ganglia)

利用者各位

学術国際情報センター
平成25年12月24日

【障害報告】モニタリング障害(Ganglia)

 下記の通りGangliaのデータが取得できていない状態になっており復旧しました。

1.日時

2013年12月20日(金) 19:04 から 2013年12月24日(火) 8:30

2.詳細

104室と105室の情報を採取する gmetad デーモンがsegfaultの発生によりダウンしました。結果として、障害期間中の104 室、105 室の情報をweb 表示できない状態となっています。

3.対策

gmetad デーモンのダウンを検知して 自動的に gmetad デーモンを起動し復旧させる仕組みの実装を検討いたします。

Undefined

【障害報告】2013.12.5発生:ABAQUSのオンラインドキュメント閲覧不可

(TSUBAME計算サービスでABAQUSを利用している方向けの情報です)

学術国際情報センター
平成25年12月9日

【障害報告】ABAQUSのオンラインドキュメント閲覧不可

 下記の通りABAQUSのドキュメントが閲覧できない状態になっておりました。
皆様にはご迷惑をおかけし て申し訳ございません。

日時:

2013年12月5日(木) 15:50 から 2013年12月9日(月) 8:39

現象:

ABAQUS のオンラインドキュメンテーション(http://172.17.230.61:2080/)の閲覧が出来ない。

原因:

ABAQUSオンラインドキュメントのWebサーバへの接続コネクション数が一定数を超えた場合に、Webサーバの新規プロセスを起動する動作となりますが、その処理に失敗しています。
そのことがトリガーとなり、Webサーバの閲覧が出来ない状態となりました。

Undefined

【障害報告】2013.9.11発生:空調障害に伴うログイン・work1ストレージ障害

(TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)

                            学術国際情報センター
平成25年9月12日

 下記の通り空調機が故障し、各サービスで障害が発生しました。皆様にはご迷惑をおかけして申し訳ございません。

日時:

2013年9月11日(火) 1:30頃(温度異常発生)から10:21(ストレージ修復)

影響:

・ストレージ障害
・ログインノード障害

詳細:

ストレージやログインノード、その他の管理系ノードが設置されている計算機室で稼働している2台の空調の1台に障害が発生し、部屋の温度が徐々に上昇しました。その結果、温度異常のため様々なシステムが停止しました。

英語

【障害報告】2013.9.11発生:空調障害に伴うログイン・work1ストレージ障害

(TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)

                            学術国際情報センター
平成25年9月12日

 下記の通り空調機が故障し、各サービスで障害が発生しました。皆様にはご迷惑をおかけして申し訳ございません。

日時:

2013年9月11日(火) 1:30頃(温度異常発生)から10:21(ストレージ修復)

影響:

・ストレージ(work1)へアクセス不可
・ログイン不可、インタラクティブからの切断

詳細:

ストレージやログインノード、その他の管理系ノードが設置されている計算機室で稼働している2台の空調(*)の1台に障害が発生し、部屋の温度が徐々に上昇しました。その結果、温度異常のため様々なシステムが停止しました。

*…TSUBAME2.5の特徴であるチラーやMCSラックではなく、古くからセンターに設置してある大型空調のことです。

日本語

【障害報告】2013.7.2発生:Xキュー開始失敗

(TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)

                            学術国際情報センター
                             平成25年7月2日

 下記の通りXキューを開始する事が出来ませんでした。皆様にはご迷惑をおかけし
て申し訳ございません。

日時:
 2013年7月2日(火) 10:00から11:26


影響:
 Xキューを開始する事が出来ませんでした。その結果、
 上記の期間にXキューが利用できませんでした。

 またその影響で、本日は夜間のXキューの台数が通常(680台)より少ない
 200台での運用となります。


詳細:
 X キューの作成処理には作成時点で対象ノードが全て起動している必要があります.
その中にあった不調なノードを除ききれず、Xキューの作成が失敗しました。 11:26に200ノードでXキューを再開しましたが、夜間に起動する残りの480ノードに ついては停止中で登録できないため、本日夜間も200ノードままとなります。 ピークシフト運用で利用でる資源量が少ない中、大変申し訳ありません。 今後同様な事が発生した場合、大学全体の電力量を見ながら、登録のため一度パワー オンすることを検討します。
影響を受けたジョブ:
英語

【障害報告】2013.7.2発生:Xキュー開始失敗

(TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)

                            学術国際情報センター
                             平成25年7月2日

 下記の通りXキューを開始する事が出来ませんでした。皆様にはご迷惑をおかけし
て申し訳ございません。

日時:
 2013年7月2日(火) 10:00から11:26


影響:
 Xキューを開始する事が出来ませんでした。その結果、
 上記の期間にXキューが利用できませんでした。

 またその影響で、本日は夜間のXキューの台数が通常(ピークシフト680台)より少ない
 200台での運用となります。


詳細:
 X キューの作成処理には作成時点で対象ノードが全て起動している必要があります.
その中にあった不調なノードを除ききれず、Xキューの作成が失敗しました。 11:26に200ノードでXキューを再開しましたが、夜間に起動する残りの480ノードに ついては停止中で登録できないため、本日夜間も200ノードままとなります。 ピークシフト運用で利用でる資源量が少ない中、大変申し訳ありません。 今後同様な事が発生した場合、大学全体の電力量を見ながら、登録のため一度パワー オンすることを検討します。
影響を受けたジョブ:
日本語

【障害報告】2013.6.19発生:Infinibandネットワーク障害

(TSUBAME計算サービスでグループディスクを利用している方向けの情報です。)

                             学術国際情報センター
                              平成25年6月20日

 下記の通りInfiniband障害によるストレージへのアクセス障害が発生し、
復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

                   記

 日時:6月19日(水) 18:10 から 6月20日(木) 9:40

 影響: /work0,/work1,/gscr0,/data0
     にあるファイル/ディレクトリへのアクセスに失敗する事がある。

 詳細:

 6月19日(水)18時11分に/work0,/work1,/gscr0で利用してるLustreファイルシステ
ムの異常を示すアラートが発行されました。6月20日(木)9時20分に調査を行った結果、
SubnetManager のログ出力が停止していることを発見しました。

 また、ストレージ等が接続されているInfinibandスイッチの1台であるIBEDGE002の
port12が“LinkErrorRecovery”というエラー状態になっていたため、このポートの

日本語

【障害報告】2013.6.4発生:ライセンスサーバ障害(Mathematica)

(TSUBAMEでmathematicaを利用者利用している方向けの情報です)

                             学術国際情報センター
                              平成25年6月4日

 掲載が遅くなりましたが、下記の通り障害が発生し復旧しました。皆様にはご迷惑を
おかけして申し訳ございませんでした。

                   記

日時:6月4日9:21 から 10:38

影響:Mathematicaが起動できない

詳細:

 6/4 9:21  Mathematica のライセンスログが,t2a006167 での出力を最後に途切れる
 10:35 システムによるMathematica ライセンス停止の自動通知
 10:38 手動で Mathematica ライセンスを起動
 障害原因は不明ですが,t2a006167 にてトリガーとなった事象が無いか確認します。
 なお前回(4/22)のライセンスサーバ障害発生時に構築した  ライセンスプロセスの自動監視機能によりダウンタイムの短縮ができました。

 

英語

【障害報告】2013.6.4発生:ライセンスサーバ障害(Mathematica)

(TSUBAMEでmathematicaを利用者利用している方向けの情報です)

                             学術国際情報センター
                              平成25年6月4日

 掲載が遅くなりましたが、下記の通り障害が発生し復旧しました。皆様にはご迷惑を
おかけして申し訳ございませんでした。

                   記

日時:6月4日9:21 から 10:38

影響:Mathematicaが起動できない

詳細:

 6/4 9:21  Mathematica のライセンスログが,t2a006167 での出力を最後に途切れる
 10:35 システムによるMathematica ライセンス停止の自動通知
 10:38 手動で Mathematica ライセンスを起動
 障害原因は不明ですが,t2a006167 にてトリガーとなった事象が無いか確認します。
 なお前回(4/22)のライセンスサーバ障害発生時に構築した  ライセンスプロセスの自動監視機能によりダウンタイムの短縮ができました。

 

日本語

【障害報告】2013.4.27発生:Infinibandネットワーク障害


(TSUBAME計算サービスを利用ているすべての方向けの情報です)

                             学術国際情報センター
                              平成25年5月9日

 下記の通りInfinibandスイッチの障害のため広範囲に障害が発生し、復旧いたしまし
た。皆様にはご迷惑をおかけして申し訳ございませんでした。

                   記

 日時:4月27日(月) 20:33 から 4月30日(火) 16:05

 影響: ・/work1 にアクセスできない。
     ・Vキューを除く多くの計算ノードが徐々に減少。
     ・/work1 のグループディスクが購入できない。

     ・復旧作業中(*1)に/work0,/gscr0にアクセスできない。
      またTSUBAME2.0利用ポータルにアクセスできない。

     ・復旧作業中(*2)にジョブの投入ができない。

      *1…4月30日11時40分から12時5分
      *2…4月30日11時40分から13時30分

 詳細:

 4月27日(土) 20:33,監視用のt2s007005からwork1のMDS(t2s007015), work1のOSS
英語

ページ