障害

2017.4.22発生:U/Vキュー管理サーバ停止

(バッチキューを利用している方向けの情報です)

                             学術国際情報センター
2017年4月27日

 下記の通りバッチキューに障害が発生し、復旧いたしました。

 日時:4月22日(土) 19:33 から 24日(月) 8:20頃

 影響: U/Vキューの管理サーバの動作停止

 詳細:

19:33頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり、

・t2sub コマンドで U/V キューへのジョブ投入が出来ない
・U/V キューの Q (待ち状態) のジョブが R (実行中) 状態に遷移しない
・Cloud Utilization、t2statコマンドによるU/Vキューのジョブ実行状況の確認ができない
・電力制御の再計算がエラーとなり、全キューでジョブを投入しても休止中の計算ノードが起動しない

Undefined

【障害報告】2017.3.25発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年3月29日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:3月25(土)8:11から13:32頃

 影響範囲:/work1, /gscr0 の一部にアクセスできない。

 詳細:

8:11頃/work1を構成する104個あるOSTのうちの1つ(work1-OST0034)にアクセスができなくなりました。復旧を開始しましたがテイクオーバ時に処理がスタックする既知の問題が再発する可能性があったため、8台あるOSSの内のwork1-OST0034を管理しているOSS(t2s007045)を12:47頃より再起動しました。このOSSは全体の1/8を管理しているため、再起動中の12:47から13:32の間、/work1, /gscr0の1/8にあたる領域にアクセスができませんでした。

用語説明

Undefined

【障害報告】2017.3.24発生:U/Vキュー管理サーバ停止

(バッチキューを利用している方向けの情報です)

                             学術国際情報センター
2017年3月29日

 下記の通りバッチキューに障害が発生し、復旧いたしました。

 日時:3月24日(金) 2:01から8:19頃

 影響: U/Vキューの管理サーバの動作停止

 詳細:

2:01頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり、

・t2sub コマンドで U/V キューへのジョブ投入が出来ない
・U/V キューの Q (待ち状態) のジョブが R (実行中) 状態に遷移しない
・Cloud Utilization、t2statコマンドによるU/Vキューのジョブ実行状況の確認ができない

状態が発生しました。8:19頃リスタートを実施し復旧しました。

Undefined

【障害報告】2017.3.21発生:/work1, /gscr0 ストレージ障害 (2)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年3月21日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:3月21(火)18:53から20:03頃

 影響範囲:/work1, /gscr0にアクセスできない

 詳細:

(3/29追記)

Journalの問題(デットロック)でMDSの処理がスタックする問題が発生しました。これは昨年の5月11日今年の2月3日3月17日などで発生したものと同種となります。

用語説明

Undefined

【障害報告】2017.3.21発生:/work1, /gscr0 ストレージ障害 (1)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年3月21日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:3月21(火)11:51から15:44頃

 影響範囲:/work1, /gscr0にアクセスできない

 詳細:

(3/29追記)

Journalの問題(デットロック)でMDSの処理がスタックする問題が発生しました。これは昨年の5月11日今年の2月3日3月17日などで発生したものと同種となります。

用語説明

Undefined

【障害報告】2017.3.17発生:/work1, /gscr0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年3月17日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:3月17(金)14:4115:50から20:08頃

 影響範囲:/work1, /gscr0にアクセスできない
      /work1 15:50から20:08
      /gscr0 15:56から18:17

 詳細:

(3/29追記)

大きく3つの問題が発生しています。

Undefined

【障害報告】2017.2.13発生:/work0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年2月15日

 下記の通りストレージに障害が発生し、復旧いたしました。

 時間帯:2月13(月)14:58から15:13頃

 影響:/work0へのアクセスに一時的なI/O遅延やエラーが発生した可能性があります

 詳細:

/work0 を構成する2台で冗長化されている MDS(MetaData Server) として稼働していた t2s007017 において障害が発生しました。

その結果、MDS のサービス(MDT, MetaData Target)を対となる t2s007019 にフェイルオーバーしました。

期間中、一時的なI/O遅延やエラーが発生した可能性があります。

Undefined

【障害報告】2017.2.3発生:/work1, /gscr0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2017年2月9日

 下記の通りストレージに障害が発生し、仮復旧いたしました。報告が遅くなり申し訳ありませんでした。

 時間帯と影響範囲:
 2月3日(金) 12:36 から 14:49 /work1利用不可
 2月3日(金) 14:31 から 14:49 /work1, /gscr0利用不可

 詳細:

/work1 を構成する2台で冗長化されている MDS(MetaData Server) として稼働していた t2s007015 において Lustre の処理がスタックする問題が発生致しました。

Undefined

【障害報告】2016.12.22発生:/gscr0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
2016年12月27日

 下記の通りストレージに障害が発生し、復旧いたしました。

 記

 日時:12月22日(木) 23:27 から 26日(月) 16:25 頃

 影響: /gscr0 のごく一部にアクセスできない。復旧作業中に/work1の一部にアクセスできない。

 詳細:

コントローラ上で、ディスク障害(Idx: 518)のエラーが発生しており、SCSI コマンドに対してエラーが繰り返されたのち、12/22 23:27にmultipath がパスを認識できないエラーに繋がったものと思われます。
以下の時間帯でストレージ領域に障害が発生しました。

Undefined

【障害報告】2016.12.25発生:Infiniband Edgeスイッチ不調

(t2a0041[37-50]を利用していた利用者への情報です)

                             学術国際情報センター
2016年12月27日

 下記の通りネットワークに障害が発生し、復旧いたしました。

 日時:12月25日(日) 9:02 から 12月26日(月)17:50頃

 影響: InfinibandネットワークEdgeスイッチIBEDGE158配下の計算ノードの通信不可

 詳細:

   InfinibandネットワークEdgeスイッチIBEDGE158に障害が発生しスイッチ交換を行いました。交換が完了するまで配下のノードであるt2a0041[37-50]が通信することができませんでした。

Undefined

ページ