このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害

【障害報告】2015.10.27発生:/gscr0 ストレージ障害

(バッチキューを利用している全ての方向けの情報です)

                             学術国際情報センター
平成27年10月27日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:10月27日(火) 16:30 から 17:57 頃

 影響: /gscr0 にアクセスできない。

 詳細:

 2015年10月27日(火) 16:30 より、計算ノード上でマウントしている共有スクラッチ領域の /gscr0 にアクセスできない問題が発生致しました。/gscr0 を構成する MDS(MetaData Server) として稼働していた t2s007013 において Lustre の処理で問題が発生したためです。

 MDS の障害のため、クライアントからは /gscr0 のメタデータを取得できずファイルシステムにアクセスができておりませんでした。このため MDSのサービスを t2s007015 に手動でフェイルオーバーさせ、同日 17:57 /gscr0 は復旧致しました。

Undefined

【障害報告】2015.8.19発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成27年8月19日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:8月19日(水) 10:09 から 11:14 頃

 影響: /work1 の一部にアクセスできない。

 詳細:

 /work1を構成する104個あるOSTの一部(OST0041 から OST004d の13台)へのI/Oがなんらかの理由に不可能となりました。/work1を構成する8台あるOSSの中の1台 t2s007047を再起動し、サービスを t2S007045 にフェイルオーバーさせることで復旧しました。原因の詳細ついては現在調査中です。

Undefined

【障害報告】2015.7.3発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成27年7月3日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:7月3日(金) 21:58 から 7月4日(土)15:32 頃

 影響: /work1 にアクセスできない。

 詳細:

 2015年7月3日(金) 21:58 より、/work1 を構成する MDS(MetaData Server)として稼働していた t2s007015 において Lustre の処理がスタックし、クライアントから/work1 領域にアクセスできない問題が発生致しました。

Undefined

【障害報告】2015.7.2発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成27年7月2日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:7月2日(木) 12:10 から 15:15 頃

 影響: /work1 のごく一部にアクセスできない。

 詳細:

 12:10にディスクのあるRAIDセットの一つ(Pool#30)が2台のディスク障害により冗長性のない状態(No Redundant)となりました。その結果、データ保護のためこのRAIDセットが自動で読み取り専用となり、work1を構成する104個あるOSTのうちの一つの「OST1b」に対する書き込みができない状態となりました。

Undefined

【障害報告】2015.6.4発生:グループディスクアクセス権の異常

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成27年6月4日

 下記の通りグループディスク設定に問題が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:2015年6月4日 0:20 から 6月4日 11:01 頃

 影響: グループディスクを正しく購入していても、グループの最上位のディレクトリの所有者とパーミッションがroot 700に変更されアクセス不能となる。またクオータ設定もおかしくなる。

 詳細: 提示処理毎月3日夜間(今月は6/4日 0:20分)に実行される未購入グループのroot化処理に問題があり、ほとんどのグループ(*)においてグループディスクのディレクトリへのアクセスが不能となりました。9:30頃より復旧を開始し、11:00頃にすべての復旧作業及び確認が終わりました。

Undefined

【障害報告】2015.5.21発生:/data0 リコール障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成27年5月21日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:2015年5月21日 16:49 から 5月22日 13:45 頃

 影響: /data0 のテープドライブ上のデータの一部にアクセスできない。

 詳細: 

  期間中、5000巻あるうちの1つのテープメディアTI1016が読み込めない状況でした。ロボットハンドがTI1016のテープの存在を認識しているが、バーコードが読めずテープ情報をシステムに誤報告したため、テープシステム内のDBと整合性が取れない状態に陥りました。テープ情報を更新することで復旧しました。

Undefined

【障害報告】2015.5.20発生:/data0 リコール障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成27年5月21日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:2015年5月20日 11:20 から 20:00 頃

 影響: /data0 のテープドライブ上のデータの一部にアクセスできない。

 詳細: 

  テープドライブのバーコード不良及びロボット不良によりテープをマウントすることができませんでした。既にドライブに入ってるメディアに関してはデータの読み/書きは可能でしたが、ドライブに入ってないメディアに関するデータの読み/書き
(ドライブに対してメディアを入れる処理が障害によりできなかったため)はできない状況でした。

ドライブ及びロボットを交換することで復旧しました。障害検知をより迅速に行うための仕組みを検討しております。

Undefined

【障害報告】2014.2.19発生:/data0 テープデータ大量消失(7/22更新)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成27年5月8日

(7/22更新) 

下記の通りストレージに障害が発生し、再発防止策を設定しました。詳細はわかり次第追記します。

 日時:発生する可能性があった期間は/data0サービス開始時(2011.5.1)から2015.5.7まで。最初の発見は2015.4.28。実際に上書きが起きた期間は2014.2.19から2014.6.13。

 影響: /data0 のテープ上の多くのデータが上書きされ消失

 詳細: 

 現在、詳細を確認中です。

Undefined

【障害報告】2014.4.3発生:/data0 リコール障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成27年4月24日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:2014年4月3日 から 2015年4月21日 頃

 影響: /data0 のテープドライブ上のデータの一部にアクセスできない。

 詳細: 

 /data0ではHDDとテープを利用した階層型ストレージを構成しておりますが(HSM)、それを実現するTivoli Storage Manager(以下TSM)が/data0 の テープ上のデータを Recall する際に Permission Denied となりデータが Recall できない状況が発生しました。

Undefined

ページ