TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

【障害報告】2014.4.3発生:/data0 リコール障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成27年4月24日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:2014年4月3日 から 2015年4月21日 頃

 影響: /data0 のテープドライブ上のデータの一部にアクセスできない。

 詳細: 

 /data0ではHDDとテープを利用した階層型ストレージを構成しておりますが(HSM)、それを実現するTivoli Storage Manager(以下TSM)が/data0 の テープ上のデータを Recall する際に Permission Denied となりデータが Recall できない状況が発生しました。

 原因はTSMにおける7台あるうちの3台 DRIVE02, DRIVE03, DRIVE05を構成するデバイスにTSM Server (tca075206) がアクセスできなかったためです。対象のデータが他のDRIVEでマウントされた場合にはRecallできます。

 DRIVE05 : TSMの設定が間違っておりました。DRIVE05の修理交換時(2014.4.3)にズレが生じた可能性があります。設定を修正して復旧しました。

 DRIVE02,03 : TSMにおいてpathが自動的にオフラインとされていました。過去にテープライブラリのライセンスが切れており(2014.9.7)その際に問題が生じたと考えられます。TSMを再起動することで復旧しました。

 今後の対応としてはテープライブラリにおいて障害が発生した場合はいかなる場合においても/data0で利用する全7DRIVEへの読み書きが可能であることを確認してからサービスを提供開始します。