TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害

【障害報告】2016.6.26発生:/work1, /gscr0 ストレージ障害(1) (6/30更新)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成28年6月29日

 下記の通りストレージに障害が発生し、復旧いたしました。

 日時:6月26日(日) 17:29 から 17:37 頃

 影響: /work1, /gscr0 にアクセスできない

 詳細:

Undefined

【障害報告】2016.6.8発生:/work1 ストレージ障害 (6/30更新)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成28年6月29日

 下記の通りストレージに障害が発生し、復旧いたしました。発見、報告が遅くなり申し訳ありませんでした。

 日時:6月8日(水) 11:18 から 11:28 頃

 影響: /work1 にアクセスできない

 詳細:

/work1 を構成する2台で冗長化されている MDS(MetaData Server) として稼働していた1台の t2s007015 において Lustre に障害が発生し、自動で MDS のサービスが t2s007013 にフェイルオーバーされたことで復旧しました。復旧までの間 /work1 にアクセスすることができませんでした。なお、次の障害が発生する6/24まで、/work1 の MDS は t2s007013 で稼働している状況でした。原因は現在調査中です。

用語説明

Undefined

【障害報告】2016.4.21発生:gsi-sshログイン障害

(hpci-loginノードを利用している方向けの情報です)

                             学術国際情報センター
平成28年5月19日

 下記の通りログインに問題があり、復旧いたしました。

 日時:4月21日(木) 2:10 から 5月18日(水)20:24 頃

 影響: hpci-loginノードへgsi-sshによるログインが出来ない。

 詳細:

上記の期間におきまして、hpci-login への gsi-ssh ログインができない状態となっておりました。5月19日現在は回復しております。原因はホスト証明書の設定ミスによるものです。なお、当該期間中も公開鍵付きsshによるログインは可能な状態でした。ご利用者の皆様にはご迷惑をお掛けいたしました。

Undefined

【障害報告】2016.5.11発生:/work1 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成28年5月13日

 下記の通りストレージに障害が発生し、復旧いたしました。

 日時:5月11日(水) 15:10 から 16:24 頃

 影響: /work1 にアクセスできない

 詳細:

/work1 を構成する2台で冗長化されている MDS(MetaData Server) として稼働していた1台の t2s007015 においてLustre の処理がスタックする問題が発生致しました。

MDS の処理がスタックしたため、Lustre クライアントである各計算ノードからは/work1 のメタデータを取得できなくなりました。その結果、/work1 にアクセスができなくなる影響が発生しました。

Undefined

【障害報告】2016.5.10発生:/home ストレージ高負荷

(TSUBAMEにSSHログインするすべての利用者向けの情報です)

                             学術国際情報センター
平成28年5月10日

 下記の通りストレージに障害が発生し、復旧いたしました。

 日時:5月10日(火) 2:40 から 10:45 頃

 影響: /homeへのアクセスが大きく遅延する

 詳細:

 2:40頃に4台ある/homeを構成するGPFSサーバの1台(t2s007067)が高負荷状態となり、このサーバをマウントしてる計算ノードやインタラクティブノードの/homeへのアクセスが極端に遅くなっておりました。その結果ログインできなかったり、データの読み書きが失敗した可能性があります。10:45頃、対象のGPFSサーバのサービスを再起動することで復旧しました。

 問題のサーバをマウントしていた計算機は以下のとおりです。

Undefined

【障害報告】2016.2.20発生:/work1, /gscr0 ストレージ障害

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成28年2月25日

 下記の通りストレージに障害が発生し、復旧いたしました。報告が遅くなり皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:2月20日(土) 1:18 から 1:48 頃

 影響: /work1, /gscr0に断続的にアクセスできない。またはパフォーマンスが低下する。

 詳細:

 8台あるOSSの中の2台のペア t2s007041 及び t2s007043 に何らかの問題が発生し、このサーバで管理されていたOSTに断続的にアクセスできませんでした。

 2/20 01:18、t2s007041 が t2s007043 からの死活監視信号の応答を得られなかったため t2s007043 が障害と判断されt2s007043 が自動で再起動しました。

Undefined

【障害報告】2015.12.28発生:/data0 テープデータ消失

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成28年1月7日

 下記の通りテープライブラリに障害が発生し復旧したものの一部データが/data0上から消失しました。なおバックアップデータが存在します

 日時:2015年12月28日 (ドライブ復旧は1月5日18:40分)

 影響: /data0 のテープ上の一部のデータが消失

 詳細: 

 12月28日に/data0で利用される7台あるうちの1台のテープドライブ(DRIVE05)にてエラーが発生しました(この時点では原因・影響不明)。年内の修理は間に合わず、その後の調査で5000巻あるうちの1テープメディアのドライブ内で破損していることがわかり1/5 18:40に修理が完了しました。この期間中、リコールで、該当のデータに当たった場合は、ジョブがエラーになる可能性がありました。

Undefined

【障害報告】2015.11.14発生:/work1, /gscr0 ストレージ障害

(バッチキューを利用している全ての方向けの情報です)

                             学術国際情報センター
平成27年11月17日

下記の通りストレージに障害が発生しました。皆様にはご迷惑をおかけして申し訳ございませんでした。

日時:11月14日(土) 18:50 から 19:30 頃

影響:

/work1, /gscr0 上のファイル、ディレクトリへのI/Oが一時的に出来なくなりました。8台あるOSSの中の1台のt2s007045がマウントするOST(gscr0_OST04、work1_OST34〜40)上のファイル、ディレクトリが該当します。

詳細:

Undefined

【障害報告】2015.10.30発生:/work1, /gscr0 ストレージ障害

(バッチキューを利用している全ての方向けの情報です)

                             学術国際情報センター
平成27年11月4日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:10月30日(金) 14:35 から 23:09 頃

 影響:

  • ほぼすべてのキュー(L256, L512 以外)において、サービスしている計算ノードの台数が減少。
  • バッチジョブとして実行中のジョブの一部が、リスタートされる。
  • /work1、/gscr0 上のディレクトリ、ファイルへのアクセスが出来ない。

 詳細:

 2015年10月30日(金) 14:35 より、計算ノード上でマウントしている/work1, /gscr0 領域にアクセスできない問題が発生致しました。

Undefined

ページ