TSUBAME3.0計算サービスのWebページはこちら

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

過去のストレージ情報

2017.3.22 11:15 昨日の18:53から20:03まで/work1, /gscr0に障害が発生していたことがわかりました。現在は復旧しております。

2017.3.21 17:35 /work1, /gscr0の障害は復旧しました。

2017.3.21 13:15 /work1, /gscr0に障害が発生しています。インタラクティブノードからアクセスできません。

2017.3.17 20:45 20:08頃復旧しました。詳細な発生期間や原因などをまとめています。来週掲載いたします。

2017.3.17 19:40 MDTのリカバリ処理が行われています。ロックファイルがあると数回リトライされるため復旧時刻は未定です。

2017.3.17 19:00 残念ながら復旧に時間がかかっています。現在は復旧の目処が立っておりません。

2017.3.17 18:00 順調に作業が終われば18:30頃の復旧となります。

2017.3.17 17:50 まだ復旧の目処が立っておりません。

2017.3.17 16:50 何らかの原因で復旧処理が失敗し現在/work1, /gscr0全領域にアクセスできない状態となっていおります。復旧時刻は未定となります。進捗がありましたらこちらへ追記いたします。

2017.3.17 16:45 現在、3月14日のストレージコントローラ障害の修理作業及び復旧作業を行なっています。大きな影響はない予定でしたが一時的に/work1, /gscr0の応答がなくなる現象が発生していることを確認しています。アクセスできない場合はしばらくお待ちください。現在、復旧作業状況を確認中です。

2017.3.14 16:45 4台あるストレージコントローラの内の1台の電源に問題があり縮退しています。この1台とペアになるコントローラが処理を代わりに引き受け負荷が偏っているため、その分だけパフォーマンスが低下する可能性があります。

2017.3.14 15:00 /work1, /gscr0の領域にパフォーマンスが低下する問題が発生していることがわかりました。現在調査を行なっています。

2017.2.14 9:30 昨日/work0のMDTのフェイルオーバーが発生しました。発生は14:58で復旧時刻は15:13です。冗長化されているため大きな問題は発生していませんが、上記の時間に一時的なI/O遅延やエラーとなった可能性があります。現在、原因を調査しています。

2017.2.3 15:00 /work1, /gscro の障害が復旧しました。詳細は分かり次第掲載します。

2017.2.3 13:05 /work1, /gscro に障害が発生しています。

2017.1.31 10:05 利用できますが、/work0, /work1 ともに売り切れて購入できません。対応を検討中です。

2017.1.13 11:40 /work1の購入可能上限を1300TBから1350TBに引き上げました。この作業によってストレージの空きが増えるわけではないので不要なファイルの削除をお願いします。

2017.1.12 11:40 /work1が売り切れました。これ以上購入することができません。対応を検討中です。

2016.12.26 18:25 /work0と/gscr0の障害は復旧しました。

2016.12.26 10:40 /work0と/gscr0の一部で障害が発生しています。

2016.12.14 16:00 /work0のinode使用率が100%になりました。新規にファイルの作成ができなくなる場合があります。利用者の皆様には複数のファイルはまとめるなどファイル数の削減にご協力をお願いします。

2016.10.27 17:20 復旧しました。詳細な報告はまとまり次第お知らせに掲載します。

2016.10.27 16:50 無事テイクバックに成功し最終確認を行っています。U/Vキューの実行(R)制限も解除の準備を進めています。

2016.10.27 13:50 16:00より/work1, /gscr0の緊急メンテナンスを行います。場合により/work1, /gscr0の一部に2時間程度アクセスできなくなる場合があります。お知らせはこちら

2016.10.25 17:40 16:55頃、仮復旧が完了しました。/work1, /gscr0 共にアクセス可能です。ただし、8台あるOSS(送受信するサーバ)のうちの1台のt2s007045のサービスが、冗長構成のペアであるt2s007047に偏ってしまっており、このOSS下のOST(ディスク)に保存されているデータは本来のパフォーマンスが得られない場合があります。サービスの偏りの戻し作業(テイクバック)の日程は現在調整中です。

2016.10.25 16:40 新たな問題が発生し、復旧が遅れております。復旧時刻は現在未定です。

2016.10.25 12:35 /work1, /gscr0のサーバ側の復旧は完了したためファイルの検査(fsck)を行っています。これまでの経験上2時間程度かかる見込みです。

2016.10.25 9:55 /work1, /gscr0のOST障害をうかがわせるアラートが本日 7:45から通知されています。現在調査中です。

2016.10.7 17:30 /work0の障害について詳細をお知らせに追記しました

2016.10.7 17:10 /work0の障害は13:32から16:35となります。

2016.10.7 16:50 /work0の障害が復旧しました。詳細についてはまとまり次第、障害報告としてお知らせに掲載します。

2016.10.7 14:40 現在、/work0に問題が発生している可能性があり調査中です。

2016.8.18 15:00 運用を再開しました。

2016.8.10 9:05 9:00より予定されたメンテナンスで利用できません。

2016.8.4 11:30 南4号館の演習室のOS X環境の件は、キャンパスネットワーク側に設定ミスがあることがわかり11:00頃修正されました。

2016.8.3 17:10 南4号館の演習室のOS X環境からnest2(ホームディレクトリ)に接続できないことがわかっています。その結果OS X環境にログインできない状態が続いています。

2016.8.3 11:30 復旧が完了し現在アクセスできます。

2016.8.3 10:15 グループディスクのデータチェック(fsck)が完了しました。目立った被害は発生していない模様です。サービス再開にはもうしばらくかかる予定です。

2016.8.2 17:10 /homeが復旧しインタラクティブノード及びIO専用ノードで利用できるようになりました。

2016.8.2 16:45 ホームディレクトリ(/home)は本日中に復旧できる見込みですが、グループディスク(/work0, /work1, /gscr0, /data0)は困難な状況です。

2016.8.2 14:20 ホームディレクトリ(/home)はアクセスできません。グループディスク(/work0, /work1, /gscr0, /data0)は現在fsckを実行しており最速でも16:00以降の復旧となります。全学ストレージ(/nest2)はアクセスできます。

2016.8.2 9:00 本日発生した停電により障害が発生しております。

2016.8.1 13:30 障害報告をお知らせに掲載しました。障害発生期間は7月31日(日) 11:27 から 8月1日(月) 9:38 頃となります。

2016.8.1 11:35 nest2の問題は解消されました。詳細についてはまとまり次第掲載します。

2016.8.1 9:55 nest2にアクセスできない原因ですが、ライセンスが期限切れになってしまったことが原因である可能性があり対応しております。

2016.8.1 09:20 "ストレージサービス(CIFS)"(nest2)にアクセスできない事象が発生していることを確認しました。現在、調査中です。この障害により教育システム(GSIC所有のiMac端末)の利用に影響が出ています。

2016.6.29 8:00 6/8及び6/26に発生した/work1, /gscr0障害をお知らせに掲載しました。

2016.6.7 11:40 準備が終わったため予定より前倒しで11:35に運用再開しました。

2016.6.3 9:35 予定されたメンテナンス中です。

2016.5.13 14:00 11日に発生した/work1障害について障害報告をこちらに掲載しました。

2016.5.11 16:30 /work1の障害は復旧しました。影響範囲などは調査中です。

2016.5.11 15:45 /work1に障害が発生していることがわかりました。現在復旧作業中です。

2016.2.25 10:30 遅くなりましたが2月20日(土)に発生した/work1, /gscr0の障害情報を掲載しました

2016.2.4 17:20 毎月3日から4日の夜間にかけてグルー プディスクの購入量と実使用量を比較して、購入量が不足した場合はパーミッションを変更する処理を行っています。Lustreのgranted cache と呼ばれる機能によりquota limit値を超えて少しだけディスクに書き込みができることがわかり、上限近くまでデータを書き込むと購入量を上回る場合があることがわかりました。す べてのグループをチェックし、アクセスに問題の発生していた4グループのアクセス権を修正しました。今後、再発防止策を検討しシステムに反映致します。

2016.2.4 13:30 夜間のグループディスク購入量チェックに何らかの問題が発生した可能性があり、一部のグループにアクセスできなくなっている場合があります。現在調査中です。

2016.1.7 10:45 テープ破損によるデータ消失についてこちらに障害情報を公開しました。

2016.1.5 10:05 テープドライブの修理が昨日の18:40に終了しました。原因はテープメディア切断のためドライブ内に詰まった状態となっておりました。幾つかのデータが消失した可能性があり現在対象データを調査しております。

2015.12.28 18:00 ドライブ7台の内、1台 (DRIVE05)にてエラーが発生していますが、年内の修理は間に合いませんでした。修理は来年(1/4〜)となります。リコールで、該当のドライブに 当たった場合は、ジョブがエラーになる可能性があります。/data0についてはファイルの作成は可能ですので、できるだけマイグレーションしないで利用 するようお願いします。

2015.12.28 17:15 /data0で利用される7台あるうちの1台のテープドライブに何らかの問題があり、/data0のテープドライブ連動部分に影響が出る可能性があります。調査・修理の手配を進めておりますが、年末のため対応できない可能性があります。

2015.12.28 15:50 テープ装置に何らかの障害が発生した可能性があり調査中です。/data0への影響を調べています。

2015.12.10 10:45 問題のサーバの再起動が完了し復旧しました。

2015.12.10 9:40 問題のある1台をこれより再起動して復旧を試みます。

2015.12.10 8:55 4台で構成される/homeのうちの1台が高負荷状態のため/homeの応答が悪くなっています。 

2015.11.30 17:50 テープ装置の修理が完了しました。/data0には影響はありませんでした。 

2015.11.27 16:15 /data0が接続されるテープ装置になんらかの障害が発生した可能性があり調査しております。

2015.11.30 17:50 テープ装置の修理が完了しました。/data0には影響はありませんでした。 

2015.11.27 16:15 /data0が接続されるテープ装置になんらかの障害が発生した可能性があり調査しております。

2015.11.24 13:30 本日予定されていた/wrok1, /gscr0のメンテナンスは10:00-10:22の間に完了しました。

2015.11.17 15:00 11月24日(火)10:00から11:00にかけてサービスの正常化のためのメンテナンスを行います。詳しくはこちら

2015.11.17 14:30 11月14日(土) 18:50 から 19:30 頃に一時的に/work1, /gscr0の一部にアクセスできなかったことがわかりました。詳しくはこちら

2015.11.02 11:45  10/30 23:09に正常になりました。

2015.10.30 20:15 /work1,/gscr0を管理するMDS(メタデータサーバ)に問題があることが分かっておりますが復旧の目処が立っておりません。

2015.10.27 18:20 本日16:30頃から/gscr0に障害が発生し復旧しました。詳細は調査中です。

2015.8.21 17:30 サービス再開後判明していたテープドライブ装置(サービスには影響なし)の故障の修理は昨日完了しました。

2015.8.19 12:00 10:09に発生した/work1障害は11:14に復旧しました。詳細は後ほどお知らせに掲載します。

2015.8.19 11:10 本日の 10:20 頃より、/work1 に障害が発生し、一部 OST(work1-OST0041〜work1-OST004d) へのファイル I/O ができなくなっております。現在復旧作業中です。

2015.8.17 16:40 テープドライブの一部に問題が見つかっていましたが、冗長化されているため運用には特に影響がないことがわかりました。通常通り/data0を利用できます。

2015.8.17 14:25 TSUBAME運用再開に向けて準備を進めていますが、テープ装置になんらかの障害が発生していることがわかっています。15:00再開予定時刻時に/data0のテープドライブ上のデータにアクセスできない場合があるかもしれませんが、現在調査中です。

2015.7.24 18:40 サービスを再起動することで復旧が完了しました。高負荷状態であった期間は16:40頃から18:04となります。

2015.7.24 18:25 現在ほぼ復旧が完了しました。現在最終チェックを行っています。

2015.7.24 17:25 /homeの一部が高負荷状態となっているため、lsなどの反応が遅くなっています。現在調査を行っています。

2015.7.6 9:30 7月3日(金) 21:58 から7月4日(土) 15:24の間/work1において障害が発生しました。

2015.7.2 15:30 work1のメンテナンスが予定よりかなり早く終了しました。詳細な報告は後ほど掲載します。

2015.7.2 14:45 work1を構成する104個あるOSTの内の一つ「OST1b」に障害が発生しているため緊急メンテナンスを行います。メンテナンス中は「OST1b」上のデータに読み書きすることができません。メンテナンスは3時間ほどかかる予定です。詳しくはこちら

2015.6.15 15:20 Lustreのメンテナンスは終了しました。

2015.6.15 11:00 現在予定されたLustreのメンテナンスです。

2015.6.4 17:10 影響があった可能性のあるジョブ一覧を障害報告ページに掲載しました。

2015.6.4 10:30 毎月3日夜間(今月は6/4日 0:20分)に実行される未購入グループのroot化処理でミスが見つかり復旧作業を行いました。詳細な問題の発生期間等はまとまり次第掲載します。

2015.6.4 9:10 TSUBAMEポータル上で必要な容量を購入しているにも関わらず、所有者がroot、パーミッションが700になっているグループが複数発生しており、現在調査中です。

2015.5.22 10:15 Lustre(/work0, /work1, /gscr0)関連の問題の修正のため6/15(月)に停止をともなわないメンテナンスが行われます

2015.5.21 16:10 I/O専用ノード(io-t2.g.gsic.)の /data0_20150507 にバックアップから復元できたデータの公開を順次始めました。

2015.5.20 19:50 今日発生した一部のファイル(テープ)/data0へアクセスできない問題は復旧しました。

2015.5.20 14:35 /data0の一部のファイル(テープ上)にアクセスできない事象が発生していることを確認しました。 現在、調査・対応を行っています。

2015.5.13 13:40 /data0の障害情報に続報を追記しました

2015.5.8 13:40 /data0において多数のテープ上のデータがロストしている事がわかりました。現在調査を行っております。

2015.4.28 17:05 再度別の利用者より/data0のテープのリコールができないという問い合わせがあり調査中です。

2015.4.21 11:50 HPCI共用ストレージ東工大拠点に障害が発生しています。詳しくはこちら

2015.4.21 10:40 "インタラクティブノードのメンテナンスについて"の件の作業を行い、テープドライブに関する問題の修正を終えました。

2015.4.17 11:20 /data0のテープドライブ連動部分の一部に障害が発生していることがわかりました。復旧時期は未定です。

2015.4.3 16:00 利用を再開しました。

2015.3.5 15:20 障害の中間報告を追記しました

2015.3.2 9:40 2/28の12:24から15:32に/work1障害が発生しました。詳細は分かり次第掲載します。

2015.2.16 12:40 /work0の障害は12:17頃復旧しました。

2015.2.16 10:50 /work0を構成する一部のOSTでread-onlyでリマウントされる現象が再発し、当該OSTにおいて書き込み、ls、dfが失敗します。2/16 11:00に再起動を実施し、1時間半程度で復旧する見込みです。

2015.1.5 10:00 2014-12-29 20:30 t2a006180で/work0,/work1,/data0が利用できない事象が発生しました。2015-01-05 09:00 に解消しました。

2014.12.19 17:50 Lusterのロック問題(T2KI-20141112A)のパッチ当てが全て完了しました

2014.12.19 13:30 /work0のメンテナンスは13:06に終わりました。

2014.12.18 17:25 明日9:00-12:00頃に停止をともなわない/work0のメンテナンスが行われます

2014.12.10 15:35 work0障害は復旧しました。詳細については後ほど掲載いたします。

2014.12.10 14:20 OST bitmapの問題により/work0の一部に障害が発生しております。/work0を利用している一部のジョブに影響があります。

2014.12.8 15:25 本日発生した障害情報をお知らせに掲載しました。

2014.12.8 11:00 10:32頃に/work1, /gscr0の障害が復旧しました。詳細についてはまとまり次第後日掲載いたします。

2014.12.8 9:20 本日5:00頃に/work1, /gscr0の一部に障害が発生いたしました。現在復旧作業中です。影響範囲はわかり次第ご報告します。

2014.12.5 18:20 問題のストレージサーバの機能を別のサーバへフェイルオーバさせたところ、応答が大幅に改善しました。これよりこの問題のサーバを念のため一度再起動し、再びフェイルオーバさせて偏ったサーバ機能を元の状態に戻す予定です。

2014.12.5 16:30 幾つかのジョブを削除したところ負荷が大きく下がりましたが、また増加傾向にあり、引き続き原因の調査を行っています。

2014.12.5 13:45 調査の結果、問題のジョブを特定でき た可能性が高く、ジョブの削除を依頼しております。負荷が下がった後も問題の/homeをマウントしていた計算ノードは不安定さが続く可能性があるため、 既存のジョブに影響がない範囲で順次対象となる計算ノードを再起動したいと思います。

2014.12.5 10:00 本日も引き続き原因となるジョブの特定を急いでいます。原因となりうる「可能性のある」ジョブを実行している方々へジョブの見直しをお願いしております。

2014.12.4 19:00 本日は原因を特定することができませんでした。対応は明日以降に持ち越しとなります。

2014.12.4 16:30 高負荷の影響を受ける計算ノードは次の通りです。t2a000[001-180],t2a002[001-180],t2a004[001-100] (SキューやGキューの一部)

2014.12.4 14:20 現在も高負荷の原因となっているジョブを特定できていません。

2014.12.4 12:05 4台ある/home (/usr/apps含む) を構成するサーバの1台が高負荷状態となっており、これを参照しているインタラクティブノードや計算ノード(全体の1/4) からのアクセスが極めて不安定となっています。現在、原因となるジョブの特定を急いでおります。

2014.12.4 9:00 /home (/usr/apps含む) が高負荷のためアクセスできない場合があります。ログインもプロンプトが表示されず切断される可能性があります。(14:00追記:ログイン問題は解消されました。)

2014.11.27 12:30 /work1の障害は9:50頃に復旧しました。

2014.11.27 9:10 /work1の一部に障害が発生し現在対応中です。

2014.11.26 18:00 /work1, /gscr0の障害が復旧しました。 

2014.11.26 16:25 /work1, /gscr0に障害が発生しています。

2014.11.20 13:20 /work0のOSTの一つ(work0-OST001d)の障害が12:15頃復旧しました。

2014.11.20 11:05 /work0の一部の領域(work0-OST001d)に障害が発生し、この領域にデータを書き込むことができません。復旧のためfsckをかけますが、1.5時間程度この領域が読み書き共にできなくなります。

2014.11.14 10:40 2:30頃より発生していた/work0の障害は正しくは5:20の発生でした。9:22に復旧しました。

2014.11.14 9:00 2:30頃より/work0の一部に障害が発生しております。。

2014.11.13 10:35 1:25頃より発生していた/work0の障害は9:59に復旧しました。

2014.11.13 10:10 0:451:25頃より/work0の一部に障害が発生しております。原因は最近頻発しているロックに関する問題です。復旧作業を行っています。

2014.11.11 11:05 /work0のOSTの一つ(work0-OST0018)の復旧が予定より早く終了しました。

2014.11.11 11:05 /work0の一部の領域(work0-OST0018)に障害が発生し、この領域にデータを書き込むことができません。復旧のためfsckをかけますが、3時間程度この領域が読みき共にできなくなります。

2014.11.10 13:45 11/8 6:52-12:28に/work0に障害が発生しアクセスできない状態が発生しておりました。詳細については現在調査中です。

2014.11.10 13:30 11/7 23:15-5:20に/work0に障害が発生しアクセスできない状態が発生しておりました。詳細については現在調査中です。

2014.11.4 13:30 発生していた/work0の障害が復旧しました。発生していた時刻は11:44-12:41となります。詳細は後ほどお知らせに掲載します。

2014.11.4 12:10 /work0に障害が発生し現在対応中です。

2014.11.4 11:50 /work1,/gscr0に障害が復旧しました。発生時刻は10:22-11:15となります。詳細は後ほどお知らせに掲載します。

2014.11.4 11:30 10:30頃より/work1,/gscr0に障害が発生し現在対応中です。

2014.10.28 17:00 /work1の高負荷状態がほぼ正常通りに戻りました。

2014.10.27 15:20 特定の利用者のジョブにより/work1の高負荷が続いています。この利用者とコンタクトをとっています。

2014.10.24 16:40 本日発生した/work1, /gscr0の障害について障害報告を掲載しました。

2014.10.24 12:05 /work1が障害から復旧しました。原因及び影響範囲については確認中です。

2014.10.24 8:50 /work1に障害が発生しており対応中です。

2014.10.23 16:30 本日発生した/work1の障害について障害報告を掲載しました。

2014.10.23 11:20 /work1の障害が復旧しました。影響範囲などについてはまとめ次第掲載します。 

2014.10.23 10:55 /work1に現在障害が発生しており、対処を行っています。 

2014.10.22 14:50 Storage Monitoringのページ(こちら)のメンテナンスを行っているため、閲覧することができません。(23日追記:終了しました)

2014.8.19 15:00 今日の/gscr0のメンテナンスは 予定より遅れ、10:42-11:10の間/gscr0のOST05にアクセスすることが出来ませんでした。また、作業中にトラブルが発生し、このOST が接続される、t2s007047に障害が発生し、ほぼ同時刻の間/work1の一部の領域にアクセス出来ませんでした。

2014.8.18 18:30 明日/gscr0のメンテナンスを行います。詳しくはこちら

2014.8.18 17:40 /gscr0に問題があり対応を検討中です。

2014.8.15 21:40 メンテナンスが終了しました。 

2014.8.15 21:00 現在、利用できますが、完全なサービス再開に向けて最後のチェックを行っています。21:30頃に完全に再開する予定です。

2014.8.15 19:05 Lustreのサービスを停止しました。

2014.8.15 16:50 19:00-21:00頃にLustre(/work0,/work1,/gscr0)を停止して修正を行う予定です。現在バグを修正するパッチを当てたKernelを作成しており、その後の作業となるため、大きく前後する可能性があります。

2014.8.15 16:40 Lustre(/work0,/work1,/gscr0)にバグが見つかりアクセス出来ない場合があります。修正を準備中です。修正のためこれらのサービスを一度停止する可能性があります。

2014.7.23 16:55 /data0のテープ連動部分の復旧が完了しました。

2014.7.22 12:00 ストレージ(HDD)は復旧しましたが、/data0のテープ連動部分のチェックが完了しておりません。 

2014.7.22 9:30 7月20日19時ごろに発生した停電の影響で、一時利用できなくなっていました。/home, /workについては現在利用できます。

2014.6.11 16:30 多くのジョブによる負荷のため現在/work1の応答が悪くなっています。負荷はこちらで見る事が出来ます。

2014.4.9 14:40 3月にグループディスクが有効であったグループは、4月の課金状況に関わらずグループ ディスクのディレクトリに4月15日までアクセスを可能としておりますが、期間内に実際の使用量より小さい容量を購入すると、ただちに、アクセス不能に なってしまうことがわかりました。先にデータを整理してから購入してください。

2014.4.7 18:00 2014.4.7 17:52に対応を終え、t2quotaコマンドの結果が正常になりました。

2014.4.7 17:00 t2quotaコマンドの結果に異常があることを確認しました。現在対応中です。

2013.12.27 19:00 /data0のテープドライブのメンテナンスは終了しました。

2013.12.27 18:05 遅れている/data0のテープドライブのメンテナンスですが、最後のチェック作業を行っています。

2013.12.27 15:50 16:00よりサービス再開する予定だったテープドライブですが、作業が遅れています。まだしばらく時間がかかる予定です。

2013.12.27 12:00 予定されていたテープドライブのメンテナンスを行います。

2013.12.24 10:00 /data0の停止は27日12:00-16:00で確定しました。ただし、サービスを休止する範囲はテープドライブへのアクセスのみで、期間中に/data0のハードディスク上にあるデータはそのまま利用出来ます。

2013.12.19 12:30 /data0の停止は現在27日12:00-16:00で調整中です。まだ未確定です。(24日追記:これで確定しました)

2013.12.17 18:00 国際棟の停電のため12月28日(土)かその前後の日に/data0のサービス停止が予定されています。詳細はきまり次第こちらに掲載します。(19日追記:27日で調整中です)

2013.11.22 9:30 /work1,/gscr0を構成するストレージ(sc30)のコントローラーの修理は終了しました。

2013.11.21 15:25 /work1,/gscr0を構成 するストレージ(sc30)の2台あるコントローラの片方に障害が発生したため、急ですが15:30から修理を行います。修理中はもう片方のコントロー ラーに処理を引き継ぐため、利用中でも問題ありませんが、処理が集中することになるので、パフォーマンスが低下する可能性があります。

2013.9.25 14:30 /work0の8台あるOSSの内の一台に極端に高負荷(Load/Procsが600以上)となっているため状況を確認しています。

2013.9.12 10:25 昨日発生した空調停止の障害情報を掲載しました

2013.9.11 11:00 空調の停止により、7:30頃 /work1, /gscr0を構成するOSSの一部が停止してアクセスできない状態になっておりました。10:21に復旧を確認いたしました。

2013.7.12 14:50  今月に入ってから/data0の7月分の購入量操作が反映されない期間があることがわかり、影響があった方々へご連絡しました。原因はTSUBAMEポー タルから/data0のマウントが外れてしまったことで、早期発見のためのチェック機能と購入処理失敗時にその旨を表示する仕組みを検討中です。

2013.6.20 14:40 /work0,1のMDSのOPS/sec値が取得できていないため修正する予定です。

2013.6.20 12:00 今回の障害報告をこちらに掲載しました。

2013.6.20 11:10 ネットワーク障害に伴うストレージ (/work0,/work1,/gscr0,/data0,/data1)障害は2013/06/19 18:10 - 6/20 9:40で発生しました。この時間これらのストレージを利用していたジョブは失敗している可能性があります。

2013.6.20 10:35 /wrok0以外にも、/work1,/gscr0/data0にも影響があったことが確認されました。これらのストレージはすべてすでに復旧しています。

2013.6.20 9:55 /work0が復旧しました。ネットワークの障害が原因ですが詳細は現在調査中です。

2013.6.20 8:55 /work0で障害が発生しており、アクセスできなくなっております。

2013.6.3 16:00 6月になりました。グループディスクにアクセスできなくなった方は、6月分が正しく購入されているか確認してください。

2013.5.1 11:10 5月になりましたのでグループディスク の購入を忘れていないかご確認ください。月の初めにクオータ値が購入量に変更されますが、今年度よりパーミッション&オーナー変更に3日間の猶予が設定さ れています。設定を忘れていた人はこの間にデータを消去するか適切な容量を購入してください。

2013.5.1 16:10 /work1のサービスを再開しました。すべてのストレージが復旧しました。

2013.04.30 13:30 IBスイッチのリセットが完了し、/work0, /gscr0についてはサービスを再開しました。/work1において一部OSTに障害が見つかったため、/work1は利用できません。ジョブの投入時には/work1を利用しないように注意してください。

2013.04.30 12:00 障害復旧のためIBスイッチのリセットを行う必要があり/work0, /work1へのアクセスができなくなっています。実行中のジョブのうち、/work0を利用していたものに影響が出た可能性があります。

2013.04.30 9:00 4/28頃より発生したInfiniBand障害のため、一部のノードから/work1にアクセスできなくなっております。現在状況を確認中です。

2013.4.12 14:00 お知らせに"グループディスクの移行期間の終了について(4/16実施)"を掲載しました。16日10:00よりクオータのチェックおよびパーミッションの変更処理が再開されます。

2013.4.5 10:00 メンテナンスが終了し、/data0の問題は解消されました。

2013.4.4 17:00 IBスイッチの再起動のため4/5 9:00-12:00の間、/work0, /work1, /gscr0が利用できません。

2013.4.3 17:50 /data0のテープドライブが利用できない件は、Infinibandと10GbEを変換部分が何らかの理由で機能していないことがわかりました。グランドチャレンジ終了後の環境戻し作業の時間帯で対象のスイッチの電源を入れ直すことができないか調整しています。

2013.4.2 18:30 /data0のテープドライブが利用できない件ですが、サーバではなくネットワークに問題がある可能性があり、現在スイッチを調査中です。申し訳ありませんが完全な解決は明日以降となる予定です

2013.4.2 16:00 /data0のテープドライブの連携部分の管理サーバに障害が発生しています。テープドライブに書き出されていないHDD上のデータへのアクセスは問題ありません。

2013.1.24 11:00 /home・管理用データを保存しているストレージの高負荷は一部利用者にジョブの投入を見直していただくことで解消しております。

2013.1.23 9:45 少なくとも管理用データを利用している領域のレスポンスが悪くなっていることがわかっております。計算サービスの広範囲に遅延等がおこる可能性があります。この領域は/homeも管理しております。

2012.12.25 10:00 OSSのストレージコントローラのFWは、Lustreの機能をペアとなるOSSに寄せつつ順番に再起動&アップデートをすることでサービスを停止すること無く最新状態にできました。次回障害発生時はより詳細な調査ができる予定です。

2012.12.18 10:00 12月17日 21:11から22:39にかけて/work1, /gscr0 に障害が発生しました。詳細は後ほど掲載します。過去2回発生した障害と同様の障害となります。これまでにStack Traceを取得しましたが原因特定に至らないため、次回発生時にvmcoreを取得する予定です。ただ一部のOSTSはvmcoreの取得にストレージコントローラのFWアップデートが必要(つまり長期間の停止が必要)なので、次回必ずしも取得できるとは限りません。(12.25追記)サービスを止めること無くアップデートができました。)

2012.12.14 17:15 今週発生した2件のwork障害は、特定の利用者のジョブによる極端な高負荷である可能性が高く、調査を進めています。(12.18追記) その後の調査でLustreの不具合である可能性が高く、何らかのジョブが引き金となっている可能性が高いのでジョブの調査も進めます。

2012.12.14 11:50 本日5:25から9:06にかけて/work1, /gscr0 に障害が発生していたことがわかりました。 詳細は後ほど掲載いたします。

2012.12.11 10:35 "【障害報告】2012.12.10発生:/work1, /gscr0ストレージ障害"の情報を掲載しました。

 

2012.11.30 9:45 /data0の障害ですが、/data0を構成しているGPFSには問題はなく、特定のテープ(5000巻あるうちの1本)に問題があることがわかり復旧しました。そのため、障害の影響はごく限定的であったと思われます。詳細は後ほどお知らせに掲載します。

2012.11.29 17:00 /data0の障害ですが、影響範囲や原因がまだはっきりしておらず、復旧時期は未定です。

2012.11.29 15:00 /data0に何らかの障害が発生している可能性があるため調査中です。

2012.11.16 18:20 調査したところt2a004106,t2a004112で/data0のマウントが外れていたためキューから切り離しました。

2012.11.16 16:45 /data0に問題があるという報告があり調査中です。

2012.11.16 11:40 /data0は10:30頃復旧しました。詳細についてはわかり次第掲載します。

2012.11.16 10:35 /data0を復旧中です。

2012.11.16 9:00 /data0にアクセスできません。調査中です。

2012.11.1 12:00 予定通り本日より/data0のクオータが有効になっていますのでご注意ください。

2012.10.29 10:25 メンテナンスは完了しました。

2012.10.29 9:50 本日10時に全学ストレージ(教育システム、/nest2)及びホスティングを提供しているストレージのメンテナンスを行うため、一時的に応答が無くなる場合があります。

2012.10.26 15:20 平成24年10月29日(月) 10:00に/homeのメンテナンスを実施いたします。障害により切り替わったサーバーを再度切り替える作業を実施いたします。作業は数秒で終わり、一瞬I/Oが停止する以外に利用者への影響はありません。(10/29:影響があるのは/homeではなく、全学ストレージ(教育システム、/nest2)及びホスティングの間違いです)

2012.10.25 13:20 11月分の/data0の購入を本日の14:00から開始します。

2012.10.24 15:30 TSUBAME1.2のデータの削除についてお知らせに掲載しました

2012.10.12 16:45 10/10に発生したwork0の障害についてお知らせに掲載しました。また10/11にdata0に障害が発生していた事もわかりお知らせに掲載しました。

2012.10.10 22:20 掲載が遅くなりましたが、/work0障害は18:10頃復旧しました。

2012.10.10 16:55 /work0の障害は2010.10.10 19:00頃に復旧する見込みです。

2012.10.10 15:40 15:00頃より/work0の一部のファイルにアクセスできない事象が発生していることを確認しました。

2012.10.10 15:35 /work0に何らかの障害が発生している事がわかったため調査をしております。

2012.10.5 14:10 11月より/data0の課金を再開する予定です。こちらをご覧ください。

2012.10.4 16:40 /data0の通常運用再開(課金再開)に向けて、これまで停止しいたテープへのマイグレーションを本日の夜より再開します。再開についてのアナウンスは近日中に行います。

2012.9.26 14:20 お知らせに「/work[01]のクオータ機能の復旧について」を掲載しました。

2012.9.25 9:40 /data0のマウントが正しくできていない事が分かり、昨日の18時頃に修正しました。

2012.9.24 12:30 ストレージへのアクセスを再開しました。また、/work[01]のクオータが有効になりました。

2012.9.24 09:00 グランドチャレンジ実施に伴うサービスの停止 のため、ストレージサービス(CIFS)以外利用できません。

2012.9.13 14:50 グランドチャレンジ実施前後の構成変更時にクオータまわりの問題を修正します。

2012.8.28 12:15 修正する準備ができましたがLustreファイルシステム全体を停止する必要があるため、日程を調整中です。8月終わりまでに修正できませんので、9月中もしばらくはディスクのクオータを設定しません。

2012.8.24 10:30 work の障害ですが、現在のLustre(夏期停電時にバージョンアップした1.8.8)とOFED(Infinibandのドライバ等)の組み合わせで問題が 発生する事が分かりました。修正パッチを作成中です。適用するにはworkの停止が必要になる可能性があるので今後のアナウンスにご注意ください。

2012.8.20 20:00 各 OST(Lustreを構成するディスクの集合体)のquotaのlimitが1に設定されてしまうということが分かっており、現在も開発元で問題の発生 原因,対応方法について調査しております。原因が分かっていないため、完全な復旧の目処は立っておりません。そのため、暫定の対処として、グループディス ク利用者はquotaをoffにして設定値に関わらず読み書きができるようさせて頂きました。まだ動作がおかしい等ありましたらぜひ相談窓口へご報告くだ さい。

2012.8.20 15:30 workのクオータの設定が機能しないことを確認しました。そのため、注意してご利用ください。現在も、調査を継続しております。

2012.8.20 9:50 何らかの問題によりworkに新規にディレクトリが作成できない事が分かりました。現在、調査を行っております。 

2012.6.14 15:45 バッチキューの方でも掲載しましたが、6月4日、6月5日に広範囲で異常な負荷の高騰が発生した件は、不調であったストレージの部品(SFPモジュール)を交換した事により収束したと思われます。現在、監視を続けております。2012.6.5 17:45 昨日発生した/data0の障害について最新のお知らせに掲載しました。

2012.6.5 9:30 昨晩 /data0 において障害が発生しました。詳細は後ほど掲載します。

2012.5.11 10:40 /home にアクセスすると高負荷になる問題で、今後マウントパラメータの変更を行います。

2012.4.27 13:30 /data[0-1]のメンテナンスが完了しました。

2012.4.19 17:30 4/27に/data0の構成変更を実施します。作業中、/data0は利用できません。
GPFS領域(/data0,1)の構成変更に伴うサービス停止について

2012.4.16 12:10 メンテナンス以降/homeにたくさんのIOを行うとノード全体がハングアップしてしまう状態が頻発しており、調査を続けております。

2012.4.11 11:25 /work1の設定にミスがあり、quotaデータが反映されておりませんでした。設定を修正いたしましたので現在は利用できます。

2012.4.10 17:30 Storage Monitoringのページが最新のwork構成にまだ対応しておりませんのご注意ください。

2012.4.10 10:00 本日10:00よりサービスを開始しましたが、広範囲でデータのアクセスできない場合があります。/data0についての状況はこちらへ随時追記させていただきます。

2012.4.9 18:30 個別のご連絡が明日のサービス再開時までに間に合いそうにないため、まずはWebのアナウンスとさせていただきます。 

2012.4.9 11:30 /data0は明日10:00よりサービスインする予定です。ルートディレクトリのinodeが破損したため広範囲でファイルやディレクトリが、そのパスやファイル名、ディレクトリ名が消失した状態でlost+foundへ移動しております。対象となるグループには個別にご連絡いたします。

2012.4.6 17:00 重要なお知らせに中間報告を掲載しました。

2012.4.6 14:00 本日中に/data0障害の中間報告を掲載する予定です。 

2012.4.6 9:00 グループディスクのクオータ設定を今月分へ更新しました。利用する際は4月分のグループディスクを設定してください。

2012.4.5 14:00 /data0ですが、まだサービスを開始できる状況にありません。現在は繰り返しfsckを行う事で、修復を続けております。

2012.4.5 10:00 /data0の開始が遅れており大変申し訳ございません。本日中に改めて状況を掲載いたします。

2012.4.4 15:30 現在グループディスクには、昨年度3月分と同等のquota値が設定されております。本運用が始まる4/6の朝頃まではこのままにいたしますので、本運用が始まるまでに適切なグループディスクの購入をお願いします。

2012.4.3 17:30 /data0の障害は原因が未だ不明で復旧に数日かかる可能性がございます。

2012.4.3 15:00 /data0に大きな障害が発生しており、4月3日14:00の運用再開に間に合わない可能性がございます。今後のアナウンスにご注意ください。

2012.3.27 9:00 年度末メンテナンスを開始しました。本日13:00から16:00の間のnestやホスティングが利用できません。

2012.3.15 11:30 /work0が復旧しました。詳細は後ほどお知らせに掲載します。

2012.3.15 10:30 復旧作業を開始ししております。

2012.3.15 10:00 現在情報を取得しております。取得が完了後復旧作業を開始します。

2012.3.15 8:55 /work0に障害が発生していることがわかり調査中です。

2012.3.12 20:00 19:30頃すべてのストレージは復旧いたしました。詳しくは明日掲載します。

2012.3.12 18:45 /data0は16:40に復旧しております。Lustre(/work0,/gscr0)の障害は引き続き復旧作業中です。

2012.3.12 16:35 Lustreファイルシステム(/work0,/gscr0)に障害があることがわかり復旧作業中です。これらの復旧に最低でもこれより3時間程度かかる予定です。

2012.3.12 16:35 /data0のマウントがまだ完了しておりません。

2012.3.12 14:55 Infiniband障害は14:08頃復旧し始めましたため、各種チェックを行っております。広範囲でディスクのマウントが外れてしまっている可能性があります。

2012.3.6 11:30 昨日実施の緊急メンテナンスは3/6 00:38に無事完了しサービスを再開いたしました。

2012.3.5 18:30 メンテナンスの終了のアナウンスは本日できない可能性がありますが、復旧次第アクセス可能となります。

2012.3.5 18:00 緊急メンテナンスについてこちらに掲載しました。

2012.3.5 17:50 本日20:00より/work0を停止して緊急メンテナンスを実施します。最大で24:00頃までかかる可能性があります。詳細は後ほど掲載します。

2012.3.5 16:30 /work0を構成するOST(ディスクの集合体)の一つにデータの不整合があることがわかりました。そのため/work0の再起動を検討しています。

2012.3.5 15:35 少なくともインタラクティブノードのいくつかのノードにおいて、/work0や/data0が正しくマウントできていない状況が発生しています。現在調査をしております。

2012.3.2 12:20 /work0に障害は11:40前に復旧しました。詳細はまとまり次第掲載します。

2012.3.2 10:28 /work0に障害が発生しています。影響範囲など詳細については調査中です。

2012.2.3 9:15  2.1に発生した障害は、/nest2, /home, /usr/app, /opt/bps, /gsic/system, 全学ストレージサービス, 教育用電子計算機システム,TSUBAMEホスティングサービス等に影響がありました。障害発生後フェイルオーバーが完了する数分間これらの領域への I/Oに影響がございました。

2012.2.2 18:30 2012.2.1 21:01に障害が発生した機器の交換作業の終了を確認しました。

2012.2.2 11:35 2012.2.1 21:01に一部機器に障害が発生したことを確認しました。障害発生時に一時的に一部のストレージにアクセスができない事象が発生した可能性があります。

2012.1.13 14:20 9日から11にかけて実施したOSSの各種アップデートにより、/work0は現在は比較的安定して稼動しております。皆様には引き続き/work0負荷軽減ご協力をお願いいたします。

2012.1.11 9:30 本日の深夜から明け方にかけて/work0に障害が発生しました。詳細は後ほど掲載いたします。

2012.1.10 9:30 週末に複数回に分けて/work0に障害が発生しました。詳細は後ほど掲載いたします。

2012.1.4 15:36 本日発生した/work0障害についてこちらに掲載しました。

2012.1.4 15:30 13:43頃、再度/work0に障害が発生して、14:23頃復旧いたしました。詳細はわかり次第お知らせに掲載します。

2012.1.4 14:00 3日に発生した/work0障害についてこちらに掲載しました。

2012.1.4 10:00 1月3日 4:35頃に/work0に障害が発生して、9:35頃に復旧いたしました。詳細はわかり次第お知らせに掲載します。

2011.12.26 13:30 キャンパスネットワーク障害は解消されました。(ネットワークシステム担当のアナウンス)
 
2011.12.26 10:00 キャンパスネットワークに障害が出ているため、一部のネットワークからは特に全学ストレージ(nest2へのWindowsファイル共有アクセス)が通信できない可能性があります。TSUBAME内の通信には影響ありません。
 
2011.12.15 18:00 12日に発生したwork障害についてはこちらに掲載しております。
 
2011.12.13 11:00 12月21日(水)に行われる/work0のメンテナンスについてこちらに掲載しました。(中止になりました)
 
2011.12.13 10:00 夜間に/work0障害がありました。詳細はまとまり次第掲載します。また、21日に予定されていたメンテナンスは中止になりました。
 
 
2011.12.7 11:00 現在も負荷が高い状態が続いております。
 
2011.12.6 15:00 /work0の負荷が高い状態が続いております。細かいI/Oが大量に行われるプログラムは、まとめてI/Oを行い回数が少なくなるよう修正してください。またローカルSSD(/scr)、共有スクラッチ(/gscr0)、gpfs領域(/data0)の利用もご検討ください。/work0の負荷はこちらで確認する事ができます。下に並ぶ4つのグラフの色が負荷状況(赤>黄>青)を表し、(now xx.xx)の数字が24.00を超えると高負荷状態と言えます。
 
2011.12.1 16:15 workの利用率が高いため応答が通常時より悪い時があります。故障ではないため引き続き監視の継続と、もし極端に高負荷を発生さるような様な利用者がいた場合は個別にご連絡させていただきます。

2011.12.1 10:30 ls等のコマンドの応答が悪いという報告を複数受けたため調査しております。

2011.11.10 17:05 7日に発生した/work0障害についてこちらに掲載しました。

2011.11.7 17:15 /work0の復旧は完了いたしました。詳細は後ほどご報告いたします。

2011.11.7 16:55 復旧は17:20頃を予定しております。 

2011.11.7 16:40 /work0が高負荷により障害が発生し、一部のファイルにアクセスできない状態となっており、復旧コマンドも受付なかったため、これよりファイルシステムの再起動を行います。その間/work0のアクセスができません。

2011.11.2 11:50 現在、負荷が高い状態が続いておりますが/work0は利用できます。ジョブの高負荷による障害の可能性が高いため、原因となるジョブの特定を急いでおります。

2011.11.2 10:35 /work0の再起動中はデータを読み書きする事が出来ません。

2011.11.2 10:20 /work0の早期復旧のため、これよりLustreファイルシステムの再起動を行います。影響については後ほどご報告します。

2011.11.2 8:30 夜間より/work0に障害が発生しております。調査と対応を行っています。

2011.10.14 17:50 16:00より実施しておりました部品の予防交換が先ほど終了しました。特に問題等は発生いたしませんでした。

2011.10.13 15:00 2011.9.16に発生した/work0の障害に伴い、部品の予防交換を10/14(金) 16:00より実施いたします。一時的にパフォーマンスへの影響がみられる可能性がありますが、運用への影響はありません。

2011.10.6 16:25 TSUBAME1データ移行用ノードもご利用できます。 

2011.10.5 17:00 予定より早く運用を再開いたしました。

2011.10.3 10:00 グランドチャレンジカテゴリAの実施のため/nest2以外、利用できません。

2011.9.27 9月16日に発生した/work0の障害報告をこちらに掲載しました。

2011.9.16 22:10 /work0障害は復旧しました。ご利用の皆様にはご迷惑をおかけして申し訳ありませんでした。

2011.9.16 20:00 /work0障害ですが、修理は完了しfsckによるデータのチェックを行っています。終わり次第、運用を再開します。詳細な障害報告は来週以降の掲載となります。

2011.9.16 19:05 /work0障害ですが、電源系のトラブルという事がわかり対応を行っています。順調に作業が進めば後1時間程度で復旧いたしますが、遅れる可能性もありますのでアナウンスにはご注意ください。

2011.9.16 18:55 /work0障害ですが、まだ復旧の目処が立っておりません。現在も復旧作業を行っております。

2011.9.16 17:20 /work0障害ですが、Lustreファイルシステムを構成するOSTと呼ばれるディスクの集合単位の一つに障害が出ています。標準の設定ではファイル単位でいずれかのOST上に保存されますので、障害対象のOST上に保存されているデータは現在読み書きする事が出来ません。引き続き復旧作業を行っています。

2011.9.2 10:00 昨日のTSUBAME1データ移行ノードにTSUBAME1のアカウントでログインした際に、work0にアクセスできない件は正しい動作である事が分かりました。これまで通りこちらの方法でご利用できます。

2011.9.1 16:00 TSUBAME1データ移行ノードにTSUBAME1のアカウントでログインした際に、work0にアクセスできない問題が発生しております。TSUBAME1のデータがあるwork1のアクセスはできるため、コピー先にはhomeやdata0、(localhostではなく)インタラクティブノードのwork0等を指定していただきますようお願いいたします。(間違いでした)

2011.8.29 15日の運用再開時より発生していた/data0障害は、1週間以上、障害が継続していたアナウンスをしておりましたが、実際には16日8:00頃に復旧し正常に利用が可能な状態となっておりました。これは、複数の障害、臨時休業、事前の確認不足などの要因により、スタッフ間の連携が正しく行われていなかったことによりところが大きく、確認等にとても時間がかかってしまい、大変なご迷惑をおかけすることとなりましたことをお詫びいたします。なお、障害復旧後に/data0のマウントが行われておりますので、/data0に対するすべての読み書きは正常におこなわれていたことをご報告いたします。

2011.8.25 15日より発生していた障害についての詳細については後日アナウンスさせていただきます。

夏季停電停止からの復帰後、テープライブラリ装置に故障が発生して/data0のテープ装置連動部分に問題があります。いくつかのノードで/data0がマウントされておりますが、/data0のGPFS領域(HDD側)にあるデータの読み書きはテープライブラリとの整合性が取れなくなる可能性が無いか再度確認をしていますので、アクセスはできるだけ避けていただきますようお願いいたします。(間違いでした)