過去のバッチキュー情報

2017.4.5 9:55 バッチキューが再開しました。

2017.3.29 15:30 24日に発生したU/Vキューを管理するPBSサーバに不具合をこちらに掲載しました。

2016.11.7 10:45 11/5(土)にXキューが開始できなかったことがわかりました。原因は11/4(金)に大量投入されたHキュージョブが翌日のXキュー準備時に処理しきれなかったためです。詳細についてはまとまり次第障害報告としてお知らせに掲載します。

2016.10.27 17:20 復旧しました。詳細な報告はまとまり次第お知らせに掲載します。

2016.10.27 16:50 障害が解消しU/Vキューの実行(R)制限の解除の準備を進めています。

2016.10.27 12:05 U/Vキュー(仮想マシン)からのストレージアクセスに問題がありたくさんのジョブが終了できないでいます。原因を調査中です。被害の拡大を防ぐためU/Vキューのジョブ実行開始(R状態への移行)を停止します。

2016.10.24 14:30 本日14:00頃より実施したメンテナンスにより、原因の可能性となっていた箇所を修正しました。これで問題が解消されるか経過観察を行います。まだ問題が発生するようでしたらお問い合わせフォームよりご報告いただけますようお願いします。

2016.10.21 17:05 最近、t2sub実行時に正しいTSUBAMEグループを指定しているのにもかかわらず「Warning: Your accounting group id XXX is not found」といったエラーが発生する場合があります。この場合、数分から数十分程度時間を空けて再度ジョブを投入してください。お知らせはこちら

2016.9.30 17:50   "TSUBAMEのより積極的な省電力運用について"を実現するソフトウェアの異常終了が発生したため、機器5台分の起動が間に合わず、本日(9/30)夜間のXキューの利用できる台数が5台減少します。 詳しくはこちら

2016.9.27 15:30 動的電力制御の不具合により本日(9/27)夜間のXキューのノード数が最大245台に制限されることがわかりました。ご迷惑をおかけして申し訳ございません。再発防止の仕組みはすでに適用済みです。

2016.9.15 14:00 予定より早く終了したためバッチキューの運用を再開しました。

2016.9.14 9:35 本日より全台を用いたグランドチャレンジが行われるため利用できません。

2016.9.8 18:50 明日09-09のスロットはグランドチャレンジがおこなわれます。詳しくはこちら

2016.8.22 17:00 "Supercon2016開催におけるHキュー利用について"の件の影響により、一般利用者が利用できるノード数が減少しています。

2016.8.19 9:30  WindowsキューSwの運用を再開しました。

2016.8.18 15:00 運用を再開しました。ただしSwキューがまだ利用できません。

2016.8.10 9:05 9:00より予定されたメンテナンスで利用できません。

2016.8.3 16:10 WindowsキューSw, Vwの運用を再開しました。

2016.8.3 15:30 WindowsキューSw, Vwの運用再開の目処は立っておりません。

2016.8.3 15:30 H/Xキューをサービスインしました。

2016.8.3 14:50 U/Vキューをサービスインしました。

2016.8.3 13:20 12:20頃、Gキューをサービスインしました。

2016.8.3 12:00 S, S96, L256, L512 のサービスを再開しました。

2016.8.2 16:45 本日中の復旧は困難な見込みです。

2016.8.2 9:00 本日発生した停電により障害が発生しております。

2016.7.7 14:40 本日電力事情が厳しいためアイドル状態のXキューの一部のノードt2a004[061-090]を緊急で17:00頃まで停止いたします。

2016.6.30 16:30 ピークシフト運用の構成変更の対象となるノードへのジョブのアサインを明日より停止いたします。

2016.6.8 10:20 本日予定されていたグランドチャレンジ予備実行が06-10に延期になりましたので本日はXキューとして開放します。

2016.6.7 12:05 運用再開を持って台数の減少していたL256ノードが8ノードに戻りました。

2016.6.7 11:40 準備が終わったため予定より前倒しで11:35に運用再開しました。

2016.6.3 9:35 予定されたメンテナンス中です。

2016.5.17 14:15 予定より早く作業が完了したためS96, L256, L512の運用を再開しました。ただし、L256はアナウンスの通り当分の間1台での運用となります。

2016.5.16 9:40 予定されていたメンテナンスによりS96, L256, L512が利用できません。

2016.4.19 13:30 グランドチャレンジの5月実施分は応募者がいなかったため中止となりました。

2016.4.11 10:35 S96/L256/L512が利用できるようになりました。

2016.4.5 19:40 Sw/Vwが再開しました。

2016.4.5 11:20 予定より早いですがS/G/V/U/Xの運用を再開しました。Sw/Vw/S96/L256/L512は準備中です。

2015.1.28 11:55 本日Xキューがただしく開始できていないことがわかり、先ほど修正が完了しました。

2015.11.02 11:45 利用できるノードの数が正常に戻りました。

2015.10.30 20:15 /work1,/gscr0を管理するMDS(メタデータサーバ)に問題があることが分かっておりますが復旧の目処が立っておりません。

2015.10.30 16:25 原因がLuster障害(/work0,/work1,/gscr0)の可能性があります。

2015.10.30 16:10 S, S96, Gキューのノードも減少しています。現在原因を調査中です。

2015.10.30 15:30 現在Vキューの台数が減少しています。現在原因を調査中です。

2015.10.9 10:35 本日2015-10-09 から 2015-10-15 の7スロットはグランドチャレンジ実施によりH/Xキューが利用できません。詳細はこちら

2015.10.5 10:00 "グランドチャレンジ実施に伴うサービスの停止について(2015秋)"の件の影響により、H/Xキューの利用ができません。

2015.10.2 14:20 全てのWindowsノードのサービスを再開しました。

2015.10.1 13:30 予定(17:00)より早く通常運用を再開しました。なおWindowsキューの一部はまだ準備中です。

2015.8.7 17:30 大岡山地区の電力逼迫のため停止していた、L128, L256, L512のノードはサービスインいたしました。

2015.8.7 14:35 大岡山地区の電力逼迫のため、L128, L256, L512のノードを停止いたします。17時にはサービスインの予定です。 

2015.7.1 9:50 ピークシフト運用を開始しました。

2015.6.26 16:20 時間を過ぎましたのでピークシフト対象ノードをOfflineにしました。詳しくはこちら

2015.6.25 10:30 7/1よりピークシフト運用を行うことを検討しております。7/1から開始のため、構成変更対象のノードへのジョブのアサインを明日6/26(金)16:00よりの停止します。ノード構成は昨年度と同等になるよう現在調整中ですが、正式に決まりましたら改めてこちらのページへ掲載いたします。

2015.6.5 10:30 本日06-05のスロットから06-10のスロットまでグランドチャレンジのためH/Xキューが利用できません。

2015.04.14 10:10 04-14はグランドチャレンジ予備実行のためH/Xキューは利用できません。

2015.4.6 14:30 Swキューのサービスを開始しました。これで全てのキューが開始されました。

2015.4.6 12:00 Swキュー以外のバッチキューの準備ができましたので解放します。

2015.4.3 16:00 バッチキューを解放しました。現在、グランドチャレンジ実施のためL系キューしか利用できません。

2015.3.23 11:00 03-23スロットよりHキューは利用できません。カレンダーはこちら

2015.2.20 10:45 Uキューの同時実行ジョブ数が緩和されておりますが(30->100)現在投入されているジョブによって/work1の負荷が高騰しているため、通常の30ジョブに制限させていただきます。関連リンク

2015.1.23 15:25 3月にLキューの計算ノード台数が一時的に減少します。詳しくはこちら

2015.3.3 14:40 以下のバッチノードは3/2 17:00頃に障害対応を終えました。

2015.3.2 9:45 バッチキューの計算ノード t2a000070(S), t2a000102(S), t2a000161(S), t2b010108(S96), t2a001141-vm1(V)で/work1にアクセスできない状態が続いています。これらのノードにはすでにジョブが入っているため、 offlineにしてジョブ終了後に対応します。

2014.12.19 17:50 Lusterのロック問題(T2KI-20141112A)のパッチ当てが全て完了し、ノード数も通常時に戻りました。

2014.12.19 16:30 年末年始および年度末におけるH/Xキューの運用についてお知らせに掲載しました。

2014.12.16 16:40 年末年始は昨年同様Hキューを停止する方向で調整しています。昨年度のアナウンスはこちら

2014.11.28 10:15 /work障害の再発防止のためのパッチ適用のため(T2KI-20141112A)Sキューのノードを1日最大60ノード程度ずつ停止して作業を行います。実行中のジョブには影響はありません。

2014.11.13 17:35 本日は見かけ上よりXキューのノードが大量に不足していることがわかりました(現在35台の運用)。修復するには実行中のジョブを削除しなければならなず実施できないため、復旧は明日のスロットからとなります。

2014.10.15 17:00 H/Xキューを用いたグランドチャレンジは無事終了し、通常運用に戻りました。

2014.10.8 14:10 H/Xキューはグランドチャレンジのため利用出来ません。

2014.10.1 10:30 ピークシフト運用から通常運用へ切り替えが完了しました。

2014.10.1 10:00 ピークシフト運用から通常運用へ戻すため一時的にH/Xキューが利用出来ません。

2014.9.26 15:00 全てのバッチキューがサービスインしました。

2014.9.26 13:30 L系、X, Vwキュー以外が利用出来るようになりました。

2014.9.26 12:00 Sキューが利用出来るようになりました。他のキューは準備ができ次第解放します。

2014.8.22 15:05 WindowsのVwキューが復旧しました。これですべてのキューが復旧しました。

2014.8.21 15:15 WindowsのSwキューが復旧しました。 

2014.8.15 16:25 Vキューも復旧しました。Windowsキューは復旧の目処がたっていません。

2014.8.15 16:00 Uキューが復旧しました。 

2014.8.15 14:00 現在、WindowsキューSw,Vwの復旧の目処がたっていません。U,Vキューは設定の見直しを行っているため利用出来ません。

2014.7.31 9:35 昨日30日20:15頃にInfinibandの2nd-railネットワークの一部に問題があり、約200ノードのXキューがピークシフトから復帰、利用開始できませんでした。

2014.7.22 11:20 H,Xキューが復旧しました。

2014.7.22 11:00 G,U,Vキューが復旧しました。

2014.7.22 10:30 現在、G,U,Vキューが利用出来ません。

2014.7.22 9:30 7月20日19時ごろに発生した停電の影響で、一部キューの利用ができなくなっています。

2014.7.10 9:15 昨日の夜間、ピークシフトノード起動に失敗し、たくさんのノードが利用出来ませんでした。原因は現在確認中です。多くの実行機会損失を発生させてしまい申し訳ありませんでした。

2014.7.1 11:20 11:00頃Xキューが復旧しました。

2014.7.1 10:20 Xキューが現在利用出来ません。対応中です。

2014.7.1 10:05 本日よりピークシフト運用を開始しました。

2014.6.27 15:45 ピークシフト運用のため、これよりS/G/V/Uキューのノードが減少します。詳しくはこちら

2014.6.12 グランドチャレンジの日程がさらに変更になりました。詳しくはこちら

2014.5.28 11:25 H/Xキューの一部のノードが接続さ れる2nd-railのInfinibandスイッチの1台が故障しているため、急ではありますが、明日Hキューを取りやめXキューのみとし、対象のノー ドを運用から切り離してスイッチの交換修理を行います。なお、現時点ではノード間通信に影響は出ていないため、現在の実行中のH/Xキューのジョブには影 響がありません。

2014.5.22 17:05 Uキューのジョブ同時実行数の制限を一時的に30から100に緩和しました。この機会にぜひUキューをゴリよください。

2014.3.20 10:30 夜中にH/Xキューのノードが大量にダウンした関係で、本日のXキューの台数が100台以上少なくなっています。

2014.2.17 13:30 2/16(17:25〜20:31)頃にS・Xキューのマシン135台(S:48台、X:87台)が強制的に再起動しました。原因となるジョブを実行している利用者に確認を取っています。

2014.2.10 10:20 障害が復旧しVキューの利用ができるようになりました。

2014.2.10 09:25 Vキューの利用ができない事象が発生していることを確認しました。現在対応中です。

2014.1.22 11:00 Gキューノードの1台、t2a002023にGPU障害の疑いがあり、Gキューのジョブの実行を妨げていた可能性があるため、キューから切り離しました。

2014.1.17 19:50 現在、G/Vの台数は通常通りです。障害の原因となったジョブも特定しました。

2014.1.17 10:15 本日早朝(4:00ごろ)にGキュー マシンのうち、約80ノードにてエラーによりリブートが発生いたしました。調査を進めておりますが、多くのマシンで、3:54に Out of memory が発生していることから、同時刻に動作していたジョブが原因である可能性が高いと考えられます。また、その影響からノードを共有しているVの台数も減少し ています。

2014.01.06 17:00 2014-01-06 11:06に"年末年始におけるSキューでの大規模ジョブ実行の制限について"の件の制限の解除を行いました。

2013.12.24 15:30 年末年始に対応がとれないため、大幅に稼働率が下がるような巨大なジョブをSキューに投入出来ないよう設定しました。詳しくはこちら

2013.12.12 17:00 年末年始および年度末メンテナンス前1週間はHキューを休止しXキューのみとなります。詳しくはこちら

2013.10.23 15:15 予約キュー 2013-10-25 のスロットは通常と異なるKernelを利用した実験を行うため、Cloud Service Utilization等のH/Xキューの表示が正しくされない場合があります。

2013.10.1 11:20 通所運用への構成変更が完了しました。

2013.10.1 10:10 ピークシフト運用から通常運用構成に切り替えています。ジョブ管理サーバ(PBS)間をまたぐようにノードを移動するため、一時的にジョブが投入できなかったりと、PBSの応答が悪くなる場合があります。

2013.9.24 13:50 通常サービス(ピークシフト)を再開しました。

2013.9.24 9:00 キューの再開状況は Cloud Service Utilization をご覧ください。

2013.9.19 9:00 全ノード負荷試験のため利用できません。

2013.9.19 15:45 性能測定終了後の9/24からGPU compute modeが変更になります。

2013.9.18 11:45 Xキューが土曜日のスロットより正し く稼働していない事が分かり修正しました。台数と日数が多いためかなりの機会損失となってしまい大変申し訳ありませんでした。原因は13日のジョブ管理 サーバの不調で待機系に切り替えた際にジョブIDが 05 から 06 に変わりましたが、Xキューの処理が適切に修正されていなかったためです。

2013.9.13 16:45 すべてのキューが再開しました。H/Xキューを管理するジョブ管理サーバが不調のため、現在、待機系のサーバに切り替えて運用しています。利用には特に影響はありませんが、ジョブIDが xxxxxxx.t2zpbs06 の様に 05 ではなく 06 となります。

2013.9.13 15:00 現在、まだ再開していないXキューとWindowsキューを作業中です。

2013.9.13 13:30 キューの稼働状況は Cloud Service Utilization をご覧ください。

2013.9.13 12:10 現在、L系キューのみ利用できます。その他のキューは準備ができ次第解放となります。

2013.9.11 11:10 現在、予定されていた性能測定のため、バッチキューを利用できません。

2013.9.11 11:00 /work1, /gscr0 にアクセスできなくなったことにより、7:30頃から11:21頃までに実行されたジョブが影響を受けた可能性があります。影響を受けた可能性があるジョブは以下の通りですこちら(9/11 移動しました)

2013.9.6 11:05 夏の停電・一斉休業のメンテナンス後にS系,L系キューを管理するジョブ管理サーバpbs01のメール送信機能が停止していた事が分かり、問題を修正しました。その結果、これまでたまっていたジョブ開始・終了メールが送信されましたのでご注意ください。

2013.8.30 11:20 すべての計算ノードのGPUの交換が完了しました。

2013.8.23 17:15 SwキューのGPU環境が古いままだった件はすべて解消されました。CUDA5.0ベースの物がインストールされています。次のように利用してください。 「call C:\apps\CUDA\5.0\cuda_env64.cmd」

2013.8.23 16:15 GPU交換期間中、休祝日のHキューは平日同様に178台とする予定でしたが、予定より早く作業が進んでいるため、明日から休祝日は420ノード利用できます。

2013.8.21 18:40 SwキューのCUDAやGPUドライバ古いままでサービスインしてしまった事が分かりました。ノードの利用状況を見ながら明日以降順次更新いたします。

2013.8.19 17:00 Swキューは16:00頃すべてのノードがサービスインしました。

2013.8.19 12:15 遅れているSwキューの再開ですが、本日中には再開できる見込みです。今後のアナウンスにご注意ください。

2013.8.16 17:30 G/VキューはGPU交換のためetオプションによる時間延長が出来ません。

2013.8.16 16:50 問題が発生しておりSwキューのサービス再開の目処が立っておりません。来週以降の再開となります。

2013.8.16 11:00 Swキュー以外のキューがサービスインしました。

2013.8.16 9:55 休業期間中にGPUの交換作業が順調に進み、S96キューの交換が前倒しで終了しました。そのためS96のet停止予定も取りやめになっております。現在の予定では3日早い、8月30日に作業が終了する予定です。詳しくは新しい予定表をご覧ください

2013.8.16 9:50 新しいGPUドライバ環境で不具合がある事がわかり、メンテナンス前の環境に戻しています。そのため10:00の時点ではインタラクティブノードの解放となり、キューは準備ができたものから順次解放します。

2013.8.16 9:25 Swキュー(Windowsキュー)のサービスインが遅れる予定です。

2013.8.8 15:40 PBSのバージョンアップを行うため、システム停止時にキューに投入されていたジョブはクリアされます。ご注意ください。

2013.8.2 15:55 アナウンスが遅くなりましたが、Sキューの一部でもK20Xが利用できるようになりました。ノード一覧はこちら。

2013.8.1 16:00 本日のGPU交換作業ですが、初日という事もあり遅れています。交換後、負荷試験を実施する時間が必要のため、本日サービスインする事が出来ません。明日からのサービスインとなります。

2013.8.1 14:20 お知らせに特定のノードを指定してジョブを実行する方法を掲載しました。K20X搭載ノードの取得方法は準備ができましたら掲載します。

2013.7.31 10:30 明日8月1日よりGPUを交換する関係で、Sキューの30台がオフラインとなります。オフラインのノードとは、新規にジョブが割当たらないように設定されたノードで、すで実行中のジョブはそのまま継続して実行されます。Cloud Utilizationでは台数が減少したように見えます。現在、etオプションを停止しているので最大で24時間走り続けるジョブが投入されています。なので電源を落とす24時間前にオフラインにして、ノード停止までにジョブが完了しない事が無いようにする必要があります。(例えば後6時間で停止するノードに24時間のジョブを割り当ててしまうと強制終了することになる)

2013.7.29 10:25 8月1日よりGPUを交換する関係で、Sキューのetオプション(時間延長オプション)が利用できません。詳しくはこちら

2013.7.12 9:00 本日も電力量逼迫のためノード停止を実施いたします。Xキューのノードを優先して停止いたします。 

2013.7.11 9:00 本日も電力量逼迫のためノード停止を実施いたします。予約が少ないためXキューを優先して停止いたします。

2013.7.10 10:20 今日も電力量が逼迫しているため、追加のノード停止を行いました。今日は予約が無いためXキューを優先して停止しています。

2013.7.9 17:50 現在、ノード台数はピークシフト時の通常台数に戻っています。

2013.7.9 11:30 これよりXキューを20ノード停止します。実行中のジョブには影響ありません。

2013.7.9 11:25 ピークシフト運用ですが、電力が逼迫した際の追加削減分について、合計台数はそのままにSキューではなくXキューを優先的に停止するように変更しました。なお実行中のジョブには影響が無いよう停止します。

2013.7.9 10:35 本日、電力量が逼迫しているため、あらかじめアナウンスした範囲でノードを停止します。実行中のジョブには影響はありません。まずはSキューを30台、L128を3台、L128Fを5台、L256を2台停止します。

2013.7.3 14:05 今日発生したXキューの開始失敗についてお知らせに掲載しました

2013.7.3 12:05 11:26に本日のスロットのXキューを200ノードで再開しましたが、今日は夜間に台数は増えず200台のままとなります。

2013.7.3 10:45 本日(07-02スロット)のXキューの開始に失敗しました。明日のスロット開始まで利用できない可能性があります。

2013.6.10 17:25 ラックの修理が終わり、G/Vキューが通常台数に戻りました。

2013.6.7 14:40 G/Vキューの計算ノードの一部(t2a003001-t2a003030の30ノード)が搭載されているラック1台に障害が発生したため6/10〜6/11に修理を行います。これらのノードは現在Offlineにしており、新規のジョブは割当てられません。

2013.4.30 13:30 サービスを再開しました。12:00のLustre停止の際に影響のあった可能性のあるジョブについては以下の通りです。

1159086[].t2zpbs01 1159276.t2zpbs01 1159277.t2zpbs01 4693.t2zpbs-vm1 6641[].t2zpbs-vm1
7747.t2zpbs-vm1 7813.t2zpbs-vm1 7913.t2zpbs-vm1 7946.t2zpbs-vm1 7947.t2zpbs-vm1
7948.t2zpbs-vm1 7949.t2zpbs-vm1 7950.t2zpbs-vm1 7951.t2zpbs-vm1 7952.t2zpbs-vm1
7960.t2zpbs-vm1 7961.t2zpbs-vm1 7967.t2zpbs-vm1 8018.t2zpbs-vm1 8027.t2zpbs-vm1
8037.t2zpbs-vm1 8089.t2zpbs-vm1 8090.t2zpbs-vm1 8091.t2zpbs-vm1 8092.t2zpbs-vm1
8093.t2zpbs-vm1 8094.t2zpbs-vm1 8095.t2zpbs-vm1 8096.t2zpbs-vm1 8097.t2zpbs-vm1
8098.t2zpbs-vm1 8099.t2zpbs-vm1 8100.t2zpbs-vm1 8101.t2zpbs-vm1 8102.t2zpbs-vm1
8103.t2zpbs-vm1 8104.t2zpbs-vm1 8105.t2zpbs-vm1 8106.t2zpbs-vm1 8107.t2zpbs-vm1
8108.t2zpbs-vm1 8109.t2zpbs-vm1 8110.t2zpbs-vm1 8111.t2zpbs-vm1 8112.t2zpbs-vm1
8113.t2zpbs-vm1 8114.t2zpbs-vm1 8115.t2zpbs-vm1 8116.t2zpbs-vm1 8117.t2zpbs-vm1
8118.t2zpbs-vm1 8119.t2zpbs-vm1 8120.t2zpbs-vm1 8121.t2zpbs-vm1 8122.t2zpbs-vm1
8123.t2zpbs-vm1 8124.t2zpbs-vm1 8125.t2zpbs-vm1 8127.t2zpbs-vm1 8132.t2zpbs-vm1
8134.t2zpbs-vm1 8135[].t2zpbs-vm1 8137.t2zpbs-vm1 8138.t2zpbs-vm1 8139.t2zpbs-vm1
8142.t2zpbs-vm1 8143.t2zpbs-vm1 8144.t2zpbs-vm1 8148.t2zpbs-vm1 8149.t2zpbs-vm1

2013.4.30 12:00 Infinibandのコアスイッチを再起動に伴いLustreを停止しています。現在実行中のジョブは異常終了する可能性があります。影響する可能性のあるジョブは後ほど掲載します。現在新規のジョブ投入を停止しています。

2013.4.30 9:00 4/28頃より発生したInfiniBand障害のため、一部のバッチキューが利用できなくなっております。現在状況を確認中です。

2013.4.19 14:30 本日のVキュー障害ですが 12:11 から 14:20 の間ジョブの投入や確認ができませんでした。実行中のジョブには影響はありません。

2013.4.19 14:15 Vキューにジョブが投入できないことがわかりました。現在調査をしています。

2013.4.18 17:05 本日Xキューは14:50頃開始しました。

2013.4.18 9:55 H/Xキューを利用したグランドチャレンジからの戻し作業の遅延のため、本日Xキューの開始が遅くなります。

2013.4.12 10:45 本日のVキュー障害ですが 10:08 から 10:26 の間ジョブの投入や確認ができませんでした。実行中のジョブには影響はありません。

2013.4.11 12:00 04-11から04-17のスロットはグランドチャレンジのため利用できません。

2013.4.12 10:35 Vキューは復旧しました。

2013.4.12 10:25 Vキューに障害が発生しています。現在調査中です。

2013.4.9 10:55 本日Xキューの開始に失敗し、40分ほど遅れました。

2013.4.5 11:00 通常運用に戻りました。

2013.3.14 17:25 グランドチャレンジ予備実行が行われる予定であった03-19のスロットに空きが出たため、Xキューとして解放します。

2013.3.13 12:20 Sキューに大規模(256ノード)ジョブがスケジュールされており、バックフィルできないノードに空きが発生しております。現在の対応を検討中です。早くジョブを実行したい場合は実行時間を短くして投入してください。(追記:13:15頃解消されました)

2013.3.12 9:50 昨日よりGキューのヘルスチェック間隔をさらに短くしました。(GPUチェック及び残留プロセスチェック:毎時0,15,30,45分)

2013.3.11 10:00 "TSUBAME2.0ネットワークパラメータの修正について"の件のメンテナンスを実施中です。

2013.3.8 10:45 試験的にGキューのヘルスチェック間隔 を短くしました。(GPUチェック:毎時15、45分、残留プロセスチェック:毎時10、40分頃にチェックされます)。現在のチェックの仕組みでは負荷が集中 するため頻度を上げられませんでしたが、仕組みを作り直してよりチェックを強化できるよう準備を進めております。(なお今回の変更は従来の仕組みから変更 はありません)。システムの主な自動チェック項目はこちら

2013.3.7 16:40 Vキューのある1ノードのディスク障害が発生していたため、このノードに割り当てられたジョブが実行されず保留(H)状態となっていました。現在はこのノードを切り離して問題は解消されています。

2013.3.6 15:35 2013-03-11のスロットでH キューの緊急のメンテナンスを行うことになったため、この日の予約は休日の2013-03-17に振替えます。そのため03-17のスロットはXキューが 利用できません。03-11のスロットはメンテナンス終了後も動作チェック等を行うためXキューとしても利用できません。

2013.2.19 11:10 メンテナンスは終了しました。

2013.2.19 10:30 予定通りメンテナンスを行っております。

2013.2.14 14:25 先週末より発生していたノードダウンですが、同様の問題が発生した場合自動で復旧する仕組みを作成しました。毎時45にチェック,復旧が行われます。

2013.2.13 17:00 ほぼ通常通りの台数に回復しました。

2013.2.13 10:55  Gキューも通常の台数に回復しております。Sキューが若干まだ減少したままです。

2013.2.12 17:15  原因が分からないため、今夜もノードが減少する可能性があります。また、ジョブが保留(H)状態になってしまった場合は手動でジョブを削除して、再投入をお願いします。

2013.2.12 14:50  Vキューの台数は11:00頃に通常時の台数に戻りました。Sキューはサービス標準の300ノードは上回っています。

2013.2.12 10:20 Vキューも約100台、Gキューも約40台減少しています。

2013.2.12 10:00 先週より発生しているスケジューラの不具合で、Sキューのノード数が100台近く減少していたため現在復旧を行っています。一部のノードはそのままの状態にし、スケジューラの開発元に調査を依頼しております。

2013.2.12 9:50 先週より発生しているスケジューラの不 具合で、Sキューの一部のジョブの状態が待機(H)となっています。利用者が意図的に待機(H)にしたジョブ(依存関係をつけてジョブ投入)以外は自動で は、待ち(Q)や実行(R)にならないため、該当ジョブを一度削除して再投入していただく必要があります。対象となる利用者の皆様にはこれから個別にご連 絡させていただきます。

2013.2.7 9:30 ユーザジョブによりPBSに障害が発生し、Sキューのノードが減少しております。原因の特定と復旧を進めております。(追記:ノード数は午後にはほぼ復旧しました。)

2013.2.5 13:40 2月19日(火) に一時的にジョブ投入や確認ができなくなります。またHキューは利用できません。詳しくはこちら

2013.2.1 14:35 Xキューの終了時刻が延長されます。詳しくはこちら

2013.1.24 11:20 S,L系キューで、ほとんど資源を利用しない大量のアレイジョブで資源を占有している利用者がいるため、投入方法を再検討するようこれより連絡させていただきます。

2013.1.24 11:20 Hキューの広範囲で他ユーザのプロセスが残っていてパフォーマンスが低下していることがわかっております。対象者には個別に連絡し、管理者側で他ユーザのプロセスの削除を行いたいと思います。こちらにありますように、Hキューは正しいプロセスか異常なプロセスか判断がつかないため自動での削除は行っておりません。他ユーザの残留プロセスが発生する理由は様々ですが、プログラム中でsegmentation faultでI/Oまわりのメモリを壊したり、MPIジョブを強制終了したりすると発生することがあります。IO待ち状態でkillできないことがあるためです。

2013.1.24 11:00 /home・システム領域のストレージの高負荷は解消されているため、反映が遅いされない場合がある問題も解消されております。

2013.1.23 12:00 ストレージの高負荷の影響でジョブ実行によるTSUBAMEポイントの消費が直ちに反映されない場合があります。ご注意ください。

2013.1.23 11:40 予約キューの初期化が失敗した理由ですが、ストレージの高負荷でTSUBAMEポータルのDBから必要な情報が取得できなかったためでした。10:00から11:00の間 R464652, R465546でジョブ実行とSSHログインができませんでした。

2013.1.23 10:45 少なくとも一部の予約キューの初期化に失敗していることがわかりました。現在復旧を行っています。

2013.1.23 9:45 下記の期間に Error: submit failed with error code = 32. が出ていた場合は再度ジョブ投入をお試しください。

2013.1.23 9:30  本日9:00頃から9:30頃にS系、L系、G、Vキューにジョブを投入することができませんでした。本日朝にG/Vキューだけではなく、S系、L系の キューを管理するt2zpbs01も遅延していることがわかり、本日9:00頃より、待機系に切り替える作業を開始しましたが、サービス復旧に時間がか かってしまいました。

2013.1.22 18:30 Vキューにおいてノードが空いているのに待ち(Q)ジョブが存在する状態は、基本的には処理が追いついていない状態です。購入量を超えて実行できなかったジョブが保留(H)となりとなりますが、こちらを確認すると、昨晩から大量のジョブが投入されており、12時間ほど前に処理が追いつかなくなっており、多くの待ち(Q)が発生し始めていることがわかります。

2013.1.22 18:00 Vキューの処理遅延が急に改善されてきたので、保留(H)ジョブの解除間隔を「1時間」に戻しました。毎時32分に解除が行われます。明日のメンテナンスは実施します。

2013.1.22 17:15 Vキューの処理遅延解消のため明日9:00頃にジョブ管理サーバt2zpbs03を再起動します。詳しくはお知らせをご覧ください。

2013.1.22 16:55 Vキューの負荷削減にご協力いただいておりますが、処理の遅延の原因がジョブ数だけではない可能性もあり、明日も状況が改善されない場合は、G/Vキューを管理するジョブ管理サーバt2zpbs03の再起動を検討させていただきます。今後のアナウンスにご注意ください。

2013.1.22 16:00 Vキューが空いているのに待たされる問題を解消するため、一時的に保留(H)ジョブの解除間隔を「30分1時間」から「3時間」とさせていただきます。(18:00修正:30分ではなく1時間)

2013.1.22 15:45  複数のジョブ数が多い利用者に待ち(Q)ジョブを減らしてもらうよう個別にご連絡しております。Vキューは仕組み上、極端に多いジョブ数を投入すると、 キュー全体のパフォーマンスが低下する問題がありますので、大変お手数ではありますが、購入数を大幅に上回る量のジョブで大量の待ち(Q)を作らないよ う、分割して投入していただきますようご協力お願いいたします。

2013.1.22 12:25 Vキューへのジョブ投入数が多いため処理が遅延しています。現在ノードが空いていてもすぐに実行されない場合があります。

2013.1.18 14:20 明確な障害は発見されませんでしたが、疑いのあるノードを2台切り離しました

2013.1.18 10:30 Gキューの一部のノードにGPU障害が発生している疑いがあるため調査中です。

 

2013.1.15 15:50 Gキューのt2a002018のGPUに問題があったため、このノードを切り離しました。

2013.1.15 15:20 Gキューの一部のノードにGPU障害が発生している疑いがあるため調査中です。

2013.1.11 10:25 現在、ノードは空いているのに待ち(Q)のジョブがあるのは、大きめなジョブが複数投入されているからです。t2stat -all -T によると13:17に128ノードのジョブが予定されているので、13:17までに終了するようなwalltime値でジョブを投入すると、隙間を埋めるようにジョブが先に実行されます。予定時刻はノードの障害や現在実行中のジョブがwalltime値より早く終了した場合に影響を受け前後します。walltimeはできるだけ短く設定してください。

2013.1.8 17:15 ノードの障害のため、Sキューの一部のジョブがホールド(H)状態になっていることがわかりました。S系のキューにおいて一度ホールド(H)状態になってしまったジョブはQやRに戻らず、削除後再投入する必要があります。問題のノードはすでにキューから外れております。何らかの理由で21回ジョブが失敗するとそのジョブはホールド(H)状態になりますが、実行順序に依存関係を持たせたジョブもホールド(H)状態となるため発見が遅れました。対象となる利用者にはこれより個別にご連絡させていただきます。

2012.12.25 9:50 予定されていたメンテナンスは8:50頃終了しました。

 

2012.12.19 14:45 12月25日(火)8:30から9:00にかけてG/Vキューのメンテナンスが行われます

2012.12.14 13:45 本日発生した予約キューが開始できない障害の保障のため、明日40ノード(+予備)がHキューとして利用されます。2012.11.1 15:30 お知らせに繁忙期におけるH/Xキューの運用について掲載しました。

 

2012.10.24 15:50 G/Vキューのジョブスケジューラが復旧しました。

2012.10.24 15:30 G/Vキューの負荷があがっているため、ジョブスケジューラの切り替えを行っています。一時的にこれらのキューへの操作が失敗したり、モニタリングが機能しない場合があります。

2012.10.23 11:30 メンテナンスが完了しました。

2012.10.23 8:45 予定通りジョブスケジューラのメンテナンスを実施します。

2012.10.19 16:50 Sキューの混雑緩和のため、普段保守や検証等で待機しているpoolノードから30ノードをSキューへ追加しました。

2012.10.19 11:50 10月23日に行われるジョブスケジューラのメンテナンスについてをお知らせに掲載しました。

2012.9.28 15:55 L128キューの台数が変更になります。詳しくはこちらをご覧ください。

2012.9.26 15:00 バッチキューを再開しました。グランドチャレンジ実施前に投入していたジョブはリランされます。

2012.9.26 14:20 節電運用から通常運用へ切り替え作業のため2012-10-01のH/Xキューは利用できません。

2012.9.24 09:00 グランドチャレンジ実施に伴うサービスの停止 のため、利用できません。

2012.9.12 12:15 こちらに障害情報を掲載しました。ライセンスサーバの障害によりH/Xキューの応答がありませんでした。

2012.9.12 9:15 負荷高騰のためライセンスサーバーを再起動しましたが、再起動後もPBS11が応答しないため、Xキューの利用とHキューでPBSを利用したバッチジョブの投入ができません。

2012.7.31 11:25 11:15頃、解消されました。

 

2012.7.31 9:55 ジョブの待ち時間が長いとお感じの皆様はこちらのお願いをご確認ください。

2012.7.31 9:50 256ノードジョブが16:15にスケジュールされているため、この時刻までよりwalltimeが長いジョブが実行されない状態が続いています。この利用者に他のキューへ移動してもらうよう連絡を取っております。このような状態でもジョブを実行したい場合はwalltimeを短く設定してください。

 

2012.7.9 11:40 2012.7.9 10:00に発生を確認した事象の対応を終えました。Xキューが利用できるようになりました。

2012.7.7 10:00 2012.7.6 20:00から、Xキューの利用ができない事象が発生していることを確認しました。現在対応中です。(11:40 訂正)

2012.7.5 11:45  Xキューの準備が遅れておりましたが11:28に再開しました。

2012.6.29 17:20 7/5(木)からのピークシフト運用 のため、7/2(月)9:00より削減対象となるG/Vキューのノードがdisableとなり、これらのノードへジョブがアサインされなくなります。実行 中のジョブには影響はありませんが、7/5(木)9:00までに終了しなかったジョブは強制終了されます。

2012.6.14 15:45 6月4日、6月5日に広範囲で異常な負荷の高騰が発生した件は、不調であったストレージの部品(SFPモジュール)を交換した事により収束したと思われます。現在、監視を続けております。

2012.6.14 15:40 先日Vキューのジョブが流れない件は混雑ではなく障害である事がわかりこちらに障害情報を掲載しました。ご報告が遅くなってしまい申し訳ございませんでした。 

2012.6.13 14:40 Vキューのジョブ数が多いため、バッチ管理サーバーの処理に遅れが出ております。そのためノードが空いていてもすぐにジョブが実行されない場合があります。(追記:障害でした)プレミアオプションで優先度を大きくすると流れやすくなります。

2012.6.8 9:30 本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動動するまで実行した分は課金されず、自動的に再実行されます。
511767.t2zpbs01, 511732.t2zpbs01, 511733.t2zpbs01, 511758.t2zpbs01, 511426.t2zpbs01, 511696.t2zpbs01, 510625.t2zpbs01, 511619.t2zpbs01, 511701.t2zpbs01

2012.6.5 14:00 追加で以下のジョブのノードを再起動しました。再起動動するまで実行した分は課金されず、自動的に再実行されます。

479300.t2zpbs01, 479304.t2zpbs01, 479850.t2zpbs01, 479852.t2zpbs01, 479862.t2zpbs01
479893.t2zpbs01, 480232.t2zpbs01, 480454.t2zpbs01, 480460.t2zpbs01, 480468.t2zpbs01
480470.t2zpbs01, 480472.t2zpbs01

2012.6.5 11:30 ノード高負荷対応でノードの台数が減少しています。

2012.6.5 10:20  本日朝の時点で次のジョブが高負荷のため正常に実行されていなかったため、対象のノードを再起動します。再起動動するまで実行した分は課金されず、自動的 に再実行されます。年度メンテ後にhomeに書き込むと高負荷になる問題と異なり、ノードからの情報取得の処理方法とストレージサーバとディスクの接続経 路上に問題があるとみて調査を行っています。

479863.t2zpbs01, 479863.t2zpbs01, 479867.t2zpbs01, 480141.t2zpbs01, 480142.t2zpbs01
480150.t2zpbs01, 480162.t2zpbs01, 480165.t2zpbs01, 480284.t2zpbs01, 480291.t2zpbs01
480338.t2zpbs01, 480348.t2zpbs01, 480417.t2zpbs01, 480458.t2zpbs01, 480464.t2zpbs01
480469.t2zpbs01, 480478.t2zpbs01, 480479.t2zpbs01, 480480.t2zpbs01

2012.6.4 17:30 負荷の上昇はかなり解消されました。rack_105-01 rack_105-02 rack_105-03 rack_105-4

2012.6.4 14:30 t2a004001からt2a0040100において異常な負荷の上昇があり調査中です。rack_105-01 rack_105-02 rack_105-03 rack_105-4

2012.6.4 10:00 本日朝の時点で次のジョブが高負荷のため正常に実行されていなかったため、対象のノードを再起動します。478610.t2zpbs01, 478751.t2zpbs01, 478752.t2zpbs01, 479567.t2zpbs01

2012.5.29 12:00 一部の予約においてノード数が足りていない事がわかり、調査と対応を実施中です。

2012.5.21 16:35 先ほどより発生していた処理の遅延が16:27に解消されました。引き続き調査と再発防止の検討をいたします。

2012.5.21 16:20 現在、G/Vキューを管理するpbs03の処理が遅延が発生し、t2sub等が失敗する可能性があります。調査を行っております。

2012.5.18 10:15 5/16に発生したG/Vキューのジョブスケジューラ(ジョブ管理サーバー)障害についてお知らせに掲載しました。

2012.5.18 9:20 本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動動するまで実行した分は課金されず、自動的に再実行されます。
470186.t2zpbs01/t2a000058

2012.5.11 10:40 /home にアクセスすると高負荷になる問題で、マウントパラメータの変更を行うため、キューのノードが一時的に減少する事があります。

2012.5.17 9:00 本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動動するまで実行した分は課金されず、自動的に再実行されます。
470266.t2zpbs01, 470269.t2zpbs01, 470186.t2zpbs01, 470185.t2zpbs01,
469712.t2zpbs01, 469736.t2zpbs01, 470023.t2zpbs01, 469737.t2zpbs01

2012.5.16 10:30 本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動動するまで実行した分は課金されず、自動的に再実行されます。
469608.t2zpbs01, 469739.t2zpbs01, 469695.t2zpbs01, 469697.t2zpbs01, 469749.t2zpbs01, 469710.t2zpbs01, 469713.t2zpbs01, 469708.t2zpbs01

2012.5.15 9:40 本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動動するまで実行した分は課金されず、自動的に再実行されます。
469011.t2zpbs01, 1302835.t2zpbs01, 469304.t2zpbs01

2012.5.14 13:30  本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動動するまで実行した分は課金されず、自動的に再実行されます。
468689.t2zpbs01, 468180.t2zpbs01, 468880.t2zpbs01, 468686.t2zpbs01, 467517.t2zpbs01, 468726.t2zpbs01,
468943.t2zpbs01, 468914.t2zpbs01, 468684.t2zpbs01, 468725.t2zpbs01, 468845.t2zpbs01, 468494.t2zpbs01,
468989.t2zpbs01, 468005.t2zpbs01

また、1301730.t2zpbs0, 1302345.t2zpbs0, 1302505.t2zpbs0, 1302506.t2zpbs0 については、もう片方のG又はVのジョブが終了しだい再起動されます。

2012.5.11 9:25  本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動動するまで実行した分は課金されず、自動的に再実行されます。
1300326.t2zpbs0, 467725.t2zpbs01, 467600.t2zpbs01, 467480.t2zpbs01, 467229.t2zpbs01,
467599.t2zpbs01, 467530.t2zpbs01, 467517.t2zpbs01, 467626.t2zpbs01

2012.5.10 14:40  本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。
466957.t2zpbs01, 467278.t2zpbs01, 467052.t2zpbs01, 467055.t2zpbs01, 467054.t2zpbs01,
467071.t2zpbs01, 467116.t2zpbs01, 467115.t2zpbs01, 466554.t2zpbs01, 466231.t2zpbs01,
467230.t2zpbs01, 467211.t2zpbs01, 467036.t2zpbs01, 466446.t2zpbs01, 465760.t2zpbs01,
466069.t2zpbs01, 466982.t2zpbs01, 466444.t2zpbs01, 466504.t2zpbs01

2012.5.9 10:30  本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。 466233.t2zpbs01,466589.t2zpbs01,466152.t2zpbs01,466509.t2zpbs01,466507.t2zpbs01 ,466551.t2zpbs01,466552.t2zpbs01,466820.t2zpbs01,466237.t2zpbs01,466690.t2zpbs01, 466834.t2zpbs01,466556.t2zpbs01,466069.t2zpbs01,465760.t2zpbs01

2012.5.8 14:50  本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。 466414.t2zpbs01, 466415.t2zpbs01, 466236.t2zpbs01, 466421.t2zpbs01, 466158.t2zpbs01, 466152.t2zpbs01, 466161.t2zpbs01, 466309.t2zpbs01, 465760.t2zpbs01

2012.5.7 9:50  本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。 464637.t2zpbs01, 464639.t2zpbs01, 465111.t2zpbs01, 466044.t2zpbs01, 466019.t2zpbs01, 465649.t2zpbs01, 464681.t2zpbs01, 464512.t2zpbs01, 465010.t2zpbs01, 464508.t2zpbs01, 464510.t2zpbs01, 464987.t2zpbs01, 464986.t2zpbs01, 464880.t2zpbs01, 465133.t2zpbs01, 465192.t2zpbs01, 465195.t2zpbs01, 464190.t2zpbs01, 465013.t2zpbs01, 465274.t2zpbs01, 464493.t2zpbs01, 464489.t2zpbs01, 464380.t2zpbs01

2012.5.2 9:30  本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。 464190.t2zpbs01, 464380.t2zpbs01, 464511.t2zpbs01, 464529.t2zpbs01, 464508.t2zpbs01

2012.5.1 10:00 本日朝、次の計算ノードがハングアップ していたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。463665.t2zpbs01, 463806.t2zpbs01, 463662.t2zpbs01, 462235.t2zpbs01, 463679.t2zpbs01, 463681.t2zpbs01
463753.t2zpbs01, 463657.t2zpbs01, 463876.t2zpbs01, 463870.t2zpbs01, 463871.t2zpbs01, 463885.t2zpbs01
464186.t2zpbs01, 463775.t2zpbs01, 463027.t2zpbs01, 463774.t2zpbs01, 463028.t2zpbs01, 464190.t2zpbs01

2012.4.27 10:30  本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。162667.t2zpbs05, 462235.t2zpbs01

2012.4.26 10:45  本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。

462899.t2zpbs01, 462901.t2zpbs01, 462235.t2zpbs01, 462922.t2zpbs01, 462923.t2zpbs01, 462900.t2zpbs01 462921.t2zpbs01 , 462920.t2zpbs01, 463003.t2zpbs01, 462234.t2zpbs01, 462736.t2zpbs01 

2012.4.25 10:40  本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。461737.t2zpbs01, 461709.t2zpbs01

2012.4.23 10:45  本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。 460520.t2zpbs01, 460521.t2zpbs01, 460564.t2zpbs01, 460505.t2zpbs01, 460527.t2zpbs01, 461028.t2zpbs01

2012.4.20 9:20 本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。460279.t2zpbs01, 459822.t2zpbs01, 459823.t2zpbs01

2012.4.19 17:00 本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。1275196.t2zpbs01, 458973.t2zpbs01

2012.4.18 10:20 本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。458681.t2zpbs01, 458682.t2zpbs01, 458750.t2zpbs01

2012.4.17 18:00 Cloud Service Utilization も復旧しました。

2012.4.17 17:10 G/Vキューを管理しているジョブ管理サーバをフェイルオーバーさせ、現在待機系で運用を再開しております。実行中のジョブには影響はございません。自動でフェイルオーバーしなかった原因は調査中です。詳しい情報はわかりましたら掲載します。

2012.4.17 17:00 現在、G/Vキューを管理しているジョブ管理サーバに障害が発生しているめ、G/Vキューへのジョブ投入や、t2stat、その他の関連する表示に問題が発生しております。

2012.4.17 9:50  本日朝、次の計算ノードがハングアップしていたため再起動を行いました。再起動するまで実行した分は課金されず、自動的に再実行されます。 458261.t2zpbs01, 458263.t2zpbs01, 457957.t2zpbs01, 457959.t2zpbs01, 458215.t2zpbs01, 458208.t2zpbs01

2012.4.13 11:05 本日朝、以下のジョブが高負荷でハングアップしていたため、ノードを再起動させていただきました。再起動するまで実行した分は課金されず、自動的に再実行される予定です。

160092.t2zpbs05, 457609.t2zpbs01, 457474.t2zpbs01, 457476.t2zpbs01,457498.t2zpbs01, 457978.t2zpbs01
, 457535.t2zpbs01, 160121.t2zpbs05

2012.4.13 11:05  計算にホームディレクトリを利用した事により、ノードの負荷が高騰して正常に処理が進んでいないと思われる9個のSキュージョブを削除させていただきま す。対象利用者には個別に連絡を差し上げました。特に細かいI/Oを大量に発生させるジョブは/homeを使わず、 /work0,work1,gscr0,scr0をご利用ください。

2012.4.6 17:30 Xキューは明日のスロット時から利用可能です。

2012.4.6 17:00 通常運用に戻りました。

2012.3.27 9:00 年度末メンテナンスを開始しました。4月3日 14:00から一部キューを、4月6日 17:00よりほとんどのキューを再開予定です。

2012.3.15 10:30 H/Xキューにおいて9:45から10:01の間PBSを用いたジョブ実行ができませんでした。現在、R156712キューが利用できません。

2012.3.15 10:00 H/Xキューを管理するPBS05に障害が発生してH/Xキューが利用できません。

2012.3.12 20:00 19:30頃ストレージが復旧したため、バッチキューが復旧しました。一部の予約(R156017キュー)は利用できません。

2012.3.12 18:30 本日発生した障害によって影響のあったすべてのHキュー予約についてTSUBAMEポイント返却による補償を行います。

2012.3.12 18:10 Vキューは利用できるようになりましたが、/work0が利用できません。H/Xキューにデータベースが破損して一部の予約を開始できないことがわかりました。

2012.3.12 17:10 /gscr0障害のためQのまま開始できません。

2012.3.12 14:55 Infiniband障害は14:08頃復旧し始めたため、各種チェックを行っております。

2012.3.12 9:00 S系、L系を管理するジョブ管理サーバー(PBS01)に何らかの問題が発生し、現在待機系のPBS02で処理を継続しております。ジョブの投入などには影響がないと思われます。

2012.2.21 10:35 昨日発生したいくつかのノードの負荷高騰について調査を続けています。

2012.2.17 16:20 本日発生したG/Vキュー障害についてこちらに掲載しました。

2012.2.17 14:00 pbs04にフェイルオーバーされなかったので、pbs03の再起動によって13:55頃G/Vキューは復旧しました。詳細は後ほど掲載いたします。

2012.2.17 13:35 G/Vキューを管理するPBS03の操作が出来ませんので、これよりpbs03を強制的に再起動して、pbs04にフェイルオーバーさせます。

2012.2.17 13:15 G/Vキューを管理するPBS03の応答がありません。原因はまだわかっていませんが、高負荷による物と推測しております。現在、G/Vキューへの新規ジョブ投入、ジョブの確認、t2stat、Cloud Utiliazation 等の表示に影響が出ております。

2012.2.15 10:00 G/Vキューの台数が減少していた件はほぼ解消されました。

2012.2.13 17:15  土日にかけてGキューの100台以上の多くのノードが高負荷状態となり、正常に稼動していない状態が続いていたため、本日朝より該当ノードを再起動を実施 しております。ただし、ノードによってはGと同じノードで稼動するVキューの仮想マシンに影響が出てしまうので、該当ノードはVキューのジョブが終了する のを待ってからの実施となります。これらのノードに新規にジョブが割りあたらないよう設定しているため、G/Vキューが100台程台数が少なくなっており ます。

2012.2.13 10:30 Xキューも運用を再開しました。

2012.2.13 10:00 Hキューは問題なくサービスンインしました。Xキューの開始が遅れています。

2012.2.13 9:45 Hキューにおいて負荷が高騰して操作を受け付けないノードが複数あるため、本日のH/Xキューの開始が遅れる可能性があります。現在対象ノードのリブートにて対応中です。

2012.2.7 10:45 Xキューが復旧しました。

2012.2.7 10:35 再度pbs05が停止しました。Xキュー及び本日開始のHキューが利用できません。

2012.2.7 10:30 Xキュー及び一部のHキューは復旧しましたが、まだ一部のHキューに問題があります。

2012.2.7 10:00 昨日同様10:00にジョブ管理サーバpbs05がクラッシュし、H/Xキューを開始する事が出来ませんでした。現在復旧作業中です。

2012.2.6 17:00 一部の利用者について、Hキュー利用の際に、ジョブの状態が"H"(保留状態)になったままになる事象が発生することを確認しました。原因の調査と再発を防ぐための対応を行っています。再発を防ぐために原因の調査を行っています。(2012.2.23 誤解する可能性のある表現を訂正)

2012.2.6 11:00 本日10:00にジョブ管理サーバpbs05がクラッシュし、H/Xキューを開始する事が出来ませんでした。10:23に復旧し、現在は利用できます。

2012.2.1 17:50 障害の出ていたG,Vキューのノードの再起動は17:15頃、終了しました。

2012.2.1 16:30 G,Vキューで高負荷で障害が発生しているノードについて、復旧しそうにないためこれより再起動を行います。詳細は後ほど掲載します。

2012.2.1 12:05 Xキューも再開しました。

2012.2.1 11:30 Hキューの問題は解消されましたが、Xキューはまだ利用できません。またG,Vノードに多数障害が出ています。

2012.2.1 9:40 H/Xキューのノードに障害が発生し、10:00の開始が遅れる可能性があります。

2012.1.31 18:30 H/Xキューの不具合は16:10頃解消されました。詳細は後日掲載します。

2012.1.31 11:50 先日同様、H/Xキューを管理するpbs05に問題があり調査中です。H/Xキューにジョブを投入できない場合があります。Sキューにジョブを投入する際にXキューに転送されてしまう場合はwalltimeに24:00等を設定すると回避する事ができます。

2012.1.26 12:00 H/Xキューを管理するpbs05に問題がありましたが、フェイルオーバーと再起動を行う事で復旧しました。機器の故障ではなくPBSのバグの可能性があるため提供元に確認中です。

2012.1.4 10:00 年末年始にかけてHキューに複数の障害が発生しました。現在状況を確認中です。

2011.12.27 17:40 12月22日以降のHキューのしくみについて記載しました。

2011.12.26 13:30 キャンパスネットワーク障害は解消されました。(ネットワークシステム担当のアナウンス)

2011.12.26 10:00 キャンパスネットワークに障害が出ておりますが、TSUBAME内で通信が閉じているバッチサービスには影響はないと思われます。

2011.12.21 14:30 H/Xキューのメンテナンスの関係でTSUBAME 2.0 Cloud Service Utilization の表示がおかしい場合があります。

2011.12.21 10:00 予定通りH/Xキューのメンテナンスを行っておりますので、H/Xキューは利用できません。詳しくはこちら

2011.12.16 17:15 旧予約の設定削除処理が未完のため、断続的に,H/X への t2sub や
t2stat, Cloud Service Utilization によるPBS の状態確認ができなくなっております。
復帰しました(2011.12.16 18:05)

2011.12.16 09:50  H/Xキューの開始が遅れております。確保が完了するまで、既に確保済みのHキューへqsubを行う事が出来ませんのでご注意ください。確保完了しました。(2011.12.16 15:15)

2011.12.9 18:20 H/Xキューにおけるノード確保の問題のため、スロット切り替え直後(9:00以降)にすぐに利用できないことがあります。確保が完了するまで全てのHキューでqsub等の実行が出来ませんのでご注意ください。

2011.12.7 18:00 H/Xキューの大幅な改修を行うため、12月21日はH/Xキューを利用できません。詳しくはこちら

2011.12.7 10:10 新しいノード確保方法においても遅延が発生しており、H/Xキューの開始が遅れております。確保が完了するまで、既に確保済みのHキューへqsubを行う事が出来ませんのでご注意ください。

2011.12.7 14:45 H/Xキューのサービスを再開致しました。

2011.12.7 14:30 H/Xキューですが再開の目処がたっておりません。

2011.12.7 11:00 現在も、H/Xキューの開始が遅れております。

2011.12.2 13:00 土日のHキューですが、引き続き検証する項目があるため、当初の予定通りXキューのみの運用とさせていただきます。アナウンスをアップデートいたしました。

2011.12.2 11:30 予定では本日はXキューが利用できない予定でしたが、現在、400台程度利用できます。

2011.11.30 11:00 障害が出ていたL512ノードはサービスを再開いたしました。

2011.11.30 10:20 障害が出ているL512ノードですが、特に問題が発生しなければ本日中に復帰できる予定です。

2011.11.28 20:30 H/Xキューの状況についてこちらに掲載しました。また、緊急メンテナンスを実施いたします

2011.11.28 19:00 H/Xキューのノード確保に問題があり、スロット切り替え直後(10:00~)にすぐに利用できないことがあります。詳細はまとまり次第掲載いたします。

2011.11.28 12:00 Xキューの台数が通常台数へもどりました。

2011.11.28 10:45 Xキューの台数が減少しております。現在対処中です。

2011.11.17 17:05 G/V/Xキューのメンテナンスはすべて終了しました。

2011.11.17 17:00 G/Vキューですが、実行中のジョブだけでなく、待ち状態のジョブも復元する事ができました。終了済みの過去の情報は破棄されました。間もなくサービスを再開できる予定です。

2011.11.17 16:15 G/Vキューですが、バッチ処理サーバーと数十万件のジョブ情報が保存されているNFSサーバー間の通信がボトルネックになっている事が分かり、現在のペースではすべてのジョブ情報(これには過去1ヶ月分の情報を含む)を引き継ぐのにまだ何時間もかかる事が分かったため作業を停止し、メンテナンス開始時に実行中であったジョブ情報を残して待ち状態及び過去の情報をすべて破棄する事でサービスの再開を急ぐ事にいたしました。これにより、処理時間の大幅な短縮が見込まれます。なお、課金情報は別に持っているためこちらは影響はありません。実行待ちのジョブ情報が引き継げず皆様にはご迷惑をおかけいたしますが、どうかご理解をお願いいたします。(訂正:待ち状態ジョブも引き継ぎできました)

2011.11.17 14:15 メンテナンスを行っていたXキューのノードはほぼ復帰しております。

2011.11.17 12:00 G/Vキューの移行処理が予想以上に時間がかかっており、再開の目処がたっておりません。ご迷惑をおかけして申し訳ございません。

2011.11.17 11:05 G/Vキューのジョブの量が多かったため、再開までもうしばらく時間がかかります。

2011.11.17 10:00 G/V/Xキューのメンテナンス中です。

2011.11.16 17:10 明日10:00よりXキューのメンテナンスも行われますのでご注意ください。

2011.11.16 17:00 明日はG/Vキューのメンテナンスが行われますのでご注意ください。

2011.11.16 17:00 現在L512は通常台数です。

2011.11.16 10:45 現在L256は通常台数です。

2011.11.15 14:45 L256 1台,L512 1台の通信に問題がキューから外して対応中です

2011.11.14 17:20 S系キューのジョブ管理サーバーの障害報告を掲載しました。

2011.11.14 15:45 S系キュー(S,S96,L128,L128F,L256,L512)のジョブ管理サーバーの障害は復旧いたしました。

2011.11.14 15:10 原因となるノードの切り離しは完了しましたが、復旧にはもうしばらく時間がかかりそうです。 

2011.11.14 14:55 S系キュー(S,S96,L128,L128F,L256,L512)のジョブ管理サーバーに特定のノードから大量の要求が行われており、応答がなくなっております。問題を引き起こしているノードの切り離し作業を行っております。

2011.11.11 14:55 Sキューの利用率が上がっております。ぜひXキューの利用もご検討ください。 

2011.11.11 13:30 H/Xキューが減少している状態はほぼ解消されました。 

2011.11.11 11:35 H/Xキューのノードが起動しない問題で、復旧にはシャーシ単位(4ノード)で電力供給を一時的に断つ必要があるため、実行中のジョブに影響のない範囲で、一部稼働中のノードをサービスから切り離し、復旧作業後順次サービスを再開いたします。

2011.11.11 11:20 H/Xキューの複数のノードでリブート後ノードそのものが起動しない問題が発生しており、台数が減少しております。(現在420->345ノード)

2011.11.7 15:15 Sキューの大規模ジョブによる問題は現在は解消されております。

2011.11.7 13:15 現在Sキューに大規模ジョブがスケジュールされており、walltimeの大きなジョブの実行がされにくくなっております。このような状況下でも効率よくジョブを実行するためにはこちらをご覧いただきますようお願いいたします。大規模並列のジョブ(例えば100ノード以上)はHキューを利用するか、walltimeを小さくしてXキューで実行していただきますようお願いいたします。

2011.11.2 17:30 G/Vキューのメンテナンスについてこちらに掲載いたしました。

2011.11.2 15:00 Vキューにおいて1つのアレイジョブのサイズを、購入しているCPU数以下程度にすると負荷を大幅に減らす事が可能です。

2011.10.31 11:15 週末頃よりVキューが混雑によるジョブ管理サーバの高負荷のため、ノードが空いていても実行されにくくなっております。またその影響によりGキューも実行されにくくなる可能性があります。一度に投入するジョブ数を減らす(100?500程度)、また間隔を空けて投入(前に投入したジョブが終わりそうになったら等)していただきますようお願いいたします。

2011.10.26 16:00 Sキューのジョブが実行されにくいため20ノード追加しておりましたが、解消されましたので元通り300ノードに戻しました。

2011.10.26 10:30 Hキューノードのメンテナンスで使用できなかったXキューは本日 10:30 にサービスを再開しました。

2011.10.25 17:30 Sキューのジョブが実行されにくい状態は、20ノードを追加したところで解消されました。本日はこのまま様子を見る予定です。 

2011.10.25 17:00 現在、Sキューのジョブが実行されにくくなっています。とても大きなジョブがスケジュールされているのが原因で、そのジョブの開始時刻までにジョブが完了しないwalltimeを指定したジョブは実行されない状態となっております。詳しくはこちらをご覧ください。現在、緊急でSキューに50ノード程度の追加作業を行っております。

2011.10.25 11:20 現在、予定通りHキューノードのメンテナンスを行っております。その間Xキューも利用できません。終了次第Xキューを再開します。

2011.10.20 17:25 予約キュー(Hキュー)の計算ノードのBIOSアップデートを行うため10月25日(火)の予約は出来ません。このアップデートにより特にGPU周りの安定性が向上する予定です。

2011.10.13 14:30 G,Vキューのノードが長期間大幅に減少しておりましたが、ほぼ正常通りの台数まで回復いたしました。ご迷惑をおかけして申し訳ございませんでした。

2011.10.12 14:45 お知らせにG, V キューのジョブ情報詳細表示の不備についてを掲載しました。

2011.10.11 17:00 先週より水冷ラックシステムの水の循環に問題があり、修理を続けておりましたが、先ほどすべて修理が完了しました。これまで修理が完了したラックから順次Vキューへ追加しておりますが、先日起きたジョブ管理サーバーの障害の再発防止のため、引き続き挙動を確認しながら少しずつ追加いたします。

2011.10.11 15:30 Windowsキュー(Sw,Vw)はそれぞれ、36台(通常時40台),7台(通常時8台)まで再開しました。

2011.10.6 17:00 Windowsキュー(Sw,Vw)はそれぞれ、3台,12台で運用を再開いたしました。通常台数へ戻るのは後日となります。

2011.10.6 14:30 G/Vキューが復旧しました。様子をみながら台数を増やします。

2011.10.6 13:50 再度ジョブ管理サーバーに障害が発生し、G/Vキュへのジョブの投入やt2stat等の動作やCloud Service Utilizationに影響が出ております。実行中のジョブには影響ありません。

2011.10.6 11:35 Gキューも復旧しましたが、30ノードからのスタートです。

2011.10.6 11:00 Xキューが復旧しました。

2011.10.6 10:00 G/Xキューを管理するジョブ管理サーバーに何らかの障害が発生しております。G/Xキューへのジョブの投入やt2stat等の動作やCloud Service Utilizationに影響が出ております。現在調査中です。

2011.10.5 17:00 予定より早く運用を再開いたしました。ただし一部のノード、Windowsキューは準備が出来次第の運用再開となります。Hキューは10/7(金)のスロットより利用できます。

2011.10.3 10:00 グランドチャレンジカテゴリAの実施のため利用できません。10/6(木)17:00頃から準備ができたキューより順次再開予定ですが、膨大な作業項目に対して限られた時間しか取れないため再開が遅れてしまう可能性があります。

2011.10.2 10:40 ジョブがホールドされる現象が再度発生しております。

2011.9.30 19:50 Sキューに投入されたジョブがホールドされる障害は解消されました。順次、ホールドされたジョブを戻しております。

2011.9.30 19:30 Sキューにおけるジョブのホールドが再発しました。現在、障害対策中です。ご利用中の皆様には大変ご迷惑をおかけ致しますが、再開まで今しばらくお待ちください。

2011.9.30 19:00  障害によりによりSキューに投入されたジョブがホールド(Hの状態)されておりました。

2011.9.29 14:35 グランドチャレンジのカテゴリB実施中は最大G=280,V=240,Vw=40台です。

2011.9.26 9:00 Yキューの終了についてでお知らせしたとおり、Yキューの運用を終了し、グランドチャレンジのためH,Xキューのサービスを休止します。

2011.9.23 11:50 9月26日にYキューの運用が終了します。詳しくはこちら

2011.9.21 21:50 障害とノードの動的追加を行うpoolノードのハードウエアメンテナンスが重なりG,V,Yキューサービス台数が大幅に減少しております。明日以降順次復旧する予定です。ご報告が遅くなり申し訳ありませんでした。

2011.9.16 9:15 Windowsキューは通常通り運用をしております。

2011.9.15 18:05 Windowsキューを構成するハードウエアメンテナンスのためWindowsキューが減少しておりましたが、作業が完了し順次サービスを再開しております。

2011.9.15 10:40 H/Xキューのソフトウエアメンテナンスは、スロットの間の時間帯での作業で予定より早く終了したため、10:00頃にXキューの利用を再開しました。

2011.9.14 11:10 9月15日の10:00?午前中頃はソフトウエアメンテナンスを行うためXキューが利用できません。

2011.9.14 11:00 Windowsキューのハードウエアメンテナンスを行うため、9月14日から9月15日にかけて2回、数時間程度ずつ運用台数が減少する事があります。実施直前のアナウンスとなり大変申し訳ございませんでした。

2011.9.13 10:30 10:00頃より実施していたG/Vキューの待機系への切り替え作業は完了し、現在正常に稼動しております。

2011.9.13 9:53 G/Vキューのジョブ管理サーバー(ジョブスケジューラ)に問題があり、冗長化されている待機系への切り替えを実施します。その間30分から1時間程度、Cloud Service Utilizatioの表示がおかしいかったり、t2subでGまたはVキューにジョブを投入できなかったりする事があります。

2011.9.12 16:45 キューから外されてしまった計算ノードでは、常駐しているはずのジョブ管理システムのデーモンが停止していることがわかりました。管理デーモンを再起動することで症状が回復しているため、現在他のノードも同様に対応しております。 

2011.9.9 12:00 障害は復旧いたしました。

2011.9.9 11:15 PBSの障害により、新規ジョブの投入およびt2statコマンドでのジョブの確認ができません。現在対応中です。実行中および投入済みのジョブへの影響はないと思われます。

2011.9.2 12:15 昨日より発生したSキューの障害の報告をこちらこちらに掲載しました。

2011.9.2 10:20 Sキューの障害は復旧いたしました。

2011.9.2 09:50 Sキューに再度障害が出ています。Sキューへのジョブ投入が出来ず、t2statコマンドの表示に問題があります。現在対応中です。実行中のジョブには影響が無いと思われます。  

2011.9.1 17:20 Sキューの障害は復旧いたしました。

2011.9.1 17:00 Sキューに障害が出ています。Sキューへのジョブ投入が出来ず、t2statコマンドの表示に問題があります。現在対応中です。実行中のジョブには影響が無いと思われます。

2011.8.30 15:15 昨日発生したネットワーク障害によりジョブに影響がでた可能性があります。詳しくはこちら

2011.8.23 Xキューは8月23日18:00頃サービスインしました。Hキューは8月22日のスロット分から利用可能です。

2011.8.15 各キューの稼動状況においてHキューの利用台数が8月22日の再開時より表示されない障害が発生中です。 2011-08-26 12:00頃 解消されました。

2011.7.15 Vキュージョブが実行されにくい件についてはこちら。