このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

過去のログイン(インタラクティブ)情報

2017.8.16 18:15 運用再開しました。

2017.4.4 16:15 インタラクティブノード及びI/O専用ノードの利用が再開しました。

2017.4.4 16:00 インタラクティブノード及びI/O専用ノードの再開が遅れています。現在作業中です。

2017.3.23 17:40 インタラクティブノードの t2a006163 が高負荷のためログインできません。再起動する予定です。

2017.3.7 10:25 インタラクティブノード t2a006168, t2a006180 のSSDに障害予兆を検知したため明日、3/8(水)10:00 に停止して修理を行います。

2016.12.28 11:10 インタラクティブノードの t2a006178 の再起動が完了しました。現在正常に稼働しています。

2016.12.27 14:20 インタラクティブノードの t2a006178 が高負荷状態のため、明日12/28 10:00に再起動を行います。

2016.11.07 11:40 2016.10.31 16:45に確認したt2a006178の異常(GPU速度低下)の修理対応を終えました。t2a006178が使用できるようになりました。

2016.10.31 16:45 t2a006178に異常(GPU速度低下)があることを確認しました。修理対応のため、t2a006178は11/02(水)9:00から修理対応終了まで使用できなくなります。

2016.9.26 11:30 10/3のピークシフト戻し作業中にログインノードの設定変更を行います。(11時ごろ予定)作業は一瞬でセッションは切れない想定ですが、場合によっては一時的に切断される可能性があります。

2016.9.21 14:15 インタラクティブノードt2a006170の修理が完了しました。

2016.9.16 17:10 インタラクティブノードt2a006170のSSD(/Scratch)にディスク障害が発生していることがわかりました。9/21(水)9:00にこのノードを停止して修理を行います。

2016.8.18 16:55 復旧し現在hpci-loginにログイン出来ます。

2016.8.18 15:50 現在hpci-loginノードにログインすることができず調査しています。

2016.8.18 15:00 運用を再開しました。

2016.8.10 9:05 9:00より予定されたメンテナンスで利用できません。

2016.8.2 17:10 /homeが復旧しインタラクティブノード及びIO専用ノードで利用できるようになりました。それに伴い鍵認証も出来るようになりました。 

2016.8.2 14:05 少なくとも学内からログイン出来ますが/homeディレクトリが無いので鍵認証ができません。

2016.8.2 9:00 本日発生した停電により障害が発生しております。

2016.7.27 18:30 t2a006179 にHWに異常が見られなかったため原因は利用者のプログラムの異常と判断し18:00頃にサービスに復帰しました。

2016.7.27 10:10 インタラクティブノード t2a006179 が月曜から高負荷で応答がなくなっていたため再起動し運用から切り離して調査を行っています。

2016.6.30 16:30 ピークシフト運用に伴い明日t2a006[165-169,171-175]の10台のインタラクティブノードを停止します。

2016.6.7 11:40 準備が終わったため予定より前倒しで11:35に運用再開しました。

2016.6.3 9:35 予定されたメンテナンス中です。

2016.5.17 14:15 予定より早く作業が完了したためHPCIログインノードの運用を再開しました。

2016.5.16 9:40 予定されていたメンテナンスによりHPCIログインノードが利用できません。

2016.5.10 16:20 本日発生した/homeの障害についてこちらに掲載しました。

2016.5.10 11:05 /homeの高負荷は10:45頃復旧しました。影響範囲などは現在調査中です。 

2016.5.10 9:35 /homeの高負荷によりTSUBAMEのログインが不安定となっており現在調査と復旧を行っています。

2016.3.15 17:05 アクセスできなかった/data0_20150507 及び /data0_20160106 へアクセスが復旧しました。

2016.3.15 17:05 現在io-t2にマウントされている、/data0_20150507 及び /data0_20160106 へアクセスすることができません。修理対応中です。

2016.3.1 9:40 インタラクティブノードのt2a006165のGPUにECC Errorが検出されていますので、明日3/2 10:00にこのノードを再起動して修理を行います。

2016.2.24 10:30 インタラクティブノードへのログイン遅延はGPFSの高負荷が原因と分かりましたので再起動して復旧しました。

2016.2.24 9:30 インタラクティブノードへのログインに時間がかかっております。現在原因の調査中です。

2016.2.23 10:50 予定されていたメンテナンスは終了しました。

2016.2.22 10:00 "脆弱性を修正するための緊急のメンテナンスについて(2/22, 2/23実施)"の実施時刻です。

2016.2.18 18:50 脆弱性を修正するための停止を伴うメンテナンスが2/22, 2/23に予定されています。詳しくはこちら

2016.1.12 11:00 t2a006162の再起動が完了しました。

2016.1.12 10:10 高負荷のためt2a006162を再起動します。

2015.12.28 18:00 特に異常が見られなかったためt2a006180を運用に戻しました。

2015.12.24 17:00 t2a006180はClockの修正作業のため、2015年12月25日10:00からしばらくの間、利用できなくなります。

2015.12.10 10:45 問題のサーバの再起動が完了し復旧しました。

2015.12.10 8:55 4台で構成される/homeのうちの1台が高負荷状態のため/homeの応答が悪くなっており、ログインに時間がかることがあります。

2015.11.11 14:25 t2a006169の再起動が完了しました。

2015.11.11 14:00 t2a006169が高負荷のため、再起動します。

2015.11.5 10:15 io-t2からworkにアクセスできない状態となっていたためio-t2を再起動しました。

2015.11.02 11:45 t2a006169をリブートしました。t2a006169が利用できる状態になりました。

2015.11.02 10:30 t2a006169が高負荷のため、フリーズしたことを確認しました。

2015.10.1 13:30 予定(17:00)より早く通常運用を再開しました。

2015.8.5 10:22 インタラクティブノードt2a006164が高負荷状態のためこれより再起動します。

2015.7.24 18:40 サービスを再起動することで復旧が完了しました。高負荷状態であった期間は16:40頃から18:04となります。

2015.7.24 18:25 現在ほぼ復旧が完了しました。現在最終チェックを行っています。

2015.7.24 17:25 /homeが高負荷のため一部のインタラクティブノードの応答が悪くなっています。ログインに時間がかかる場合もあります。

2015.6.30 16:50 ピークシフト運用のためインタラクティブノードt2a006166〜169,176,179,180 を明日9:00に停止します。

2015.06.22 15:30 t2a006177を2015.06.22 10:00にリブートしました。t2a006177にログインできることを確認しました。

2015.06.22 10:00 t2a006177に2015.06.19 20:00頃からログインできない事象を確認しました。

2015.6.18 15:30 インタラクティブノードt2a006169でストレージに障害が継続しておりアクセスすることができません。そのため明日6/19 10:00にこのノードを再起動します。

2015.04.21 10:40  "インタラクティブノードのメンテナンスについて"の件の作業を終えました。

2015.04.17 17:40  インタラクティブノードのメンテナンスが21日(火)10:00より予定されています

2015.04.14 18:50 io-t2のメンテナンスが17日(金)10:00より予定されています

2015.4.6 12:00 インタラクティブノードノードの台数が通常台数に戻りました。

2015.4.3 16:00 2015年度の運用を開始しました。ただしグランドチャレンジ実施のため最小の台数のインタラクティブノードしか用意されていません。

2015.3.3 14:40 インタラクティブノードt2a006174の再起動によって3/2 12:00-12:15の間、このノードが利用できませんでした。

2015.3.2 9:45 インタラクティブノードt2a006174で/work1に障害が継続しておりアクセスすることができません。そのため12:00にこのノードを再起動します。

2015.2.13 14:15 TSUBAMEのg.gsic.titech.ac.jpドメインを管理するDNSサーバの再起動のため、2/13の19:00-20:00の間で1分間程度、TSUBAMEに接続できない時間が発生する可能性があります。ユーザジョブへの影響はありません。

2015.2.3 9:45 修理中だったインタラクティブノードt2a006178のGPUの修理が完了しました。

2015.1.29 11:08 インタラクティブノードのt2a006178にGPUの速度低下が見られたため、明日1/30 10:00にこのノードを再起動します。

2015.1.28 14:20 メンテナンスは終了しました。

2015.1.28 11:40 インタラクティブノードの緊急雨のメンテナンスを13:30より行います。詳しくはこちら

2015.1.15 10.25 インラクティブノードのt2a006174でGPUの速度低下が見られたため、明日1/16(金)10:00にこのノードを再起動します。

2015.1.9 9:50 インタラクティブノードt2a006167の再起動が完了しました。

2015.1.9 9:15 インタラクティブノードt2a006167が高負荷のため、再起動します。

2014.12.8 14:00 インタラクティブノードのt2a006167が高負荷によりフリーズしているためこれよりリブートします。

2014.12.4 14:20 インタラクティブノードの設定変更により現在ログイン状況は改善されています。

2014.12.4 12:05 4台ある/homeを構成するサーバ の1台が高負荷状態となっており、すべてのインタラクティブノードがそのサーバを参照しているため、ログインすべてが極めて不安定となっています。すでに 機能していないこれらのインラクティブノードをこれより順次リブートし、分散して/homeをマウントするよう設定変更を行います。

2014.12.4 9:00 /home高負荷の影響でログインできない場合があります。

2014.12.3 14:45 login-t2-1の予定されたメンテナンスは14:20に終了しました。

2014.11.20 18:00 お知らせにログインノードのlogin-t2-1のメンテナンス情報(12/3実施)を掲載しました

2014.11.28 11:55 IO専用ノード(io-t2)はサービスを再開しましたが、パッチが適用できないことがわかりました。応急処置だけ施して後ほど改めてパッチの適用を行います。

2014.11.28 9:55 T2KI-20141112Aの対処のためのパッチ適用作業を行うためI/O 専用ノード(io-t2.g.gsic.titech.ac.jp)を停止しました。

2014.11.26 18:00 /work1, /gscr0の障害が復旧し、アクセスできるようになりました。

2014.11.26 17:25 インタラクティブノードの再起動は完了しましたが、/work1,/gscr0の復旧が完了していないため、これらの領域にまだアクセスすることはできません。

2014.11.26 16:30 急になりますが/work0, /gscr0障害対応のためいくつかのインタラクティブノードをこれより再起動します。

2014.11.20 11:10 予定されていたio-t2のメンテナンスが終了しました。

2014.11.19 15:00 明日はio-t2のメンテナンスが予定されています。ご注意ください。

2014.11.17 17:45 2014.11.17 13:30頃、インタラクティブノードのt2a006173及びt2a006176の再起動を終えました。

2014.11.17 11:55 インタラクティブノードのt2a006173及びt2a006176が高負荷で不安定なためこれより強制的に再起動致します。

2014.11.11 10:15 インタラクティブノードt2a006164が高負荷でフリーズ状態になっていたため、切り離して再起動を行いました。このノードはこのまま障害調査を行います。

2014.11.7 15:35 t2a006176, t2a006179のGPUの速度程度低下問題が修正されました。

2014.11.6 14:05 t2a006161, t2a006162の修理,調査のためこれらのノードを11/7 10:00にシャットダウンします。

 2014.11.4 15:45 t2a006176, t2a006179のGPUの速度低下が見られたため、これらのノードを11/5 10:00にシャットダウンし修理します。(11/7 15:35追記:修理完了しました)

2014.10.31 15:30 io-t2を再起動することで復旧しました。

2014.10.31 14:40 io-t2にログインできない問題が発生しており確認中です。

2014.10.22 14:55 第2グループのログインノードのメンテナンスが完了しました

2014.10.14 16:30 io-t2の修理が完了し、サービスを再開しました。

2014.10.10 10:25 第1グループ(login-t2-1)の設定変更を行い、比較的安定しているため、第1グループへもログインされるよう設定を元に戻しました。

2014.10.8 11:45 t2a006173が高負荷のためフリーズしていたため、11:00頃このノードをリブートしました。

2014.10.7 17:55 インタラクティブノードの負荷状況はこちら

2014.10.7 17:50 17:30頃、t2a006174にユーザーが高負荷を与えフリーズしたため、このノードをリブートしました。

2014.10.7 16:30 第1グループへのログイン(login-t2-1)が不調なのでDNSの設定を変更して第2グループ(login-t2-2)へ接続するよう変更しています。

2014.10.7 13:45 io-t2に「Unrecoverable System Error」が発生しているため、明日 10/8 10:00にこのノードをシャットダウンして修理対応を行います。(10/14追記:修理が完了しました)

2014.10.7 12:00 t2a006168, t2a006179においてGPU速度低下が見られたため、明日10/8 10:00にこれらのノードをシャットダウンして修理対応を行います。

2014.9.17 17:25 IO専用ノードの/data0へのアクセスが復旧しました。

2014.9.17 11:10 IO専用ノードで/data0にアクセス出来ない問題の解消のため、本日13:00にio-t2を再起動します。

2014.9.16 16:00 IO専用ノード io-t2.で/data0のマウントが外れている事がわかり対応中です。 

2014.09.10 9:45 インタラクティブノードt2a006174が負荷高騰により反応がないため、9/10 10:00に再起動します。(2014.09.10 10:30 再起動により復旧しました)

2014.09.09 12:00 io-t2.g.gsic.titech.ac.jpが利用できない事象を確認し、対応を実施しました。

2014.09.09 12:00 t2a006161を2014.09.09 10:00に停止しました。

2014.09.08 14:00 t2a006163が再起動により復旧したのでサービスに復帰しました。

2014.09.08 12:15 t2a006161がハードウェア障害のため、9/9 10:00にサービス停止します。t2a006163が負荷高騰でで応答が無いため、9/8 13:30に強制的に再起動します。

2014.8.20 12:10 インタラクティブノードt2a006175のGPU周りに問題が発生したため、明日10:00にこのノードをリブートします。

2014.8.19 19:20 現在、ログイン出来ますが、不安定な状態が続いています。原因はやはりInfinibandの可能性が高く、製造元に確認を取っています。本日の作業はこれで終了で、明日以降対応を続けます。

2014.8.19 17:55 現在、第2グループの接続も出来なくなっております。調査中です。

2014.8.19 17:35 現在、第1グループ(login-t2-1.g.)にログイン出来ません。第2グループ(login-t2-2.g.)へログインしてください。グループについてはこちら。原因としてログインノード<->インタラクティブノード間のInfiniband通信がうまく行われていない可能性があり、調査を行っています。

2014.8.19 15:05 先ほどの調整のため、これより一時的にSSHのセッションが切れる予定です。

2014.8.19 14:50 セッションが不安定な問題で、FWとヘルスチェックの設定を見直して、切断されにくくなるよう調整しています。

2014.8.18 17:50 現在、ログインできますが、セッションが頻繁に切断される事象を確認しています。

2014.8.15 15:50 障害の発生していたlogin-t2-1の修理が完了しました。

2014.8.15 15:50 障害の発生していたio-t2の修理が完了しました。

2014.8.15 14:00 運用を再開しました。ただしlogin-t2-1(第1グループ)に障害が発生しています。login-t2-2をご利用ください。詳しくはこちら。また、IO専用ノードのio-t2も障害のため利用できません。

2014.7.24 15:45 t2a006161の修理が完了しました。

2014.7.17 14:45 t2a006161の障害対応のためこのノードを15:30にシャットダウンします。

2014.7.17 13:25 t2a006161に再び障害が発生して/tmpに書き込みができません。対応を検討中です。

2014.7.15 11:30 t2a006162の修理が完了しました。

2014.7.15 9:15 t2a006161に障害が発生しているため、7/15 10:00にノードを再起動します。

2014.7.14 10:00 t2a006162のシャットダウン時刻です。

2014.7.11 16:55 インタラクティブノードt2a006162にGPUエラー(ECC Error)を検知したため7/14 10:00にシャットダウンします。(7.15 11:30追記:修理が完了しました)

2014.7.8 9:10 インタラクティブノードt2a006161が負荷高騰でで応答が無いため強制的に再起動します。

2014.6.25 11:00 t2a006173, t2a006180が反応がない状態になり、6/25 10:30に再起動いたしました。

2014.6.24 17:55 t2a006173の不具合のため、6/24 18:05に再起動します。

2014.5.1 14:00 インタラクティブノードt2a006163のディスク使用量が100%な問題は解消されました。

2014.4.30 10:30 インタラクティブノードt2a006163のディスク使用量が100%になっているため、対応を検討しています。

2014.4.16 9:45 インタラクティブノードのt2a006165のGPUの修理が完了し、サービスインしました。

2014.4.11 11:50 インタラクティブノードのt2a006165のGPUにECCエラーが検出されたため、来週14日(月)10:00にこのノードをシャットダウンします。

2014.4.10 12:05 報告が遅くなりましたが、年度末メンテナンスの結果、長い 間(数ヶ月)不調であったTSUBAMEのネットワークの入口部分の不具合(10GbE-Infiniband変換部分)が解消され、通常の速度に戻りま した。また不具合に伴い、これまでGbEで経路を迂回していたおりましたが、これも終了しました。

2014.4.4 11:40  t2a006161が 11:35 に復帰致しました。通常通り login-t2.g.gsic.titech.ac.jp よりログインできます。

2014.4.4 9:50  t2a006161不調のため10:15に再起動を致します。復帰するまでは login-t2-2.g.gsic.titech.ac.jp よりログインして下さい。

2014.3.26 10:00 Webへのアナウンスが遅れてしまいましたが、これよりIOエラーを検出したt2a006176を停止します。

2014.3.13 11:15 インタラクティブノード t2a006168の高負荷のため、再起動いたしました。ログインしていた利用者には事前に通知しております。

2014.3.7 11:40 インタラクティブノード t2a006161がサービス復旧しました。

2014.3.7 9:00 インタラクティブノード t2a006161の応答が遅延しているため、サービスを停止いたします。ログイン中のユーザはいないため、影響はありません。

2014.2.25 13:50 インタラクティブノードt2a006174 の修理が完了しました。

2014.2.19 11:15 インタラクティブ t2a006174 にて System Overheating のエラーを検知したため、このノードを2/20 10:00より停止して調査を行います。

2014.2.13 17:50 インタラクティブノードt2a006164, t2a006165 のGPUの修理が完了しました。

2014.2.10 16:45 インタラクティブノードt2a006164, t2a006165 のGPU障害対応のため、このノードを2/12(水) 10:00 に停止します。(2/13 修理が完了しました)

2014.2.5 10:30 インタラクティブノードt2a006166 のGPUの修理が完了しました。

2014.2.4 16:45 インタラクティブノードt2a006168, t2a006171 のGPU障害対応のため、このノードを2/7(金) 10:00 に停止します。

2014.1.30 15:25 インタラクティブノードt2a006166 のGPU障害対応のため、このノードを明日1/31(金) 10:00 に停止します。(2/5 修理が完了しました)

2014.1.30 10:00 インタラクティブノードt2a006166のdevice=0のGPUが現在利用出来ません。

2013.12.3 12:00 t2a006161の再起動が完了しサービスに復旧しました。現在の負荷はこちら

2013.12.3 11:25 t2a006161が高負荷状態となり応答が無いため、強制的にリブートいたします。

2013.11.29 10:15 t2a006169の修理が完了し、サービスに復帰しました。

2013.11.26 14:45 t2a006169にて、System Overheatingのエラーが検知されているため、明日11/27(水)10:00より修理を行います。(11/29に復旧)

2013.11.8 10:45 第2グループのログインノードの接続変更は9:30頃無事完了しました。

2013.11.7 9:45 第1グループのログインノードの接続変更が完了しました。明日は第2グループの変更を行います。お知らせはこちら 

2013.10.30 10:30 インタラクティブノード t2a006180 のGPU障害対応が完了しました。

2013.10.28 15:45 インタラクティブノード t2a006180 のGPU障害対応のため、このノードを明日10/29(火) 10:00 に停止します。(10.28 10:30 修理が完了しました)

2013.10.16 15:00 インタラクティブノード t2a006174, t2a006179 のGPUの修理が完了しました.

2013.10.11 10:45 インタラクティブノード t2a006166の修理が完了しました。

2013.10.10 15:30 インタラクティブノード t2a006174, t2a006179 のGPU障害対応のため、これらのノードを10/15(火) 10:00 に停止します。(10/16 15:00 修理が完了しました。)

2013.10.9 17:15 インタラクティブノード t2a006174, t2a006179 のGPU 0の応答が無いというご報告をいただいたため調査します。

2013.10.8 10:10 インタラクティブノードt2a006166にGPUと思われるエラーが出力されているため、明日 10/9 10:00頃にこのノードをシャットダウンし修理を行います。(10.11 10:45 修理が完了しました。)

 

2013.9.24 13:50 通常台数(ピークシフト)で運用しています。

2013.9.19 9:00 全ノード負荷試験のため一部のインタラクティブノードにしかログインできません。

2013.9.13 18:15 t2a006163,t2a006174で /tmp にデータがたまりシステム領域の空き容量が0となったため、一部のファイルを削除させていただきました。/tmpはシステムやアプリケーションが自動で利 用してしまうもの意外、原則利用不可となりますので、/scrやグループディスクをご利用ください。

2013.9.12 9:55 本日の性能測定のため利用できるインタラクティブノードの台数は数台に制限されます。

2013.9.11 11:00 ログインノードの障害は復旧し、ログインできることが確認できました。

2013.9.11 9:00 空調が停止したため、ログインノードの一部に障害が発生しております。

2013.8.29 16:00 t2a006175を含むまだK20Xに換装していないインタラクティブノードを明日9:00に停止します。これらのノードは現在直接割り振られる事は無いので、明示的に利用していない場合は影響はありません。

2013.8.16 9:55 本日のサービス再開より、インタラクティブノードはK20XのGPUノードに割り振られます。M2050環境を利用したい場合は、t2a006175がまだ交換されていませんので、このノードにインタラクティブノードからSSHしてください。

2013.8.1 16:20 先ほどK20Xを搭載したt2a006179,t2a006180をサービスインしました。

2013.7.31 16:30  明日8月1日に現在節電で停止しているt2a006179,t2a006180の2台のノードのGPUをK20Xへ交換しサービスインします。混乱を避け るためこれらのノードにはlogin-t2から自動でされないようにしますので、K20X環境を利用したい方は、ログイン後これらのノードに再びSSH接 続してください。

 

2013.7.22 12:00 学外からのログイン問題は解消しました。

2013.7.22 10:30 現在、学外から g.gsic ドメインの名前解決に失敗する事があります。ログインに失敗した場合、131.112.4.48,または 131.112.4.49 へ直接SSHしてください。

2013.5.20 10:00 t2a006163の修理が完了し、インタラクティブノードに復帰しました。

2013.5.16 9:00 インタラクティブノードt2a006163にGPUエラーが出力されているため、明日 5/17 10:00頃にこのノードをシャットダウンいたします。

2013.5.15 14:45 io-t2.の修理が完了してサービスを再開しました。

2013.5.15 10:30 io-t2.にメモリ障害が発生している事がわかりました。交換修理となるので復旧まで時間がかかる(目安としては今日明日中ぐらいを想定)予定です。

2013.5.15 9:40 io-t2.にログインできない事がわかり確認中です。

2013.4.5 11:00 通常運用に戻りました。

2013.4.4 16:05 t2a006161の再起動が完了しました。現在、t2a006161,162,171の3台が利用できます。

2013.4.4 16:00 t2a006162をサービスインしました。t2a006161は操作を受け付けないためこれより再起動します。

2013.4.4 15:50 t2a006161にログインすることができないことがわかりました。t2a006171はグランドチャレンジに優先しておりましたが login-t2-2.g.gsic.titech.ac.jp を指定してt2a006171にログインしてください。

2013.4.2 18:45 t2a006171はグランドチャレンジに優先するため、通常の利用者の皆様はできるだけt2a006161で作業をお願いいたします。

2013.4.2 16:00 ログインできるようになりました。利用できるインタラクティブノードはt2a006161とt2a006171の2台のみとなります。

 

2013.3.22 16:05 インタラクティブノートt2a006168にて特定の利用者がかなりの高負荷をかけていることがわかったため、利用方法を見直してもらうよう連絡をしています。t2a006168のLoad

2013.3.21 11:45 インタラクティブノードt2a006162の修理が完了し、サービスを再開しました。

2013.3.18 12:00 インタラクティブノードt2a006167の修理が完了し、サービスを再開しました。また、インタラクティブノードt2a006162にGPUエラーが出力されているため、明日 3/19 10:00頃にこのノードをシャットダウンいたします。

2013.3.14 9:45 インタラクティブノードt2a006167にGPUエラーが出力されているため、明日 3/15 10:00頃にこのノードをシャットダウンいたします。

2013.2.28 10:46 インタラクティブノードt2a006161の修理が完了しサービスを開始しています。

2013.2.26 9:50 インタラクティブノードt2a006161にGPUエラーが出力されているため、明日 2/27 10:00頃にこのノードをシャットダウンいたします。

2013.2.25 9:40 インタラクティブノードt2a006168,t2a006178の修理が完了しサービスを開始しています。

2013.2.21 11:00 インタラクティブノードt2a006168にGPUエラー、t2a006178に冷却FANエラーが出力されているため、明日 2/22 10:00頃にこのノードをシャットダウンいたします。

2013.1.31 11:00 インタラクティブノードt2a006167,t2a006180の修理が完了しサービスを開始しています。

2013.1.29 11:00 インタラクティブノードt2a006167,t2a006180 にGPUエラーが出力しているため、明日 1/30 10:00頃にこのノードをシャットダウンいたします。

2013.1.24 11:40 高負荷のためログインできなくなっていた t2a006165 の再起動が完了しました。

2013.1.24 11:00 インタラクティブノードt2a006161,t2a006162の修理が完了しサービスを開始ししました。また、t2a006165が高負荷のためログインできなくなっているので再起動します。

2013.1.22 10:00 インタラクティブノードt2a006161,t2a006162 にGPUエラーが出力しているため、明日 1/23 10:00頃にこのノードをシャットダウンいたします。

2012.12.20 12:00 インタラクティブノードt2a006175の修理が完了しサービスを開始しています。

2012.12.17 12:00 インタラクティブノードt2a006175 にGPUエラーが出力しているため、明日 12/18 10:00頃にこのノードをシャットダウンいたします。

2012.12.7 10:15 GPUエラーの出ていたインタラクティブノードt2a006165の修理が本日朝に完了しました。

2012.12.5 11:15 インタラクティブノードt2a006165 にGPUエラーが出力しているため、明日 12/6 10:00頃にこのノードをシャットダウンいたします。

2012.12.5 11:15 GPUエラーの出ていたインタラクティブノードt2a006179の修理が本日朝に完了しました。

2012.12.4 10:40 インタラクティブノードt2a006164, t2a006167 の再起動が完了しました。現在は、サービスに復帰しております。

2012.12.3 9:55 インタラクティブノードt2a006164, t2a006167が高負荷状態のため、またt2a006179にGPUエラーが出力しているため、明日 12/4 10:00にこれらのノードをシャットダウンいたします。

2012.11.28 11:30 インタラクティブノードt2a006173 の再起動が完了しました。現在は、サービスに復帰しております。

2012.11.28 10:00 インタラクティブノードt2a006168, t2a006170 の修理が完了しました。現在は、サービスに復帰しております。

2012.11.27 10:35 インタラクティブノードt2a006173において/nest2にアクセスできません。そのため明日11月28日(水)10:00頃に再起動予定です。

2012.11.26 11:40 インタラクティブノードt2a006168,t2a006170においてGPU障害が発生しているため、11/27 10:00にこのノードをシャットダウンいたします。再起動だけで直る場合もあれば、修理交換が必要な場合もあるため、作業時間にはばらつきがあります。

2012.11.21 11:10 t2a006164の/scr(SSD)の障害は、再マウントする事で復旧しましたので、シャットダウンする予定は無くなりました。

2012.11.21 9:55 インタラクティブノードt2a006164の/scr(SSD)に障害が発生していることがわかりました。修理のためシャットダウンする場合がありますので、今後のアナウンスにご注意ください。

2012.11.14 11:20 I/O専用ノードは11:15頃利用できる様になりました。

2012.11.14 11:05 I/O専用ノードが10:45頃より利用できません。間もなく利用できる予定です。

2012.11.12 11:20 I/O専用ノードのメンテナンスは11:00頃終了しました。

2012.11.12 11:20 I/O専用ノードのメンテナンスは11:00頃終了しました。

2012.11.12 10:00 予定通りI/O専用ノードのメンテナンスを開始します。

2012.11.9 14:15 お知らせに11/12(月)実施のI/O専用ノードのメンテナンスについて掲載しました。

2012.11.8 10:00 お知らせI/O専用ノードについて掲載しました。

 

2012.10.29 10:30 インタラクティブノードt2a006178の修理が完了しました。

2012.10.25 11:45 インタラクティブノードt2a006178においてGPU障害が発生しているため、10/26 10:00にこのノードをシャットダウンいたします。

2012.10.12 16:45 掲載が遅くなりましたが、t2a006172で/tmpが100%の状態は古いデータを削除する事で15:30には解消しました。

2012.10.12 15:20 t2a006172で/tmpが100%となっており、動作が不安定になる可能性があります。現在対応中です。

2012.10.12 12:35 t2a006161の負荷が正常に戻りました。

2012.10.12 12:30 t2a006161の負荷が高騰している事がわかりました。現在調査中です。復旧のため必要に応じて予告無くジョブの削除やリブートを行う可能性があります。

2012.9.26 15:00 通常運用(ピークシフト)に戻りました。

2012.9.24 12:30 ファイルへのI/Oのためインタラクティブノードのみの一部を開放しました。データへのアクセス用となるためジョブの実行は行わないでください。高負荷をかけるジョブは事前連絡なしにkillする場合があります。

2012.9.24 09:00 グランドチャレンジ実施に伴うサービスの停止 のため、ログインできません。

2012.9.19 14:20 インタラクティブノード t2a006163, t2a006164, t2a006175 においてGPU障害が発生しているため、9/20 10:00にこれのノードをシャットダウンいたします。

2012.9.18 16:00 インタラクティブノードt2a006172, t2a006175 の修理が完了しました。現在は、サービスに復帰しております。

2012.9.13 14:50 インタラクティブノードt2a006162において/nest2のマウントが外れている件で、他のインタラクティブノードの修理が完了しましたので、明日9/19(水) 10:00にこのt2a006162をシャットダウンします。

2012.9.13 14:50 インタラクティブノードt2a006162において/nest2のマウントが外れています。修正には再起動が必要ですが、すでにインタラクティブノードのいくつか修理中なので実施時期を調整しております。

2012.9.11 16:10 インタラクティブノードt2a006172においてGPU障害が発生しているため、9/12 10:00にこれのノードをシャットダウンいたします。

2012.9.7 10:50 インタラクティブノードt2a006175においてGPU障害が発生しているため、9/10 10:00にこれのノードをシャットダウンいたします。

2012.8.6 11:25 t2a006173、t2a006174の/tmp溢れ問題は解消されました。

2012.8.3 18:15  t2a006173、t2a006174において/tmpを大量に利用した利用者がおり空き容量が0%となっております。現在削除していただくよう連絡中 です。/tmpは他の利用者に影響がでるためジョブ実行に原則禁止となっておりますのでご注意ください。これらのノード上でプログラムの動作に問題が発生 した場合、他のノードへ移動してください。

2012.7.27 16:30 インタラクティブノードt2a006172においてGPU障害が発生しているため、7/30 10:00にこれのノードをシャットダウンいたします。

2012.7.25 10:10 インタラクティブノードt2a006173においてGPU障害が発生しているため、7/26 10:00にこれのノードをシャットダウンいたします。 

2012.7.23 17:00 本日行われていたインタラクティブノードt2a006161, t2a006164, t2a006171のGPU修理は完了しました。

2012.7.19 17:00 インタラクティブノードt2a006161, t2a006164, t2a006171においてGPU障害が発生しているため、7/23 10:00にこれらのノードをシャットダウンいたします。

2012.7.19 9:00  インタラクティブノードt2a006173のGPUゾンビプロセスを削除したところノードの再起動が発生しました。インタラクティブノード t2a006162においてもGPUにゾンビプロセスが残っているため7/20 9:00に削除を実施いたしますが、同様に再起動が発生することになります。

2012.7.17 13:30 インタラクティブノードt2a006175にGPU障害が発生しているため、7/18 10:00にこのノードをシャットダウン致します。

2012.7.13 11:15 インタラクティブノードt2a006171にGPU障害が発生しているため、来週火曜日7/17 10:00にこのノードをシャットダウン致します。

2012.7.12 11:40 インタラクティブノードt2a006162t2a006161にGPU障害が発生しているため、明日7/13 10:00にこのノードをシャットダウン致します。(12:10 掲載内容が間違っていたため修正)

2012.7.2 14:00 インタラクティブノードt2a006162にGPUのエラーが発生しているため、明日7/3 10:00にこのノードをシャットダウン致します。

2012.6.29 17:20 7/5(木)からの節電運用のため、7/5(木)9:00にインタラクティブノード10台がシャットダウンされます。削減予定のインタラクティブノードはt2a006165-169,176-180になります。

2012.6.25 14:10 インタラクティブノードt2a006169にGPUのエラーが発生しているため、明日6/26 10:00にこのノードをシャットダウン致します。

2012.6.12 15:00 t2a006163, t2a006179, t2a006180の修理を終えました。

2012.6.11 10:00 t2a006163, t2a006179, t2a006180の修理を開始しました。

2012.6.7 15:50 t2a006163, t2a006179, t2a006180 のGPUに障害がありGPUが利用できません。これらのノードは6/11 10:00に修理のため停止しますのでご注意ください。

2012.6.7 16:45 応答の無かった t2a006162, t2a006165, t2a006173 を再起動し16:40前頃に復旧しました。これにより現在は正常にログインできます。

2012.6.7 16:15 一部のインタラクティブノードの高負荷によってログイン出来ない場合があり調査しています。

2012.6.7 15:50 t2a006163, t2a006179, t2a006180 のGPUに障害がありGPUが利用できません。これらのノードは6/11 10:00に修理のため停止しますのでご注意ください。2012.5.30 11:10 t2a006162に置いてGPUエラーが検出されたので、t2a006162を13:00に停止いたします。

2012.5.23 17:00 t2a006174が高負荷のため再起動します。

2012.5.23 11:45 再起動が完了しました。

2012.5.23 11:20 t2a006176が高負荷でハングアップしたので再起動を行う予定です。

2012.5.17 9:00 本日朝、次のインタラクティブノードが高騰していたため再起動を行いました。t2a006177

2012.5.11 10:40 以後、高負荷によって再起動したインタラクティブノードについて /home のマウントパラメータの変更を行います。利用方法等に変更はございません。

2012.5.10 14:40 高負荷のため今朝、次のノードt2a006164,169,171,179を再起動しました。

2012.5.9 10:30 高負荷のため今朝、次のノードt2a006167,175を再起動しました。

2012.5.8 14:50 高負荷のため今朝、次のノードt2a006163, t2a006165, t2a006167, t2a006168, t2a006172を再起動しました。

2012.5.7 9:50 高負荷のため、次のノード t2a006161~t2a006169,t2a006171~t2a006179 を再起動しました。

2012.5.2 9:30 本日朝、次のインタラクティブノードが高騰していたため再起動を行いました。
t2a006161-169, t2a006171-179

2012.5.2 9:30 本日朝、次のインタラクティブノードがハングアップしたため再起動を行いました。t2a006171,t2a006178

2012.5.1 10:00 本日朝、次のインタラクティブノードがハングアップしたため再起動を行いました。t2a006161, t2a006162, t2a006163, t2a006164, t2a006165, t2a006166,
t2a006167, t2a006168, t2a006169, t2a006175, t2a006176, t2a006177, t2a006178, t2a006179

2012.4.27 10:30 本日朝、次のインタラクティブノードがハングアップしたため再起動を行いました。t2a006166, t2a006168, t2a006177, t2a006175

2012.4.25 10:40 本日朝、次のインタラクティブノードがハングアップしたため再起動を行いました。t2a006162, t2a006179

2012.4.23 10:45 本日朝、次のインタラクティブノードがハングアップしたため再起動を行いました。t2a006165, t2a006167, t2a006171, t2a006172, t2a006179

2012.4.20 18:30 負荷高騰によりインタラクティブノードへのログイン障害や計算ノードのハングアップに対応するためインタラクティブノードの緊急メンテナンスを行います。詳しくはこちらに。(2012.4.23:メンテナンスは終了しました。)

2012.4.20 9:20 本日朝、次のインタラクティブノードがハングアップしたため再起動を行いました。t2a006161,t2a006171,t2a006172,006176,t2a006179,t2a006180

2012.4.17 10:25 本日朝、次のインタラクティブノードがハングアップしたため再起動を行いました。t2a006165,t2a006168,t2a006172,006171,t2a006173,t2a006176,t2a006179

2012.4.17 9:50 本日朝、次のインタラクティブノードがハングアップしたため再起動を行いました。t2a006161,t2a006165,t2a006166,t2a006169,t2a006171,t2a006172,t2a006173,t2a006176,t2a006180

2012.4.16 12:10 t2a006162が高負荷のためハングアップしました。

2012.4.11 9:15 メンテナンス後よりインタラクティブノードが高負荷となりログイン出来なくなる現象が続いております。原因が特定できておらず、今後も同様の現象が発生する事があるため、インタラクティブノードの割当ポリシーを単純なラウンドロビンに変更しております。

2012.4.9 10:15 本日9:15-10:45の間に緊急のキャンパスネットワークのメンテナンスが行われます。詳しくはネットワークシステム担当のホームページをご覧ください。

2012.4.9 9:30 土日にかけて複数のログインノードで高負荷によるログインの失敗があり、接続しにくい状態が続いておりました。現在対象となるノードの再起動を行っております。

2012.4.6 17:00 通常運用が再開しました。 

2012.4.6 15:30 t2a006162が高負荷のため再起動を行います。

2012.4.5 14:30 t2a006171が高負荷のため利用できません。161と同様の原因とおもわれます。

2012.4.5 14:15 現在 t2a006162, t2a006171が利用できます。

2012.4.5 12:15 t2a006161が再度不調となりましたので、現在別のノードを準備しております。

2012.4.5 11:45 t2a006161は再起動後のステータスチェックで問題が見当たらなかったため、しばらくサービスに戻し様子を見る事にいたしました。

2012.4.5 11:30 第1グループのt2a006161にハードウエア障害が発生して利用できません。ログインできない人は login-t2-2.g.gsic.titech.ac.jp を明示的に指定してログインしてください。 

2012.4.3 14:00 一部のサービスを再開しました。 

2012.3.27 9:00 年度末メンテナンスを開始しました。サービス再開は4月3日 14:00を予定しています。

2012.3.12 14:30 ログインできるようになりましたが、ストレージのマウント等あちこちにまだ問題が残っているのでご注意ください。

2012.3.12 13:15 13:03頃よりInfinibandネットワークに何らかの障害が発生していることがわかりました。現在確認を急いでいます。

2012.3.5 17:40 インタラクティブノードの問題ではなく/work0の一部に問題があることがわかりました。詳しくはストレージの項目をご覧ください。

2012.3.5 15:40 主に本日再起動したノードを中心に/work0や/data0が見えていないノードが複数存在することがわかりました。現在調査中です。

2012.3.1 17:45 3/5(月)に行う予定のインタラクティブノードの再起動についてお知らせを掲載しました

2012.2.22 18:00 明日行われるインタラクティブノード再起動についてお知らせに掲載しました。

2012.2.22 17:50 インタラクティブノードのt2a006162,t2a006164,t2a006165において、特定のアプリがGPUをつロックしてしまっているため、GPUが利用できません。管理者権限でも修復できないため、明日10:00にこれらのノードの再起動を行います。

2012.1.31 9:30 キャンパスネットワーク障害は昨日14:50頃より順次回復しておりますが、迂回路による仮復旧のため通信速度は遅いとのことです。

2012.1.30 14:15 キャンパスネットワークに障害が発生しており、大岡山とすずかけ台間の通信ができません。

2012.1.19 17:00 キャンパスネットワークが遅い件は、原因が特定でき12:45頃解消されました。詳しくはネットワークシステム担当の通信障害情報をご覧ください。

2012.1.19 10:15 現在、ファイアウォールの高負荷で学内<->学外の通信速度が低下しているとの報告がネットワークシステム担当よりありました。TSUBAMEのログインノードはこのFWを経由しないため基本的に影響を受けません。

2012.1.12 10:15 グループについてはこちらをご覧ください。

2012.1.12 9:40 第1グループのインタラクティブノード t2a006166 が原因である事がわかり、グループから切り離しました。このノードの復旧には再起動が必要となりますので、利用中の方はご注意ください。

2012.1.12 9:30 現在、第1グループ(login-t2-1.g.gsic.titech.ac.jp)の反応が悪くなっております。 ログインがうまくいかない場合は第2グループ(login-t2-2.g.gsic.titech.ac.jp)へ直接ログインしてください。

2011.12.26 13:30 キャンパスネットワーク障害は解消されました。(ネットワークシステム担当のアナウンス)

2011.12.26 10:00 キャンパスネットワークに障害が出ているため、一部のネットワークからは通信できない可能性があります。

2011.12.20 13:45 インタラクティブノード(t2a006161及びt2a006163)の高負荷は管理者がなんとかログインするが出来たので13:40頃にプロセスをキルして通常状態に戻りました。また利用者への連絡を行いました。

2011.12.20 13:30 インタラクティブノード(t2a006161及びt2a006163)に著しく高負荷をかけている利用者がいるため対応中です。 

2011.12.5 10:00 第一グループ(login-t2-1)のログインに問題が残っておりましたが、復旧しております。

2011.12.5 9:20 Infiniband障害が発生しておりましたが、現在はログイン出来ております。

 

2011.12.5 8:25 ログインできない事象が確認されています。現在、原因の調査・対応中です。

2011.12.2 17:30 本日実施致しましたインタラクティブノードの再起動は終了致しました。

2011.12.2 15:15 インタラクティブの稼動状況はこちらで確認できます。

2011.12.2 12:40 本日実施するインタラクティブノードの再起動についてお知らせに掲載しました。

2011.12.2 12:00 本日の15:00及び17:00にインタラクティブノードを2つのグループに分けて再起動を行います。15:00(t2a006161〜t2a006170、ただしt2a006165は除く)、17:00(t2a006171〜t2a006180)となります。

2011.12.2 11:00 特定のGPUプログラムが、インタラクティブノードでゾンビプロセスを生成し続け、t2a006165を除くすべてのインタラクティブノードのGPUに障害が発生しており、現在GPUが利用できません。復旧にはインタラクティブノードの再起動が必要なため、順次再起動を行う予定です。今後のアナウンスに十分ご注意ください。

2011.11.21 10.50 メンテナンスは10:05頃再起動、10:45頃再開し、完了しました。

2011.11.21 10:10 予定通り一部のインタラクティブノードの再起動を行っています。

2011.11.18 12:05 11:25頃t2a006177も再起動がおこり11:39に復旧しました。そのためこのノードもメンテナンスの対象から外れます。t2a006161はGPU障害がある事が分かりましたので、サービスを再開せず修理にまわす事になりました。

2011.11.18 11:40 11:33頃t2a006161がゾンビジョブによりダウンしたため再起動中です。これでゾンビジョブはクリアされるため、このノードは予定されていたメンテナンスの対象から外れます。

2011.11.16 18:15 インタラクティブノードのメンテナンスについてこちらに掲載しました。

2011.10.6 17:00 Ansys用ノードへのログインも再開しました。

2011.10.5 17:00 予定より早く運用を再開いたしました。

2011.10.3 10:00 グランドチャレンジカテゴリAの実施のため利用できません。10/6(木)17:00頃より再開予定ですが、膨大な作業項目に対して限られた時間しか取れないため再開が遅れてしまう可能性があります。

2011.8.30 15:15 昨日発生した障害の報告をこちらに掲載しました。

2011.8.30
(9:30) TSUBAMEのネットワーク障害に伴うログイン障害は復旧しました。原因、障害範囲等については調査中です。判明次第報告いたします。
(15:15) 昨日起きた障害の報告をこちらに掲載しました。

2011.8.29
(17:55)インタラクティブノード高負荷によりlogin-t2-1,login-t2-2とも接続できません。
(18:30)ネットワーク障害の可能性があり調査を行っております。
(19:15)TSUBAMEのネットワークの入り口部分において障害が発生しております。
ログインノードを経由した新規ジョブの投入およびストレージの利用はできませんが、キューに投入済みで実行中に操作を伴わないジョブへの影響は無いと予想されます。障害の程度が大きいため、復旧は8/30 10:00を予定しております。

2011.8.4(木)7:52頃、Infiniband Networkの何らかの障害でネットワークが切断され、ログインする事ができませんでしたが、9:50頃復旧しました。現在原因を調査中です。

2011.7.4(水) 15:50頃、2台あるログインノードの片方(login-t2-2)のグループのインタラクティブノード(t2a006172)にて、work障害が発生した影響で高負荷状態となり、16:30頃よりログインできない状態となっておりましたが、グループから切り離し、再起動する事で17:45頃復旧しました。また、その間login-t2-1は利用可能でした。

頻発していた障害について「ログイン障害とログインノードの構成変更について」を掲載しました。

2011.6.30(水) 15:00頃 インタラクティブノード(t2a006167)にて、work障害が発生した影響で高負荷状態となり、ログインできない状態となっていましたので再起動を行いました。6/30(水) 14:00頃 インタラクティブノード(t2a006167)にて、work障害が発生した影響で高負荷状態となり、ログインできない状態となっていましたので再起動を行いました。

2011.6.29(水) 18:05頃、インタラクティブノード(t2a006161)にて、work障害が発生しました。ログイン可能でしたが、このままではいずれ全体のログインに影響が出るため、6/30(木) 11:50 に接続を解除して再起動しております。

2011.6.28(火) 16:50頃、インタラクティブノード(t2a006162)が高負荷で応答が無くなりログインができない状態となっておりましたため、このノードの再起動を行っております。同様の障害が最近目立っているため現在、対策を検討中です。

2011.6.24(金) 19:30 頃、インタラクティブノード(t2a006162)が高負荷となり、ログインできない状態となっておりましたが、23:37 頃このノードを切り離しログインできない障害は復旧しました。このインタラクティブノードは負荷が高くなっていたため、6/27(月)11:20に再起動いたしました。

2011.6.22(水) 14:30 頃、インタラクティブノード(t2a006163,t2a006165)が高負荷となり、ログインできない状態となっておりましたが、これらのノードを切り離しログインできない障害は復旧しました。この2台のインタラクティブノードは15:15頃に強制的に再起動いたしました。