このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2017-06-30

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年6月30日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯: 6月30日(金)11:51 から 12:58頃

     影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

     詳細:

    /work1を構成する2台で冗長化されたMDSの1台(t2s007013)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(6/30 12:13から12:23)となりましたが12:58に復旧しました。...


  • 2017-06-27

    (グループディスクを利用している方向けの情報です)

    学術国際情報センター
    2017年6月27日

    下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯: 6月26日(月)11:23 から 6月26日(月)12:20

     影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

     詳細:

    /work1を構成する2台で冗長化されたMDSの1台(t2s007015)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(6/26 12:35から12:44)となりましたが12:20に復旧しました。

    用語説明

    OST:...


  • 2017-06-05

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年6月5日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯: 6月3日(土)12:50 から 6月4日(日)13:24頃

     影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

     詳細:

    /work1を構成する2台で冗長化されたMDSの1台(t2s007013)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(6/4 12:34から13:01)となりましたが12:...


  • 2017-05-30

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月30日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯: 5月29(月)18:51 から から19:55頃

     影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

     詳細:

    /work1を構成する2台で冗長化されたMDSの1台(t2s007015)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(19:29から19:38)となりましたが19:55に復旧しました。

    ...

  • 2017-05-19

    (バッチキューを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月19日

     下記の通りバッチキューに障害が発生し、復旧いたしました。

     日時:5月18日(木) 1:31から8:58頃

     影響: U/Vキューの管理サーバの動作停止

     詳細:

    1:31頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり8:58頃リスタートを実施し復旧しました。

    ログの調査から,新規ソケットを作成できない状態となったこと,計算ノードとの UDP 通信リトライが多発している事象が確認されました。製造元からは,ネットワーク通信が不安定になり障害につ ながった可能性がある旨の回答があり,緩和するためのパラメータが提示されました.また,追加の調査 で PBS...


  • 2017-05-15

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月15日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯: 5月14(日)21:52 から 5月15(月)から10:30頃

     影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

     詳細:

    /work1を構成する2台で冗長化されたMDSの1台(t2s007013)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(09:59から10:13)となりましたが10:30に復旧しました...


  • 2017-05-15

    (バッチキューを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月15日

     下記の通りバッチキューに障害が発生し、復旧いたしました。

     日時:5月14日(土) 2:02から5月15日(日)8:43頃

     影響: U/Vキューの管理サーバの動作停止

     詳細:

    2:02頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり、

    ・t2sub コマンドで U/V キューへのジョブ投入が出来ない
    ・U/V キューの Q (待ち状態) のジョブが R (実行中) 状態に遷移しない
    ・Cloud Utilization、t2statコマンドによるU/Vキューのジョブ実行状況の確認ができない
    ・...


  • 2017-05-12

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月12日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:5月11(木)19:53から20:43頃

     影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

     詳細:

    /work1を構成する2台で冗長化されたMDSの1台(t2s007015)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(20:21から20:29)となりましたが20:43に復旧しました。

    ...

  • 2017-05-11

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月11日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:5月9(火)10:44から13:14頃

     影響:一部の計算サーバから/work1にアクセスできない。復旧中に一時的に/gscr0にアクセスできない。

     詳細:

    /work1を構成する2台で冗長化されたMDSの1台(t2s007013)が不安定となり(5/1の障害で待機系である013で稼働中)、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源をともにする/gscr0にもアクセス不能(12:29から12:54)となりましたが13:...


  • 2017-05-01

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月1日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:5月1(月)9:03から10:54頃

     影響範囲:/work1にアクセスできない。

     詳細:

    /work1を構成する2台で冗長化されたMDSの1台(t2s007015)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。10:29 にt2s007015をフェイルオーバし復旧しました。

     

    用語説明

    OST:...

ページ