障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2017-05-19

    (バッチキューを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月19日

     下記の通りバッチキューに障害が発生し、復旧いたしました。

     日時:5月18日(木) 1:31から8:58頃

     影響: U/Vキューの管理サーバの動作停止

     詳細:

    1:31頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり8:58頃リスタートを実施し復旧しました。

    ログの調査から,新規ソケットを作成できない状態となったこと,計算ノードとの UDP 通信リトライが多発している事象が確認されました。製造元からは,ネットワーク通信が不安定になり障害につ ながった可能性がある旨の回答があり,緩和するためのパラメータが提示されました.また,追加の調査 で PBS...


  • 2017-05-15

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月15日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯: 5月14(日)21:52 から 5月15(月)から10:30頃

     影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

     詳細:

    /work1を構成する2台で冗長化されたMDSの1台(t2s007013)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(09:59から10:13)となりましたが10:30に復旧しました...


  • 2017-05-15

    (バッチキューを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月15日

     下記の通りバッチキューに障害が発生し、復旧いたしました。

     日時:5月14日(土) 2:02から5月15日(日)8:43頃

     影響: U/Vキューの管理サーバの動作停止

     詳細:

    2:02頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり、

    ・t2sub コマンドで U/V キューへのジョブ投入が出来ない
    ・U/V キューの Q (待ち状態) のジョブが R (実行中) 状態に遷移しない
    ・Cloud Utilization、t2statコマンドによるU/Vキューのジョブ実行状況の確認ができない
    ・...


  • 2017-05-12

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月12日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:5月11(木)19:53から20:43頃

     影響:一部の計算サーバから/work1にアクセスできない。また復旧中に一時的に/gscr0にアクセスできない。

     詳細:

    /work1を構成する2台で冗長化されたMDSの1台(t2s007015)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源を共有する/gscr0にもアクセス不能(20:21から20:29)となりましたが20:43に復旧しました。

    ...

  • 2017-05-11

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月11日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:5月9(火)10:44から13:14頃

     影響:一部の計算サーバから/work1にアクセスできない。復旧中に一時的に/gscr0にアクセスできない。

     詳細:

    /work1を構成する2台で冗長化されたMDSの1台(t2s007013)が不安定となり(5/1の障害で待機系である013で稼働中)、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。フェイルオーバ時に資源をともにする/gscr0にもアクセス不能(12:29から12:54)となりましたが13:...


  • 2017-05-01

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年5月1日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:5月1(月)9:03から10:54頃

     影響範囲:/work1にアクセスできない。

     詳細:

    /work1を構成する2台で冗長化されたMDSの1台(t2s007015)が不安定となり、一部の計算ノードとreconnecting/refused reconnectionのエラーが発生しており、work1にI/Oできなかったジョブがあると考えられます。10:29 にt2s007015をフェイルオーバし復旧しました。

     

    用語説明

    OST:...


  • 2017-04-27

    (バッチキューを利用している方向けの情報です)

                                 学術国際情報センター
    2017年4月27日

     下記の通りバッチキューに障害が発生し、復旧いたしました。

     日時:4月22日(土) 19:33 から 24日(月) 8:20頃

     影響: U/Vキューの管理サーバの動作停止

     詳細:

    19:33頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり、

    ・t2sub コマンドで U/V キューへのジョブ投入が出来ない
    ・U/V キューの Q (待ち状態) のジョブが R (実行中) 状態に遷移しない
    ・Cloud Utilization、t2statコマンドによるU/Vキューのジョブ実行状況の確認ができない
    ・...


  • 2017-03-29

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年3月29日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:3月25(土)8:11から13:32頃

     影響範囲:/work1, /gscr0 の一部にアクセスできない。

     詳細:

    8:11頃/work1を構成する104個あるOSTのうちの1つ(work1-OST0034)にアクセスができなくなりました。復旧を開始しましたがテイクオーバ時に処理がスタックする既知の問題が再発する可能性があったため、8台あるOSSの内のwork1-OST0034を管理しているOSS(t2s007045)を12:47頃より再起動しました。このOSSは全体の1/8を管理しているため、再起動中の12:47から13:32の間、/work1, /...


  • 2017-03-29

    (バッチキューを利用している方向けの情報です)

                                 学術国際情報センター
    2017年3月29日

     下記の通りバッチキューに障害が発生し、復旧いたしました。

     日時:3月24日(金) 2:01から8:19頃

     影響: U/Vキューの管理サーバの動作停止

     詳細:

    2:01頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり、

    ・t2sub コマンドで U/V キューへのジョブ投入が出来ない
    ・U/V キューの Q (待ち状態) のジョブが R (実行中) 状態に遷移しない
    ・Cloud Utilization、t2statコマンドによるU/Vキューのジョブ実行状況の確認ができない

    ...


  • 2017-03-22

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年3月21日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:3月21(火)18:53から20:03頃

     影響範囲:/work1, /gscr0にアクセスできない

     詳細:

    (3/29追記)

    Journalの問題(デットロック)でMDSの処理がスタックする問題が発生しました。これは昨年の5月11日今年の2月3日、...

Pages