障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2017-03-29

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年3月29日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:3月25(土)8:11から13:32頃

     影響範囲:/work1, /gscr0 の一部にアクセスできない。

     詳細:

    8:11頃/work1を構成する104個あるOSTのうちの1つ(work1-OST0034)にアクセスができなくなりました。復旧を開始しましたがテイクオーバ時に処理がスタックする既知の問題が再発する可能性があったため、8台あるOSSの内のwork1-OST0034を管理しているOSS(t2s007045)を12:47頃より再起動しました。このOSSは全体の1/8を管理しているため、再起動中の12:47から13:32の間、/work1, /...


  • 2017-03-29

    (バッチキューを利用している方向けの情報です)

                                 学術国際情報センター
    2017年3月29日

     下記の通りバッチキューに障害が発生し、復旧いたしました。

     日時:3月24日(金) 2:01から8:19頃

     影響: U/Vキューの管理サーバの動作停止

     詳細:

    2:01頃U/Vキューを管理するt2zpbs-vm1のPBSデーモンの応答がなくなり、

    ・t2sub コマンドで U/V キューへのジョブ投入が出来ない
    ・U/V キューの Q (待ち状態) のジョブが R (実行中) 状態に遷移しない
    ・Cloud Utilization、t2statコマンドによるU/Vキューのジョブ実行状況の確認ができない

    ...


  • 2017-03-22

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年3月21日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:3月21(火)18:53から20:03頃

     影響範囲:/work1, /gscr0にアクセスできない

     詳細:

    (3/29追記)

    Journalの問題(デットロック)でMDSの処理がスタックする問題が発生しました。これは昨年の5月11日今年の2月3日、...


  • 2017-03-22

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年3月21日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:3月21(火)11:51から15:44頃

     影響範囲:/work1, /gscr0にアクセスできない

     詳細:

    (3/29追記)

    Journalの問題(デットロック)でMDSの処理がスタックする問題が発生しました。これは昨年の5月11日今年の2月3日、...


  • 2017-03-17

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年3月17日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:3月17(金)14:4115:50から20:08頃

     影響範囲:/work1, /gscr0にアクセスできない
          /work1 15:50から20:08
          /gscr0 15:56から18:17

     詳細:

    (3/29追記)

    ...


  • 2017-02-15

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年2月15日

     下記の通りストレージに障害が発生し、復旧いたしました。

     時間帯:2月13(月)14:58から15:13頃

     影響:/work0へのアクセスに一時的なI/O遅延やエラーが発生した可能性があります

     詳細:

    /work0 を構成する2台で冗長化されている MDS(MetaData Server) として稼働していた t2s007017 において障害が発生しました。

    その結果、MDS のサービス(MDT, MetaData Target)を対となる ...


  • 2017-02-09

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2017年2月9日

     下記の通りストレージに障害が発生し、仮復旧いたしました。報告が遅くなり申し訳ありませんでした。

     時間帯と影響範囲:
     2月3日(金) 12:36 から 14:49 /work1利用不可
     2月3日(金) 14:31 から 14:49 /work1, /gscr0利用不可

     詳細:

    /work1 を構成する2台で冗長化されている MDS(MetaData Server) として稼働していた t2s007015 において Lustre の処理がスタックする問題が発生致しました。

    MDS...


  • 2016-12-27

    (グループディスクを利用している方向けの情報です)

                                 学術国際情報センター
    2016年12月27日

     下記の通りストレージに障害が発生し、復旧いたしました。

     記

     日時:12月22日(木) 23:27 から 26日(月) 16:25 頃

     影響: /gscr0 のごく一部にアクセスできない。復旧作業中に/work1の一部にアクセスできない。

     詳細:

    コントローラ上で、ディスク障害(Idx: 518)のエラーが発生しており、SCSI コマンドに対してエラーが繰り返されたのち、12/22 23:27にmultipath がパスを認識できないエラーに繋がったものと思われます。
    以下の時間帯でストレージ領域に障害が発生しました。

    12/22 23:27 から 12/26 ...


  • 2016-12-22

    (t2a0041[37-50]を利用していた利用者への情報です)

                                 学術国際情報センター
    2016年12月27日

     下記の通りネットワークに障害が発生し、復旧いたしました。

     日時:12月25日(日) 9:02 から 12月26日(月)17:50頃

     影響: InfinibandネットワークEdgeスイッチIBEDGE158配下の計算ノードの通信不可

     詳細:

       InfinibandネットワークEdgeスイッチIBEDGE158に障害が発生しスイッチ交換を行いました。交換が完了するまで配下のノードであるt2a0041[37-50]が通信することができませんでした。


  • 2016-11-09

    (バッチキューを利用している方向けの情報です)

                                 学術国際情報センター
    2016年11月9日

     下記の通りバッチキューに障害が発生し、復旧いたしました。

     日時:11月5日(土) 11-05のスロット

     影響: Xキューが作成されず利用できない

     詳細:

    11/5 9:00 に11-04のスロットが終了しました。終了時点で予約キューに5,000本以上のジョブが残っていたためジョブの削除が開始されました。9:02にcronにより11-05のXキューの作成処理が始まりましたが、ジョブ削除が間に合わずタイムアウトし、Xキューの作成に失敗しました。その結果11-05のスロットでXキュー(この日は163台)が開始できませんでした。

    ...

ページ