障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2012-11-22

    利用者各位
    
                                 学術国際情報センター
                                平成24年11月22日
    
     下記の通りモニタリングに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
     日時:11月15日(木) 9時頃 から 16日(金)10:30頃
    
     影響:上記期間中のCloud Monitoring Systemの内容が正しくない
    
     詳細:
    
     15日18時頃より16日10:30頃までGangliaのデータが正常に取得できず、
    Cloud Monitoring System に正しい情報が記録されませんでした。
    データの再取得は出来ないため残念ながらこの期間の情報は修正されません。
    原因は不明ですが、同時間帯に/data0のマウントに問題があったため、関連性が
    ないか確認をしております...

  • 2012-11-22

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                平成24年11月22日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
     日時:11月16日(金) 9時頃 から 10:24頃
    
     影響:/data0の一部にアクセスできない
    
     詳細:
    
     gpfs0 の File System Manager として稼働していた t2s007023 が
    各計算ノードからの token 要求に応答しなかったため、gpfs0(/data0)へ
    の IO 要求が待ち状態となっておりました。
     10時24分に t2s007023 において GPFS を停止し、gpfs0(/data0)の
    File System Manager を t2s007031 へ移動することで復旧しました。
    
                                        以上...

  • 2012-10-12

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                平成24年10月12日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
     日時:10月11日(木) 04:54 から 06:48
    
     影響:/data0の一部にアクセスできない
    
     詳細:
    
     10月11日04:39にt/data0を構成する NSD2f (dm-48)の
     ディスクが2つFailしました。
     そのためRAID6の冗長性がなくなり、AWLが設定されたため、
     /data0 の一部にアクセスできなくなりました。
     06:48にAWLをクリアし/data0の一部にアクセスできない状況から
     回復しました。
    
     用語説明
      AWL:Auto Write Lockの略. 冗長性のない状態になった場合、
        新規の書き込みができなくし、RAIDを保護する機能。...

  • 2012-10-12

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                平成24年10月12日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
     日時:10月10日(水) 13:16 から 17:44
    
     影響:/work0の一部にアクセスできない
    
     詳細:
    
     10月10日13:16頃から、4台あるOSSの一つ(t2s007057)でエラーが出力され始め、
     この時間以降 /work0 を構成している56あるOSTの一つ(OST2f)への
     アクセスに問題が発生しました。
    
     復旧のため16:45頃から OST(OST2a〜OST37)を
     アンマウントした状態でリカバリを行い,17:44に復旧しました.
    
     用語説明
      OSS:Lustreファイルシステムにおいて、計算ノードに対してファイルの中身を
         実際に送受信するサーバ
    
      OST:...

  • 2012-09-25

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                  平成24年9月25日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
     日時:停電開けの2012年8月16日 より 2012年9月24日13:00頃
    
     影響:Lustreファイルシステム(/work[01])のクオータが正しく機能しない。
    
     詳細:
    
     グループディスクを購入量の上限に達していない場合においても、LustreFSがクオータの
    上限に達していると判断し、新しい書き込みの際に”Disk quota exceeded”となり、
    /work0, /work1, への書き込みが出来ない状況となりました。
    
     2012年8月20日に上記事象を認識し、原因が分からず復旧できなかったため、13時頃
    /work0, /work1, のクオータをオフにし、一時的に上限無く書き込めるよう設定...

  • 2012-07-09

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                 平成24年7月9日
    
     下記の通りH/Xキューに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                      記
    
    日時:
    
     2012年7月6日(金) 20:21から2012年7月9日(月) 11:40
    
    
    影響:
    
    ・H/XキューへのPBSを用いたジョブ投入ができない
    
    ・7月6日 20:21 に実行中であったジョブのPBS標準出力、
     標準エラー出力ファイルが正常に生成されない
    
    ・Cloud Utilization、t2statコマンドによる
     H/Xキューのジョブ実行状況の確認ができない
    
    
    詳細:
    
     7月6日 20時21分に H, XキューのPBS管理サーバt2zpbs05で稼働している
    PBS(ジョブ管理サーバソフト)に問題が発生しました。ジョブを管理するためのプロセ
    スがダウンし、X...

  • 2012-07-03

    (TSUBAME計算サービス、ソフトウェア配布のうちライセンスを
    使用するアプリケーションを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年7月3日
    
     下記の通りライセンスサーバに障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
    日時:
     2012年7月3日(火) 9:18から9:46
    
    影響:
    ・以下のアプリケーションの新規起動ができない、
     利用中のアプリケーションが強制終了する
    
     Intel Compiler
     PGI Compiler
     VTune Amplifier XE
     Total View Debugger
     HMPP
     ANSYS(Workbench, Fluent)
     ABAQUS, ABAQUS CAE
     MD Nastran
     Patran
     Marc
     Mentat
     Dytran
     Materials Studio
     Discovery Studio
     Scigress
     Mathematica...

  • 2012-06-14

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年6月14日
    
     下記の通りG/Vキューに障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
    日時:
     2012年6月12日(火) 20:03から2012年6月13日(水) 10:56
    
    影響:
    ・G, V キューに投入したジョブが待ち状態から実行状態へ遷移しない
    
    詳細:
     G, Vキューを管理するt2zpbs03で稼働している
    PBS(ジョブ管理サーバソフト)に問題が発生しました。
    ジョブのスケジューリングを行うための管理プロセスがダウンし、
    結果としてジョブが待ち状態から実行状態へ遷移しない状態と
    なっておりました。そのため、ジョブ管理サーバの
    PBSサービス再起動を実施し、復旧いたしました。
    
    影響を受けたジョブ:
     実行中へのジョブへの影響はありませんでした...

  • 2012-06-05

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                  平成24年6月5日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
     日時:6月4日(月)19:34 から 6月5日(火)3:20
    
     影響:/data0にアクセスできない
    
     詳細:
    
     /data0を構成するストレージシステムsc10において,2つのpool(RAID6グループ一つ)
    でそれぞれ2本のディスク障害が発生し、冗長性が失われました。
     サービスは継続していましたが、19:34にこれらの片方のpool28において8本残ってい
    たディスクに対してコマンドがタイムアウトしたため,これ以上ディスクを壊さないよ
    う自動で書き込みロックがかかりました。
     ディスクそのものはこの状態でも読み出しは可能ですが、/data0のサービス的にはア...

  • 2012-05-18

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年5月18日
    
     下記の通りG/Vキューに障害が発生し、復旧いたしました。皆様にはご迷惑を
    おかけして申し訳ございませんでした。
    
    日時:
     2012年5月16日(水) 18:12から18:54
    
    影響:
    ・G, V キューへのPBSを用いたジョブ投入不可
    ・t2statコマンドによるジョブ実行状況の確認ができない
    ・Cloud UtilizationによるG, Vキューのジョブ実行状況の確認
    
    詳細:
     G, Vキューを管理するt2zpbs04で稼働しているPBS(ジョブ管理サーバソフト)
    に問題が発生しました。PBSサーバに対するt2stat等のコマンドの問い合わせに
    対しコマンドの結果が返却されず、結果としてジョブの投入、確認が
    正常に機能しない状態となっておりました。
    そのため、ジョブ管理サーバのOS再起動を実施し、復旧いたしました。
    
    影響を受けたジョブ:
     ...

ページ