障害履歴

ユーザジョブに影響したと思われる障害の一覧を掲載しています。

より詳細な障害履歴はこちらをご覧ください。
http://mon.g.gsic.titech.ac.jp/trouble-list/index.htm


  • 2012-12-26

    
    (グループディスクを利用している方向けの情報です)
    
    
                                 学術国際情報センター
                                平成24年12月26日
    
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
     日時:12月17日(月) 21:11 から 22:39
    
     影響: /work1, /gscr0 の一部にアクセスできない
    
     詳細:
    
     10日,14日に発生した障害同様、/work1,/gscr0を構成する8台OSSの1台である
    t2s007045 が管理していた一部のOSTへのアクセスが何らかの理由に待ち状態となりま
    した。その後 t2s007045 を再起動し22:39に復旧しました。
     vmcoreを取得する予定でしたが、一部のOSSのディスクコントローラーのFirmwareの
    バージョンが古く取得できなかったため、後日サービスに影響を与えないよう、ペアと...

  • 2012-12-26

    (グループディスクを利用している方向けの情報です)
    
    
                                 学術国際情報センター
                                平成24年12月26日
    
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
     
    
    
     日時:12月14日(金) 5:25 から 9:06
    
     影響:/work1, /gscr0 の一部にアクセスできない
    
     詳細:
    
     10日に発生した障害同様、/work1,/gscr0を構成する8台OSSの1台である t2s007037 
    が管理していた一部のOSTへのアクセスが待ち状態となりました。その後 t2s007037 
    を再起動し9:06に復旧しました。
     前回発生時にStackTraceだけでは原因を特定できなかったため、vmcoreを取得しよ
    うと試みましたが特定の設定の影響により取得に失敗したため、次回発生時に取得可能なよ
    うに設定の変更を行いました。
    
     用語説明
      OSS:...

  • 2012-12-11

    (グループディスクを利用している方向けの情報です)
    
    
                                 学術国際情報センター
                                平成24年12月11日
    
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
     日時:12月10日(月) 20:00 から 22:50
    
     影響: /work1, /gscr0 の一部にアクセスできない
    
     詳細:
    
     /work1,/gscr0を構成する8台OSSの1台である t2s007037 が管理していた一部のOST
    において、アクセスが待ち状態となりました。原因は t2s007037 の IO に関連する
    スレッドの処理が stack したことで、client からの IO 処理を refuse したためです。
    22:34 に t2s007037 を再起動、22:50:32 に全 OST の Recovery が終了し復旧しました。  用語説明   OSS:...

  • 2012-11-22

    利用者各位
    
                                 学術国際情報センター
                                平成24年11月22日
    
     下記の通りモニタリングに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
     日時:11月15日(木) 9時頃 から 16日(金)10:30頃
    
     影響:上記期間中のCloud Monitoring Systemの内容が正しくない
    
     詳細:
    
     15日18時頃より16日10:30頃までGangliaのデータが正常に取得できず、
    Cloud Monitoring System に正しい情報が記録されませんでした。
    データの再取得は出来ないため残念ながらこの期間の情報は修正されません。
    原因は不明ですが、同時間帯に/data0のマウントに問題があったため、関連性が
    ないか確認をしております...

  • 2012-11-22

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                平成24年11月22日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
     日時:11月16日(金) 9時頃 から 10:24頃
    
     影響:/data0の一部にアクセスできない
    
     詳細:
    
     gpfs0 の File System Manager として稼働していた t2s007023 が
    各計算ノードからの token 要求に応答しなかったため、gpfs0(/data0)へ
    の IO 要求が待ち状態となっておりました。
     10時24分に t2s007023 において GPFS を停止し、gpfs0(/data0)の
    File System Manager を t2s007031 へ移動することで復旧しました。
    
                                        以上...

  • 2012-10-12

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                平成24年10月12日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
     日時:10月11日(木) 04:54 から 06:48
    
     影響:/data0の一部にアクセスできない
    
     詳細:
    
     10月11日04:39にt/data0を構成する NSD2f (dm-48)の
     ディスクが2つFailしました。
     そのためRAID6の冗長性がなくなり、AWLが設定されたため、
     /data0 の一部にアクセスできなくなりました。
     06:48にAWLをクリアし/data0の一部にアクセスできない状況から
     回復しました。
    
     用語説明
      AWL:Auto Write Lockの略. 冗長性のない状態になった場合、
        新規の書き込みができなくし、RAIDを保護する機能。...

  • 2012-10-12

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                平成24年10月12日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
    
     日時:10月10日(水) 13:16 から 17:44
    
     影響:/work0の一部にアクセスできない
    
     詳細:
    
     10月10日13:16頃から、4台あるOSSの一つ(t2s007057)でエラーが出力され始め、
     この時間以降 /work0 を構成している56あるOSTの一つ(OST2f)への
     アクセスに問題が発生しました。
    
     復旧のため16:45頃から OST(OST2a〜OST37)を
     アンマウントした状態でリカバリを行い,17:44に復旧しました.
    
     用語説明
      OSS:Lustreファイルシステムにおいて、計算ノードに対してファイルの中身を
         実際に送受信するサーバ
    
      OST:...

  • 2012-09-25

    (グループディスクを利用している方向けの情報です)
    
                                 学術国際情報センター
                                  平成24年9月25日
    
     下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                       記
    
     日時:停電開けの2012年8月16日 より 2012年9月24日13:00頃
    
     影響:Lustreファイルシステム(/work[01])のクオータが正しく機能しない。
    
     詳細:
    
     グループディスクを購入量の上限に達していない場合においても、LustreFSがクオータの
    上限に達していると判断し、新しい書き込みの際に”Disk quota exceeded”となり、
    /work0, /work1, への書き込みが出来ない状況となりました。
    
     2012年8月20日に上記事象を認識し、原因が分からず復旧できなかったため、13時頃
    /work0, /work1, のクオータをオフにし、一時的に上限無く書き込めるよう設定...

  • 2012-07-09

    (TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
    
                                学術国際情報センター
                                 平成24年7月9日
    
     下記の通りH/Xキューに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
    して申し訳ございませんでした。
    
                      記
    
    日時:
    
     2012年7月6日(金) 20:21から2012年7月9日(月) 11:40
    
    
    影響:
    
    ・H/XキューへのPBSを用いたジョブ投入ができない
    
    ・7月6日 20:21 に実行中であったジョブのPBS標準出力、
     標準エラー出力ファイルが正常に生成されない
    
    ・Cloud Utilization、t2statコマンドによる
     H/Xキューのジョブ実行状況の確認ができない
    
    
    詳細:
    
     7月6日 20時21分に H, XキューのPBS管理サーバt2zpbs05で稼働している
    PBS(ジョブ管理サーバソフト)に問題が発生しました。ジョブを管理するためのプロセ
    スがダウンし、X...

  • 2012-07-03

    (TSUBAME計算サービス、ソフトウェア配布のうちライセンスを
    使用するアプリケーションを利用している方向けの情報です)
    
                                学術国際情報センター
                                平成24年7月3日
    
     下記の通りライセンスサーバに障害が発生し、復旧いたしました。
    皆様にはご迷惑をおかけして申し訳ございませんでした。
    
    日時:
     2012年7月3日(火) 9:18から9:46
    
    影響:
    ・以下のアプリケーションの新規起動ができない、
     利用中のアプリケーションが強制終了する
    
     Intel Compiler
     PGI Compiler
     VTune Amplifier XE
     Total View Debugger
     HMPP
     ANSYS(Workbench, Fluent)
     ABAQUS, ABAQUS CAE
     MD Nastran
     Patran
     Marc
     Mentat
     Dytran
     Materials Studio
     Discovery Studio
     Scigress
     Mathematica...

ページ