このページの更新は終了しました。

最新の情報はTSUBAME3.0計算サービスのWebページをご覧ください。

TSUBAME2.5からTSUBAME3.0へのデータ移行方法の資料はこちら

障害

【障害報告】2011.9.9発生:ジョブスケジューラ障害

(TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)

                            学術国際情報センター
                            平成23年9月13日

 下記の通りジョブ管理システム(ジョブスケジューラ)に障害が発生し、復旧いたし
ました。皆様にはご迷惑をおかけして申し訳ございませんでした。

                    記

 日時:9月9日(金)  10:24頃 ~ 10:45頃

 影響:上記日時の間、t2sub, t2stat, t2del コマンドの実行ができませんでした。
    なお、この障害による待ちジョブ、実行ジョブへの影響はございません。

 原因:コマンド領域マウント作業ミス

                                   以上

日本語

【障害報告】2011.9.1発生:ジョブスケジューラ障害

(TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
 
                            学術国際情報センター
                             平成23年9月2日

 下記の通りジョブ管理システム(ジョブスケジューラ)に障害が発生し、復旧いたし
ました。皆様にはご迷惑をおかけして申し訳ございませんでした。

                   記


 日時:9月1日(木)16:22頃 ~ 9月1日(木) 18:10頃

 影響:t2subでSキューにジョブを投入できない。
    t2statの表示がおかしい。

 詳細:
  naregi関連の管理ノードより何らかの非常に大きな通信が発生して、Sキューの
 ジョブスケジューラの通信を塞いでしまい、通信不能になりました。通信の発生源
 となるノードを停止することにより復旧いたしました。
  なお、この障害による待ちジョブ、実行ジョブへの影響はございません。

                                    以上
英語

【障害報告】2011.9.2発生:ジョブスケジューラ障害

(TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
 
                            学術国際情報センター
                             平成23年9月2日

 下記の通りジョブ管理システム(ジョブスケジューラ)に障害が発生し、復旧いたし
ました。皆様にはご迷惑をおかけして申し訳ございませんでした。

                   記


 日時:9月2日(金)8:00頃 ~ 9月2日(金) 10:15頃

 影響:t2subでSキュー投入してもステータスがQのまま実行されない。

    待機系への切り替え中に
      ・Cloud Service Utilizatioの表示がおかしい。
      ・t2subでSキューにジョブを投入できない。

 詳細:
  9月1日に発生したジョブスケジューラの障害が原因と思われる、ジョブスケジューラ
 デーモンの動作不良が発生し、9:40頃より待機系のサーバーへ切り替えをおこない、
 10:15頃正常動作を確認しました。
  なお、この障害による待ちジョブ、実行ジョブへの影響はございません。

                                      以上
英語

【障害報告】2011.9.2発生:ジョブスケジューラ障害

(TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
 
                            学術国際情報センター
                             平成23年9月2日

 下記の通りジョブ管理システム(ジョブスケジューラ)に障害が発生し、復旧いたし
ました。皆様にはご迷惑をおかけして申し訳ございませんでした。

                   記


 日時:9月2日(金)8:00頃 ~ 9月2日(金) 10:15頃

 影響:t2subでSキュー投入してもステータスがQのまま実行されない。

    待機系への切り替え中に
      ・Cloud Service Utilizatioの表示がおかしい。
      ・t2subでSキューにジョブを投入できない。

 詳細:
  9月1日に発生したジョブスケジューラの障害が原因と思われる、ジョブスケジューラ
 デーモンの動作不良が発生し、9:40頃より待機系のサーバーへ切り替えをおこない、
 10:15頃正常動作を確認しました。
  なお、この障害による待ちジョブ、実行ジョブへの影響はございません。

                                      以上
日本語

【障害報告】2011.9.1発生:ジョブスケジューラ障害

(TSUBAME計算サービスでバッチサービスを利用している方向けの情報です)
 
                            学術国際情報センター
                             平成23年9月2日

 下記の通りジョブ管理システム(ジョブスケジューラ)に障害が発生し、復旧いたし
ました。皆様にはご迷惑をおかけして申し訳ございませんでした。

                   記


 日時:9月1日(木)16:22頃 ~ 9月1日(木) 18:10頃

 影響:t2subでSキューにジョブを投入できない。
    t2statの表示がおかしい。

 詳細:
  naregi関連の管理ノードより何らかの非常に大きな通信が発生して、Sキューの
 ジョブスケジューラの通信を塞いでしまい、通信不能になりました。通信の発生源
 となるノードを停止することにより復旧いたしました。
  なお、この障害による待ちジョブ、実行ジョブへの影響はございません。

                                    以上
日本語

【障害報告】2011.8.29発生:Infinibandネットワーク障害

(TSUBAME計算サービスを利用している方向けの情報です)
 
                            学術国際情報センター
                            平成23年8月30日
 下記の通りネットワーク障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
して申し訳ございませんでした。

                   記


 日時:8月29日(月)17:00 ~ 8月30日(火) 0:40

 影響:SSHログイン不可
    バッチジョブ

 詳細:
  17時頃にInfiniband(IB)のコアスイッチに障害が発生し、IBネットワークの通信
 ができなくなるという状況が発生致しました。一部のノード間は通信できる状態であっ
 たため、監視を続けておりましたが、状況が改善されなかったため,24時頃にIBのネッ
 トワーク経路等を制御するSubnetManager(SM)の再起動を行いました。その結果24時
 40分にSMが正常に立ち上り、通信できる状態になりました。
  なお、この障害の影響があった可能性があるジョブ(発生日時に実行中だったジョブ)
 は以下通りです。

日本語

【障害報告】2011.8.29発生:Infinibandネットワーク障害

(TSUBAME計算サービスを利用している方向けの情報です)
 
                            学術国際情報センター
                            平成23年8月30日
 下記の通りネットワーク障害が発生し、復旧いたしました。皆様にはご迷惑をおかけ
して申し訳ございませんでした。

                   記


 日時:8月29日(月)17:00 ~ 8月30日(火) 0:40

 影響:SSHログイン不可
    バッチジョブ

 詳細:
  17時頃にInfiniband(IB)のコアスイッチに障害が発生し、IBネットワークの通信
 ができなくなるという状況が発生致しました。一部のノード間は通信できる状態であっ
 たため、監視を続けておりましたが、状況が改善されなかったため,24時頃にIBのネッ
 トワーク経路等を制御するSubnetManager(SM)の再起動を行いました。その結果24時
 40分にSMが正常に立ち上り、通信できる状態になりました。
  なお、この障害の影響があった可能性があるジョブ(発生日時に実行中だったジョブ)
 は以下通りです。

英語

ページ