【障害報告】2015.2.14発生:/work0 ストレージ障害 (OST bitmap)

(グループディスクを利用している方向けの情報です)

                             学術国際情報センター
平成27年2月19日

 下記の通りストレージに障害が発生し、復旧いたしました。皆様にはご迷惑をおかけして申し訳ございませんでした。

 日時:2月14日(土) 18:33 から 2月16日(月) 12:17 頃

 影響: /work0の一部に書き込みができない。

 詳細:

 8台あるOSSの中の1台 t2s007001 に接続されるOSTの1つ work0-OST0000 において、”Invalid block bitmap”とのエラーを検知し、OST が read-only で再マウントされておりました。このため障害発生から復旧までの間、当該OSTに対する書き込みができない状態となっておりました。なお/work0を構成するOSTの数は56のため、1/56に問題があったことになります。

 前回の障害同様に原因は read 処理時に対象 block の bitmap が最新である旨の bitmap_uptodata flag を立てますが、その処理が buffer のロックを行わないため、他 thread による buffer 領域の更新が可能となり、対象 buffer の read 処理が終 了する前に先の bitmap 情報と buffer が異なってしまうことによるものです。こちらはあくまでも内部 bitmap と buffer 上の不整合のため、Disk 上の実データの不整合を意味しません。

 本障害は12/19にbitmap_uptodata flag を設定する際に発生する複数 thread 間の競合を修正するパッチを適用しておりましたが問題が再発したことになります。今回の障害はdebug用パッチにより該当ブロックについて追加の情報が得られているため現在解析をすすめております。

用語説明
  OSS:Lustreファイルシステムにおいて、計算ノードに対してファイルの中身を
     実際に送受信するサーバ

  OST:Lustreファイルシステムにおいて、ファイルの中身を実際に保存している
     ディスクの集合体