Contents

Previous Topic

1. はじめに

Next Topic

3. 利用環境

2. TSUBAME2.5 概要

2.1 全体概念

本システムでは,汎用CPUとGPU型アクセラレータによる17PFLOPS(単精度)の演算性能を実現しております. TSUBAME2.5 の全体概念を以下に示します.

TSUBAME2 Overview

2.2計算ノード

計算ノードを構成するマシンは以下のとおりです.

  • Thin計算ノード

    • HP社製サーバ「HP SL390s G7」を1,408ノードで構成しています.
    • 各ノードは,Intel社製CPU「Xeon X5670」を2Socket(12Core)有しています.
    • 各ノードは,54GiBのメモリを有しています.一部96GiBのメモリを有しています.
    • NVIDIA社製「NVIDIA Tesla K20X」 を3GPU搭載しています.

    これによりTSUBAME2.5のピーク性能は単精度 17 ペタフロップス,倍精度で 5.7 ペタフロップス, 総主記憶容量は,80.55TBとなっています.

  • Medium(24ノード),Fat(10ノード)計算ノード

    • HP社製サーバ「HP DL580 G7」を合計34ノードで構成しています.
    • Intel社製CPU「Xeon 7550(Nehalem-EX)」を4Socket(32Core)を搭載しております.
    • 各ノードは128GiB,または256GiB,または512GiBのメモリを有しています.
    • NVIDIA社製GPU「Tesla S2070」または「Tesla S1070」 を1基接続しています(1基あたり4GPU搭載).

TSUBAME2.5のマシンの基本スペックは次の通りです.

タイプ ノード数 CPU CPUclock コア/スレ Memory SSD GPU GPU性能 GPUメモリ net 備考
TypeA 1219 Xeon 5670 2.93GHz(※) 12/24 54GiB 120GB K20X×3 1.31Tflops×3 6GB×3 40Gbps×2 Thin
TypeB 39 Xeon 5670 2.93GHz(※) 12/24 96GiB 240GB K20X×3 1.31Tflops×3 6GB×3 40Gbps×2 Thin
TypeC 0 Xeon 7550 2.0GHz 32/64 128GiB 480GB S1070 345Gflops 4GB×4 40Gbps Medium
TypeD 0 Xeon 7550 2.0GHz 32/64 128GiB 480GB S2070 515Gflops×4 6GB×4 40Gbps Medium
TypeE 8 Xeon 7550 2.0GHz 32/64 256GiB 600GB 40Gbps Fat
TypeF 2 Xeon 7550 2.0GHz 32/64 512GiB 600GB 40Gbps Fat

※ Intel Turbo Boost Technology により3.196GHzで動作可能.

2.3 オペレーティングシステム構成

オペレーティングシステム(OS)は,下記の環境を有しています. OS構成は,サービス実行形態に応じて動的に変更されます. また,一部のノードでは,OSが仮想環境上で動作しています.

  • SUSE Linux Enterprise Server 11 SP3
  • Windows HPC Server 2008 R2

2.4 ストレージ

マルチペタバイト級ストレージは,Data Direct NETWORKS社製「DDN SFA10000」を中心として構成されております. 非 フォーマット時で7.13PBの物理容量を有しています. ペタバイト級ストレージはLustreやGPFSを利用した「並列ファイルシステム領域」,NFS,CIFS,iSCSIを備えた「ホーム領域」などから構成されております. data領域(/data0)はテープライブラリとGPFSファイルシステムが連動した階層型ストレージとして構成されます. また,ローカルのSSD領域も利用可能です. 利用にあたっては, 4.6 ストレージの利用 も参照ください.

◎ストレージの特徴

 様々な領域がありますが,/work0,1 を購入してジョブを実行するのが一般的です.

  • /home 環境設定やソースコード等重要なデータを保存する.ジョブの実行は極力避ける.
  • /nest2 Windows環境からエクスプローラでアクセスする.TSUBAME内からはインタラクティブノードからのみ アクセス可.低速なのでジョブの実行には向かない.
  • /data0  2016年4月以降の新規利用はできません。 30TB以上の大容量の入出力結果を長期間保存する.高速な並列I/Oでジョブを実行する. ただし,U,Vキューからは利用できない.(有料)
  • /gscr0 ジョブ実行中に生成される中間ファイルや一時ファイルを保存し,高速な並列I/Oでジョブを実行する. クオータ制限が無いため,最大100TB程度までの容量を利用できるが,ジョブ実行の終了後に削除される. バッチノードからのみアクセス可.
  • /work0,1 30TBまでの入出力結果を保存する.高速な並列I/Oでジョブを実行する.(有料)
  • /scr  ジョブ実行中にノード内でしか利用できないが,高速かつ大量の細かいI/Oのジョブを実行する.
  • /tmp  システムを動作させるのに必要なため,ジョブの実行に原則利用不可. アプリケーションが使用する場合もあるが, 作成から1週間経過したファイルは削除 する.

◎バックアップ,冗長性

  • /home RAID-6構成,定時バックアップあり
  • /nest2 RAID-6構成,定時バックアップあり
  • /data0 RAID-6構成, バックアップなし
  • /gscr0 RAID-6構成,ジョブ終了後削除
  • /work0,1  RAID-6構成, バックアップなし
  • /scr  RAID-0構成,ジョブ終了後保障なし

マルチペタバイト級ストレージ環境は以下の構成となっています.

○ホーム領域(1.2PB)

用途 マウント ファイルシステム 備考
homeディレクトリ /home GPFS+cNFS GridScaler
共有アプリケーション配備 /usr/apps GPFS+cNFS GridScaler
全学ストレージサービス \\nest2 , /nest2 CIFS , NFS BlueArc Mercury 100
教育用電子計算機システム \\nest2 CIFS BlueArc Mercury 100
TSUBAMEホスティング   iSCSI BlueArc Mercury 100

○並列ファイルシステム領域(大規模並列領域)(5.93PB)

用途 マウント ファイルシステム
大規模データ領域 /data0 ※ GPFS
共有スクラッチ領域 /gscr0 Lustre
大規模I/O領域 /work0 ,/work1 Lustre

 ※ただしU,Vキューでは利用不可 (2016年4以降の新規利用はできません)

○ローカルスクラッチ領域(SSD)

用途 マウント ファイルシステム 容量
ローカル高速I/O /scr ext3 ※注

※ノードによって異なります.詳しくは 4.6.5 ローカルスクラッチ を参照ください.

○テープ領域(4PB) (2016年4月以降の新規利用はできません)

用途
/data0のマイグレーション
システムのバックアップ

2.5 ネットワーク

各計算ノード間は,Voltaire社製InfiniBand装置「Grid Director 4700」を利用して, フルバイセクション・ノンブロッキングな結合網を有しています. ThinノードはデュアルレールのQDR InfiniBandネットワークに接続しており,合計で最大80Gbpsの通信性能を有しています.

TSUBAME2.5のネットワーク相互関係図を以下に示します.

TSUBAME2 Network