横田理央研究室では、全員にラップトップ、ディスプレイ、キーボード、マウスなど一式を支給します。 また、多数のスーパーコンピュータを利用することができます。
例えば:
このほかにも、研究室で運用する「ひなどりクラスタ」があります。
ひなどりクラスタ
ひなどりクラスタはスーパーコンピュータなどでは取り入れられていない最新の環境をいち早く導入して研究を行うことを目的に構築・運用されています。
学生が主体となって仕様決定・調達・運用を行っています。
ハードウェア
横田理央研究室での研究対象はGPUであることが多いため、多数のGPUサーバを保有しています(合計74GPUs)。
CPU |
ホストメモリ |
GPU (1ノードあたりの搭載数 |
台数 |
Intel Xeon Silver 4215 |
96GB |
NVIDIA GeForce GTX 1080Ti (2) |
4 |
NVIDIA GeForce RTX 2080 (2) |
2 |
||
NVIDIA GeForce RTX 2080Ti (2) |
1 |
||
NVIDIA TITAN V (2) |
1 |
||
NVIDIA TESLA V100 PCIe 16GB (1) |
1 |
||
Intel Xeon E5-2630v3 |
64GB |
NVIDIA TITAN RTX (1) |
1 |
AMD EPYC 7742 |
1TB |
NVIDIA A100 40GB SXM4 (8) |
1 |
AMD EPYC 7313 |
512GB |
NVIDIA A100 80GB PCIe (8) |
1 |
AMD EPYC 7453 |
512GB |
NVIDIA A6000 (8) |
1 |
AMD Ryzen Threadripper 3960X |
128GB |
NVIDIA A4500 (2) |
4 |
AMD EPYC 7402 |
512GB |
NVIDIA GeForce RTX 3090 (8) |
3 |
SSDファイルサーバー 100TB以上
HDDファイルサーバー 400TB以上
(ただし,どちらもRAID10で運用されているため使える容量は半分)
(2024.11.16現在)
ソフトウェア
ジョブスケジューリング
ジョブスケジューリングにはSlurm Workload Managerをベースとし、より簡単にジョブの投入ができる独自のシステムを用いています。
Slurmには1ノードに複数のジョブを割り当てる機能がありますが、これを簡単に利用するための機能が備わっています。
監視基盤
Prometheusによるメトリクスの集約、Grafanaによるメトリクスの可視化を行っています。
監視している主なメトリクスには、CPU使用率やGPU使用率といった性能最適化に利用できるものや、ひなどりクラスタの利用履歴やGPUの温度、消費電力など管理者による監視に必要なものがあります。
ユーザは様々な情報にブラウザ経由でアクセスできます。
開発環境
CUDA関係や各種コンパイラはEnvironment Modulesで管理されており、好きなバージョンを指定して使うことができます。
標準的なアプリケーション以外にも、プログラムの実行中にGPUの温度や消費電力などを記録していく独自のアプリケーションの提供も行っています。
運用
運用の上で「管理に時間をかけない」ことを大切にしています。
クラスタの運用は、学生や先生のボランティアによって行われておりますが、本業の研究が進まなくなってしまっては元も子もありません。
そのため、構成管理ツールのAnsibleや、リモート管理ツールのIPMI、ユーザ管理のためLDAPのSaaSを導入するなどして、できるだけ手が掛からないようにしています。
新たにノードをセットアップする処理も自動化されており、OSのインストールから30分程度でユーザが利用できます。