Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
朝比 祐一; Latu, G.*; Bigot, J.*; Grandgirard, V.*
Proceedings of 2021 International Workshop on Performance, Portability, and Productivity in HPC (P3HPC) (Internet), p.79 - 91, 2021/11
本論文では、性能可搬な運動論的プラズマシミュレーションコードのための最適化手法について論じる。まず、性能可搬ライブラリKokkosと指示行(OpenACC/OpenMP)により、単一実装でCPU、GPUで実行可能な運動論的プラズマシミュレーションコードを開発した。これに最適化を施し、Intelや富士通のCPUおよびNvidia GPUにおいて最適化の効果を評価した。その結果、OpenACC/OpenMPでは1.07倍から1.39倍の性能向上が見られ、Kokkos版では、1.00倍から1.33倍の性能向上が見られた。複数の実装による様々なカーネルの最適化手法の効果を多数のデバイスにおいて調査した本成果は、最適化手法として幅広く利用可能と言える。Kokkosは複数のデータ構造やループ構造を単一コードによって表現することに長けており、CPUとGPU両方において高い性能を発揮するために適したフレームワークであると確認した。
朝比 祐一; Latu, G.*; Bigot, J.*; Grandgirard, V.*
Proceedings of Joint International Conference on Supercomputing in Nuclear Applications + Monte Carlo 2020 (SNA + MC 2020), p.218 - 224, 2020/10
エクサスケール計算機時代には、CPUやGPUの種類を問わずに高性能を発揮する性能可搬性が重要となることが予想される。発表者は、どのような技術を活用すれば運動論的モデルを採用するプラズマ乱流コードの高可搬性実装が可能となるかを調べた。運動論的コードの例として仏国CEAで開発されたGYSELAコードに着目し、当該コードを特徴付ける高次元性(4次元以上)とSemi-Lagrangianスキームといった特徴を抽出したミニアプリケーションを作成した。発表者はミニアプリケーションをOpenACC, OpenMP4.5およびKokkosを用いて並列化し、それぞれの手法の利点,欠点を調査した。OpenACCおよびOpenMP4.5は指示行を挿入することで、Kokkosは高レベルな抽象化を行うことで性能可搬実装を実現する。発表では、生産性,可読性,性能可搬性の観点からそれぞれの手法の利点,欠点を論じる。
井戸村 泰宏; Ali, Y.*; 小野寺 直幸; 長谷川 雄太; 伊奈 拓也*
no journal, ,
大規模CFDシミュレーションにおいてクリロフソルバが全計算コストの約90%を占める。そのようなCFDコードを加速するために、前処理付共役勾配(PCG)法, 前処理付チェビシェフ基底省通信共役勾配(P-CBCG)法, 省通信一般化最小残差(CA-GMRES)法をGPU環境に移植した。本講演ではこれらのソルバをOpenACC, CUDA、および、CUDA aware MPIを用いて移植する上でのノウハウを議論する。
朝比 祐一; 前山 伸也*; Latu, G.*; Garbet, X.*; 渡邉 智彦*; 青木 尊之*; 荻野 正雄*
no journal, ,
2019年度学際大規模情報基盤共同利用・共同研究拠点(JHPCN)国際共同研究のもと、仏国CEAの共同研究者とエクサスケールの核融合プラズマ乱流シミュレーションのための物理モデル開発およびHPC技術開発を行った。先進的な物理モデルとして仏国開発のGYSELAコードに運動論的電子モデルを導入し、日本において開発された同等のコードであるGT5Dコードと線形計算におけるベンチマークを行った。HPC技術開発としては、どのような技術を活用すれば運動論コードの高可搬性実装が可能となるかを調べた。特に、GYSELAコードを特徴付ける高次元性とSemi-Lagrangian schemeといった特徴を抽出したミニアプリケーションを作成し、それをOpenACCおよびKokkosにおいて並列化し、それぞれの手法の利点, 欠点を調査した。OpenACCは指示行を挿入することで、Kokkosは高レベルな抽象化を行うことで性能可搬実装を実現する。発表では、生産性, 可読性, 性能可搬性の観点からそれぞれの手法の利点, 欠点を論じる。
朝比 祐一; Latu, G.*; Bigot, J.*; Grandgirard, V.*
no journal, ,
性能可搬な運動論的プラズマシミュレーションコードの実現に向けて、単純化されたミニアプリを開発し、それを性能可搬ライブラリKokkosと指示行によってCPU, GPUで並列実行可能にした。可搬性を高めるため、Kokkosと指示行実装どちらにおいてもコードをCPUとGPUで別途実装することは避け、単一実装でCPU, GPUで並列実行可能とした。開発したミニアプリの性能を富士通A64FX, Nvidia GPUおよびIntel CPUで性能測定した。これらのアーキテクチャはエクサスケールスーパコンピュータにおいて主要な候補になっている。NvidiaやIntelにおいては良好な性能が得られたものの、A64FXにおいてはメモリの間接参照により大幅に性能が大幅劣化することが明らかとなった。講演では、可読性や生産性を高めるためのKokkosや指示行での実装方法についても論じる。
朝比 祐一
no journal, ,
性能可搬な運動論的プラズマシミュレーションコードのための最適化手法について論じる。まず、性能可搬ライブラリKokkosと指示行(OpenACC/OpenMP4.5/OpenMP)により、単一実装でCPU、GPUで実行可能な運動論的プラズマシミュレーションコードを開発した。これに最適化を施し、Intel CPUおよびNvidia GPUにおいて最適化の効果を評価した。その結果、OpenACC/OpenMPでは1.07倍から1.39倍の性能向上が見られ、Kokkos版では、1.00倍から1.33倍の性能向上が見られた。複数の実装による様々なカーネルの最適化手法の効果を多数のデバイスにおいて調査した本成果は、最適化手法として幅広く利用可能と言える。Kokkosは複数のデータ構造やループ構造を単一コードによって表現することに長けており、CPUとGPU両方において高い性能を発揮するために適したフレームワークであると確認した。