検索対象:     
報告書番号:
※ 半角英数字
 年 ~ 
 年

Accumulating knowledge for a performance portable kinetic plasma simulation code with Kokkos and directives

高性能可搬な運動論的シミュレーションコード実現のためのKokkosや指示行実装時の性能調査

朝比 祐一   ; Latu, G.*; Bigot, J.*; Grandgirard, V.*

Asahi, Yuichi; Latu, G.*; Bigot, J.*; Grandgirard, V.*

性能可搬な運動論的プラズマシミュレーションコードの実現に向けて、単純化されたミニアプリを開発し、それを性能可搬ライブラリKokkosと指示行によってCPU, GPUで並列実行可能にした。可搬性を高めるため、Kokkosと指示行実装どちらにおいてもコードをCPUとGPUで別途実装することは避け、単一実装でCPU, GPUで並列実行可能とした。開発したミニアプリの性能を富士通A64FX, Nvidia GPUおよびIntel CPUで性能測定した。これらのアーキテクチャはエクサスケールスーパコンピュータにおいて主要な候補になっている。NvidiaやIntelにおいては良好な性能が得られたものの、A64FXにおいてはメモリの間接参照により大幅に性能が大幅劣化することが明らかとなった。講演では、可読性や生産性を高めるためのKokkosや指示行での実装方法についても論じる。

To prepare the performance portable version of the kinetic plasma simulation code, we develop a simplified but self-contained semi-Lagrangian mini-app with Kokkos performance portable framework and OpenMP/OpenACC which works on both CPUs and GPUs. We investigate the performance of the mini-app over the novel arm-based processor Fujitsu A64FX, Nvidia Tesla GPU, and Intel Skylake, where the arm-based architectures and GPUs are supposed to be major architectures in the exa-scale supercomputing era. The porting cost is highly suppressed with both Kokkos and directive implementations, where the code duplication is avoided. The higher performance portability is achieved with OpenMP/OpenACC, particularly for the compute intense kernels among the hotspots. Unfortunately, a relatively low performance is obtained on A64FX for kernels with indirect memory accesses. We also discuss what kind of Kokkos/OpenMP/OpenACC features are useful to improve the readability and productivity.

Access

:

- Accesses

InCites™

:

Altmetrics

:

[CLARIVATE ANALYTICS], [WEB OF SCIENCE], [HIGHLY CITED PAPER & CUP LOGO] and [HOT PAPER & FIRE LOGO] are trademarks of Clarivate Analytics, and/or its affiliated company or companies, and used herein by permission and/or license.