Acceleration of stencil-based fusion kernels
朝比 祐一* ; Latu, G.*; 伊奈 拓也; 井戸村 泰宏 ; Grandgirard, V.*; Garbet, X.*
Asahi, Yuichi*; Latu, G.*; Ina, Takuya; Idomura, Yasuhiro; Grandgirard, V.*; Garbet, X.*
セミ・ラグランジュ法, 有限差分法といったステンシル計算に基づく核融合プラズマ乱流コードの計算カーネルをGPUGPU, Xeon Phi, FX100といった最新メニーコアプロセッサ上で最適化し、1.4x - 8.1xの処理性能向上を達成した。数値計算法によって異なるメモリアクセスパターンと各ハードウェアのメモリ-キャッシュ機構の親和性を確認し、各環境で異なる最適化技術を開発した。XeonPhiではスレッド間のロードバランスを向上し、ローカルキャッシュ有効利用のための最適化技術を開発した。GPGPUではテクスチャメモリを活用した最適化技術やレジスタを再利用する実装を開発した。一方、FX100では従来のCPU向け最適化をそのまま利用できることがわかった。
Computation kernels of fusion plasma turbulence codes based on the Semi-Lagrangian scheme and the Finite-Difference scheme are optimized on latest many core processors such as GPGPU, XeonPhi, and FX100, and 1.4x-8.1x speedup is achieved. Affinity between different memory access patterns in each numerical scheme and difference memory-cache architectures on each hardware is studied, and different optimization techniques are developed for each architecture. On Xeon Phi, thread load balance is improved, and an optimization technique for effective local cache usage is developed. On GPGPU, an optimization technique using a texture memory and an implementation to reuse registers are developed. On the other hand, on FX100, it is found that the conventional optimization techniques for CPU work.