Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
朝比 祐一*; Latu, G.*; 伊奈 拓也; 井戸村 泰宏; Grandgirard, V.*; Garbet, X.*
IEEE Transactions on Parallel and Distributed Systems, 28(7), p.1974 - 1988, 2017/07
被引用回数:7 パーセンタイル:53.70(Computer Science, Theory & Methods)セミ・ラグランジュ法における間接メモリアクセス、有限差分法におけるストライドメモリアクセスといった複雑なメモリアクセスパターンを有する核融合プラズマ乱流コードの高次元ステンシル計算をGPGPUやXeon Phiプロセッサ等の演算加速器上で最適化した。どちらのデバイスでも、Array of Structure of Array (AOSOA)データレイアウトが連続的なメモリアクセスに有効である。Xeon Phiでは時空間データ局所性の向上によるローカルキャッシュの効率的利用が必要不可欠である。GPGPUではテクスチャメモリの利用がセミ・ラグランジュ法の間接メモリアクセス性能を向上する。これらの最適化により、アクセラレータ用核融合カーネルはCPU用カーネルに比べてSandy Bridge (CPU)用最適化コードに比べて1.4x - 8.1x高速化した。
朝比 祐一*; Latu, G.*; 伊奈 拓也; 井戸村 泰宏; Grandgirard, V.*; Garbet, X.*
no journal, ,
セミ・ラグランジュ法, 有限差分法といったステンシル計算に基づく核融合プラズマ乱流コードの計算カーネルをGPUGPU, Xeon Phi, FX100といった最新メニーコアプロセッサ上で最適化し、1.4x - 8.1xの処理性能向上を達成した。数値計算法によって異なるメモリアクセスパターンと各ハードウェアのメモリ-キャッシュ機構の親和性を確認し、各環境で異なる最適化技術を開発した。XeonPhiではスレッド間のロードバランスを向上し、ローカルキャッシュ有効利用のための最適化技術を開発した。GPGPUではテクスチャメモリを活用した最適化技術やレジスタを再利用する実装を開発した。一方、FX100では従来のCPU向け最適化をそのまま利用できることがわかった。