検索対象:     
報告書番号:
※ 半角英数字
 年 ~ 
 年

テラフロップス級メニーコアアーキテクチャにおけるステンシル計算の最適化手法の開発

Development of optimization of stencil calculation on Tera-flops many-core architecture

伊奈 拓也; 朝比 祐一  ; 井戸村 泰宏  

Ina, Takuya; Asahi, Yuichi; Idomura, Yasuhiro

核融合分野で研究されているプラズマ乱流シミュレーションには多大な計算資源が必要となる。特に、国際熱核融合実験炉ITER規模のシミュレーションを実行するためには将来のエクサスケールマシンが必要不可欠である。エクサスケールマシンのアーキテクチャは未定であるが、現存するアーキテクチャがベースになると考えられる。本研究の目的はテラフロップス級の演算性能を持つアーキテクチャであるXeon phi, GPU, FX100に対するステンシル計算の最適化手法を確立することである。Xeon phiに対しては多重ループの一重化およびスレッド間の動的スケジューリング。GPUに対してはwarp divergenceの回避およびレジスタの再利用。FX100に対してはチャンクサイズの調整によるL2キャッシュの再利用とL1キャッシュに対するソフトウェアプリフェチの促進。Xeon phi, GPU, FX100に対して最適化を施すことで性能が向上した。Xeon phi, GPU, FX100についてステンシル計算の効果的な最適化手法を確認した。

Plasma turbulence simulation is requiring significant computational resources. In particular, in order to simulation of the International Thermonuclear Experimental Reactor ITER scale is essential to the Exa-scale machine. Exa-scale machine architecture is undecided, but it is believed that the architecture of the existing is based. The purpose of this study is to establish the optimization techniques of stencil calculations for Xeon phi, GPU and FX100. These architecture is teraflops-class computing performance. The dynamic scheduling and change from multi loop to single loop for the Xeon phi. Reuse of the Register and avoid warp divergence for the GPU. The promotion of the software prefetch for reuse L1 cache and L2 cache by adjusting the chunk size for the FX100. Performance is improved by applying the optimization to the Xeon phi, GPU and FX100. We confirmed the effective optimization method of stencil calculation for Xeon phi, GPU and FX100.

Access

:

- Accesses

InCites™

:

Altmetrics

:

[CLARIVATE ANALYTICS], [WEB OF SCIENCE], [HIGHLY CITED PAPER & CUP LOGO] and [HOT PAPER & FIRE LOGO] are trademarks of Clarivate Analytics, and/or its affiliated company or companies, and used herein by permission and/or license.