検索対象:     
報告書番号:
※ 半角英数字
 年 ~ 
 年
検索結果: 12 件中 1件目~12件目を表示
  • 1

発表形式

Initialising ...

選択項目を絞り込む

掲載資料名

Initialising ...

発表会議名

Initialising ...

筆頭著者名

Initialising ...

キーワード

Initialising ...

使用言語

Initialising ...

発行年

Initialising ...

開催年

Initialising ...

選択した検索結果をダウンロード

論文

Acceleration of fusion plasma turbulence simulations using the mixed-precision communication-avoiding Krylov method

井戸村 泰宏; 伊奈 拓也*; Ali, Y.*; 今村 俊幸*

Proceedings of International Conference for High Performance Computing, Networking, Storage, and Analysis (SC 2020) (Internet), p.1318 - 1330, 2020/11

5次元ジャイロ運動論モデルに基づく次世代核融合実験炉ITERのマルチスケールfull-$$f$$シミュレーションは核融合科学において最も計算コストが大きい問題の一つである。本研究では、新しい混合精度省通信クリロフ法を用いてジャイロ運動論的トロイダル5次元オイラーコードGT5Dを高速化した。演算加速環境における大域的集団通信のボトルネックを省通信クリロフ法によって解決した。これに加えて、A64FXにおいて新たにサポートされたFP16SIMD演算を用いて設計された新しいFP16前処理により、反復(袖通信)の回数と計算コストの両方を削減した。富岳とSummitにおける1,440CPU/GPUを用いた1,000億格子のITER規模シミュレーションに対して、提案手法の処理性能は従来の非省通信クリロフ法に比べてそれぞれ2.8倍, 1.9倍高速化され、5,760CPU/GPUまで良好な強スケーリングを示した。

論文

Implementation and performance evaluation of a communication-avoiding GMRES method for stencil-based code on GPU cluster

松本 和也*; 井戸村 泰宏; 伊奈 拓也*; 真弓 明恵; 山田 進

Journal of Supercomputing, 75(12), p.8115 - 8146, 2019/12

 被引用回数:1 パーセンタイル:26.51(Computer Science, Hardware & Architecture)

ジャイロ運動論的トロイダル5次元オイラーコードGT5Dにおける反復法線形ソルバの性能向上に向けて省通信一般化最小残差法(CA-GMRES)をCPU-GPUハイブリッドクラスタで実装した。CA-GMRESに加え、計算量を削減するために我々が提案した修正版CA-GMRES(M-CA-GMRES)の実装と評価も行った。本研究から、集団通信回数の最小化と密行列積演算による高効率演算というCA-GMRESの利点が実証された。性能評価は1ノードあたりNVIDIA Tesla P100 GPU4台を搭載したReedbush-L GPUクラスタで実施した。この結果、M-CA-GMRESによりCA-GMRES, 一般化共役残差法(GCR), GMRESに比べてそれぞれ1.09x, 1.22x, 1.50xの高速化が示された。

論文

GPU acceleration of communication avoiding Chebyshev basis conjugate gradient solver for multiphase CFD simulations

Ali, Y.*; 小野寺 直幸; 井戸村 泰宏; 伊奈 拓也*; 今村 俊幸*

Proceedings of 10th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems (ScalA 2019), p.1 - 8, 2019/11

 被引用回数:6 パーセンタイル:99.17

大規模線形問題の反復法ソルバはCFDコードで共通に用いられる。前処理付共役勾配(P-CG)法は最も広く用いられている反復法の一つである。しかしながら、P-CG法では、特に演算加速環境において、大域的集団通信が重要なボトルネックとなる。この問題を解決するために、省通信版のP-CG法がますます重要になっている。本論文では多相CFDコードJUPITERにおけるP-CG法と前処理付チェビシェフ基底省通信CG(P-CBCG)法を最新のV100GPUに移植する。全てのGPUカーネルは高度に最適化され約90%のルーフライン性能を達成し、ブロックヤコビ前処理はGPUの高い演算性能を引き出すように再設計し、さらに残された袖通信のボトルネックは通信と計算のオーバーラップによって回避した。P-CG法とP-CBCG法の全体性能は大域的集団通信と袖通信の省通信特性によって左右され、GPUあたりのノード間通信帯域が重要となることが示された。開発したGPUソルバはKNLにおける以前のCPUソルバの2倍に加速され、Summitにおいて7,680GPUまで良好な強スケーリングを達成した。

論文

Communication avoiding multigrid preconditioned conjugate gradient method for extreme scale multiphase CFD simulations

井戸村 泰宏; 伊奈 拓也*; 山下 晋; 小野寺 直幸; 山田 進; 今村 俊幸*

Proceedings of 9th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems (ScalA 2018) (Internet), p.17 - 24, 2018/11

 被引用回数:2 パーセンタイル:77.41

多相流体CFDコードJUPITERの圧力ポアソン方程式に省通信マルチグリッド前処理付共役勾配(CAMGCG)法を適用し、省通信クリロフ部分空間法と計算性能と収束特性を比較した。JUPITERコードにおいてCAMGCGソルバ問題サイズによらずロバーストな収束特性を有し、通信削減と収束特性向上を両立することから、通信削減のみを実現する省通信クリロフ部分空間法に対する優位性が高い。CAMGCGソルバを$$sim 900$$億自由度の大規模多相流体CFDシミュレーションに適用して反復回数を前処理付CG法の$$sim 1/800$$に削減し、Oakforest-PACSにおける8,000ノードまでの良好な強スケーリングとCG法の$$sim 11.6$$倍の性能向上を達成した。

口頭

メニーコア環境における核融合プラズマ乱流シミュレーションの高速化

井戸村 泰宏

no journal, , 

ポスト京重点課題において開発を進めているエクサスケール計算技術について紹介する。核融合プラズマの解析では5次元位相空間における移流拡散方程式の第一原理計算が必要となるため、次世代実験炉ITERの解析にはエクサスケール計算が必須となる。これを実現する上で、省電力のメニーコアプロセッサを使いこなす技術や演算加速によって顕在化する通信処理を削減する技術が必要となる。講演では、上記課題の解決に向けて開発を進めてきた、メニーコア最適化技術、通信隠蔽技術、省通信アルゴリズムに関して議論し、最新のメニーコア計算機における性能評価を示す。

口頭

Porting a state-of-the-art communication avoiding Krylov subspace solver on P100 GPUs

Ali, Y.*; 伊奈 拓也*; 小野寺 直幸; 井戸村 泰宏

no journal, , 

圧力ポアソン方程式のクリロフ部分空間法ソルバは大規模多相CFDシミュレーションにおいて全計算コストの$$sim 90%$$を占める。このポアソンソルバを加速するためにブロックヤコビ(BJ)前処理付きチェビシェフ基底共役勾配法(CBCG)ソルバをP100GPUに移植した。CBCGソルバはBJ前処理, 疎行列ベクトル積(SpMV), 非正方行列積から構成される。本研究ではスレッド・ブロック並列処理と効率的なコアレスドロードのためにBJ前処理を再設計し、非正方行列積にBatched GEMMを適用した。上記最適化により全ての主要カーネルでルーフラインに基づく理論性能の$$sim 90%$$を達成し、CPUノードに比べて一桁以上のノード性能向上が得られた。

口頭

Development of exascale fusion plasma turbulence simulations for post-K

井戸村 泰宏; 伊奈 拓也*; Obrejan, K.; 朝比 祐一*; 松岡 清吉*; 今村 俊幸*

no journal, , 

ポスト京重点課題において、メニーコアプロセッサに基づく次世代計算環境向けにジャイロ運動論的トロイダル5次元オイラーコードGT5Dの計算技術開発を進めてきた。本発表では、複雑なプロセッサ内メモリ階層、および、演算加速に比べて限定的なノード間通信性能に関する計算技術の課題を議論する。前者に関しては、各メニーコアアーキテクチャ上でステンシル計算カーネルのデータアクセスパターンを最適化し、高い性能向上を達成した。後者に関しては、先進的な省通信クリロフ部分空間法を適用した。この手法は集団通信を一桁以上削減し、さらに主要な計算カーネルの演算密度を向上する。上記の新たな計算技術の適用により、最新メニーコア環境におけるGT5Dの性能が大幅に向上し、Oakforest-PACS全系(8,192KNL)までの良好な強スケーリングを達成した。

口頭

Performance portability of large scale distributed Krylov solvers with OpenACC and CUDA

井戸村 泰宏; Ali, Y.*; 小野寺 直幸; 長谷川 雄太; 伊奈 拓也*

no journal, , 

大規模CFDシミュレーションにおいてクリロフソルバが全計算コストの約90%を占める。そのようなCFDコードを加速するために、前処理付共役勾配(PCG)法, 前処理付チェビシェフ基底省通信共役勾配(P-CBCG)法, 省通信一般化最小残差(CA-GMRES)法をGPU環境に移植した。本講演ではこれらのソルバをOpenACC, CUDA、および、CUDA aware MPIを用いて移植する上でのノウハウを議論する。

口頭

GPU optimization of matrix solvers

Ali, Y.*; 小野寺 直幸; 井戸村 泰宏; 伊奈 拓也*; 今村 俊幸*

no journal, , 

大規模原子力CFDシミュレーションにおいてクリロフソルバは全体計算コストの$$sim 90%$$を占める。このようなCFDコードを加速するために、従来の前処理付共役残差(P-CG)法、および、前処理付チェビシェフ基底省通信共役残差(P-CBCG)法、省通信一般化最小残差(CA-GMRES)法という2種類の最新省通信アルゴリズムをGPUに移植した。本講演ではOpenACCとCUDAを用いた実装に対する性能移植性と性能向上のトレードオフを議論するとともに、最新のGPUスーパーコンピュータにおける性能テストを示す。

口頭

Communication-avoiding sparse matrix solvers for extreme scale nuclear CFD simulations

井戸村 泰宏

no journal, , 

省通信アルゴリズムは演算加速と相対的に低い通信バンド幅で特徴付けられる将来のエクサスケール計算機における大規模流体シミュレーションに向けたキーテクノロジーになっている。この通信ボトルネックを解決するために、5次元核融合プラズマ乱流コードGT5Dや3次元多相熱流動解析コードJUPITERといった大規模原子力シミュレーションにおいて2種類の省通信疎行列ソルバを開発した。一つは複数の基底ベクトルの生成と直交化を一度に行う省通信クリロフ法である。本手法により、従来のクリロフ法では反復毎に必要となっていたAll_Reduce通信のボトルネックを回避できる。もう一つの手法は、収束特性の改善により反復回数とAll_Reduce通信回数を削減する省通信マルグリット法である。この手法では混合精度のマルチグリッド実装によってさらに演算と通信を削減する。これらの省通信ソルバによりGT5DとJUPITERの性能が大幅に向上し、8,208台のKNLから構成されるOakforest-PACSにおいて全系まで強スケーリングを拡張した。

口頭

Optimization of fusion plasma turbulence code GT5D on FUGAKU and SUMMIT

井戸村 泰宏; Ali, Y.*; 伊奈 拓也*; 今村 俊幸*

no journal, , 

クリロフ部分空間法に基づく差分陰解法はジャイロ運動論的トロイダル5次元オイラーコードGT5Dの主要な計算コストを占める。ポスト京重点課題では、演算加速に比べてノード間通信性能が限定的なエクサスケール計算機向けに先進的な省通信クリロフ部分空間法を開発してきた。本研究では、FP16前処理を用いた混合精度省通信GMRESソルバを開発する。この前処理により、反復回数と袖通信が大幅に削減された。新しいソルバを富岳とSUMMITに移植し、既存のマルチコア/メニーコアプロセッサにおける従来のソルバに対する性能比較を行う。

口頭

Development of exascale full-f gyrokinetic simulation on Summit and FUGAKU

井戸村 泰宏

no journal, , 

ジャイロ運動論的トロイダル5次元full-fオイラーコードGT5Dはスティフな線形4次元移流演算子に陰解法時間積分が適用する半陰解法差分スキームに基づいており、高速な運動論的電子の陰解法差分ソルバが全体の80%以上の計算コストを占める。この陰解法ソルバは元々クリロフ部分空間法を用いて開発されたが、大域的集団通信と袖通信が最新の演算加速環境におけるボトルネックとなってきた。この課題を解決するために、新しい半精度前処理を用いて収束特性を向上し、反復回数と通信回数を一桁削減した。富岳で新たにサポートされた半精度SIMD演算を活用して半精度前処理を用いた省通信ソルバを開発し、これをSummitにも移植した。新しい省通信ソルバによって富岳とSummitの両方で大幅な性能向上を達成し、開発手法の性能移植性を示した。

12 件中 1件目~12件目を表示
  • 1