検索対象:     
報告書番号:
※ 半角英数字
 年 ~ 
 年
検索結果: 132 件中 1件目~20件目を表示

発表形式

Initialising ...

選択項目を絞り込む

掲載資料名

Initialising ...

発表会議名

Initialising ...

筆頭著者名

Initialising ...

キーワード

Initialising ...

使用言語

Initialising ...

発行年

Initialising ...

開催年

Initialising ...

選択した検索結果をダウンロード

論文

富岳およびSummitにおける核融合プラズマ流体解析の高速化

井戸村 泰宏; 伊奈 拓也*; Ali, Y.*; 今村 俊幸*

第34回数値流体力学シンポジウム講演論文集(インターネット), 6 Pages, 2020/12

ジャイロ運動論的トロイダル5次元full-fオイラーコードGT5Dにおける半陰解法差分計算用に新しいFP16(半精度)前処理付き省通信クリロフソルバを開発した。このソルバでは、大域的集団通信のボトルネックを省通信クリロフ部分空間法によって解決し、さらに収束特性を向上するFP16前処理によって袖通信を削減した。FP16前処理は演算子の物理特性に基づいて設計し、A64FXで新たにサポートされたFP16SIMD処理を用いた実装した。このソルバをGPUにも移植し、約1,000億格子のITER規模計算の性能を富岳(A64FX)とSummit(V100)で測定した。従来の非省通信型ソルバに比べて、新しいソルバはGT5Dを$$2 sim3$$倍加速し、富岳とSummitの両方で5,760CPU/GPUまで良好な強スケーリングが得られた。

論文

Acceleration of fusion plasma turbulence simulations using the mixed-precision communication-avoiding Krylov method

井戸村 泰宏; 伊奈 拓也*; Ali, Y.*; 今村 俊幸*

Proceedings of International Conference on High Performance Computing, Networking, Storage, and Analysis (SC 2020) (Internet), p.1318 - 1330, 2020/11

5次元ジャイロ運動論モデルに基づく次世代核融合実験炉ITERのマルチスケールfull-$$f$$シミュレーションは核融合科学において最も計算コストが大きい問題の一つである。本研究では、新しい混合精度省通信クリロフ法を用いてジャイロ運動論的トロイダル5次元オイラーコードGT5Dを高速化した。演算加速環境における大域的集団通信のボトルネックを省通信クリロフ法によって解決した。これに加えて、A64FXにおいて新たにサポートされたFP16SIMD演算を用いて設計された新しいFP16前処理により、反復(袖通信)の回数と計算コストの両方を削減した。富岳とSummitにおける1,440CPU/GPUを用いた1,000億格子のITER規模シミュレーションに対して、提案手法の処理性能は従来の非省通信クリロフ法に比べてそれぞれ2.8倍, 1.9倍高速化され、5,760CPU/GPUまで良好な強スケーリングを示した。

論文

Communication-avoiding Krylov solvers for extreme scale nuclear CFD simulations

井戸村 泰宏; 伊奈 拓也*; Ali, Y.*; 今村 俊幸*

Proceedings of Joint International Conference on Supercomputing in Nuclear Applications + Monte Carlo 2020 (SNA + MC 2020), p.225 - 230, 2020/10

ジャイロ運動論的トロイダル5次元オイラーコードGT5Dにおける半陰解法差分ソルバ向けに新しいFP16(半精度)前処理付き省通信型クリロフソルバを開発した。このソルバでは、大域的集団通信のボトルネックを省通信型クリロフ部分空間法を用いて解決し、FP16前処理を用いて収束特性を改善することで袖通信の回数を削減した。FP16前処理は演算子の物理特性に基づいて設計され、A64FXにおいて新たにサポートされたFP16SIMD演算を用いて実装された。本ソルバは富岳(A64FX)とSummit(V100)に移植され、JAEA-ICEX(Haswell)に比べてそれぞれ$$sim$$63倍, $$sim$$29倍のソケットあたり性能の向上を達成した。

論文

大規模多相流体解析向け省通信型マルチグリッド前処理付き共役勾配法

井戸村 泰宏; 小野寺 直幸; 山田 進; 山下 晋; 伊奈 拓也*; 今村 俊幸*

スーパーコンピューティングニュース, 22(5), p.18 - 29, 2020/09

多相多成分熱流動解析コードJUPITERの圧力ポアソン方程式に省通信型マルチグリッド前処理付き共役勾配(CAMGCG)法を適用し、従来のクリロフ部分空間法と計算性能と収束特性を比較した。CAMGCGソルバは問題サイズによらずロバーストな収束特性を示し、通信削減と収束特性向上を両立することから、通信削減のみを実現する省通信クリロフ部分空間法に対する優位性が高い。CAMGCGソルバを900億自由度の大規模多相流体解析に適用し、前処理付共役勾配法ソルバと処理性能を比較した。このベンチマークにおいて、反復回数は約1/800に削減され、Oakforest-PACS上で8,000ノードに至る良好な強スケーリングを維持しつつ約11.6倍の性能向上を達成した。

論文

High performance eigenvalue solver for Hubbard model; Tuning strategies for LOBPCG method on CUDA GPU

山田 進; 町田 昌彦; 今村 俊幸*

Parallel Computing; Technology Trends, p.105 - 113, 2020/00

本発表は科学研究費補助金(科研費)に従い実施した強相関ハバードモデル計算に現れる固有値問題に対する高性能計算に関するものである。具体的には、ハバードモデルの計算に現れる固有値計算に固有値計算ソルバの1つであるLOBPCG法を適用した際の高速化についての発表である。特筆すべき成果は、現在主流のプロセッサの1つであるGPUのアーキテクチャに合わせたデータの格納方法を提案し、実際に行列計算を高速化したことである。さらに、複数の線形計算をまとめて実行することで、データへのアクセス回数を減らすことができ、さらなる高速化も実現した。これらの高速化により、これまでの方法と比較し全体で約1.4倍の高速化を実現した。なお、この成果は科研費研究「エクサスケール計算機を想定した量子モデルシミュレーションに対する並列化・高速化」の研究成果である一方、GPUを利用した高性能計算にも資する成果である。

論文

GPU acceleration of communication avoiding Chebyshev basis conjugate gradient solver for multiphase CFD simulations

Ali, Y.*; 小野寺 直幸; 井戸村 泰宏; 伊奈 拓也*; 今村 俊幸*

Proceedings of 10th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems (ScalA 2019), p.1 - 8, 2019/11

 被引用回数:3 パーセンタイル:1.37

大規模線形問題の反復法ソルバはCFDコードで共通に用いられる。前処理付共役勾配(P-CG)法は最も広く用いられている反復法の一つである。しかしながら、P-CG法では、特に演算加速環境において、大域的集団通信が重要なボトルネックとなる。この問題を解決するために、省通信版のP-CG法がますます重要になっている。本論文では多相CFDコードJUPITERにおけるP-CG法と前処理付チェビシェフ基底省通信CG(P-CBCG)法を最新のV100GPUに移植する。全てのGPUカーネルは高度に最適化され約90%のルーフライン性能を達成し、ブロックヤコビ前処理はGPUの高い演算性能を引き出すように再設計し、さらに残された袖通信のボトルネックは通信と計算のオーバーラップによって回避した。P-CG法とP-CBCG法の全体性能は大域的集団通信と袖通信の省通信特性によって左右され、GPUあたりのノード間通信帯域が重要となることが示された。開発したGPUソルバはKNLにおける以前のCPUソルバの2倍に加速され、Summitにおいて7,680GPUまで良好な強スケーリングを達成した。

論文

Communication avoiding multigrid preconditioned conjugate gradient method for extreme scale multiphase CFD simulations

井戸村 泰宏; 伊奈 拓也*; 山下 晋; 小野寺 直幸; 山田 進; 今村 俊幸*

Proceedings of 9th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems (ScalA 2018) (Internet), p.17 - 24, 2018/11

 被引用回数:0 パーセンタイル:100

多相流体CFDコードJUPITERの圧力ポアソン方程式に省通信マルチグリッド前処理付共役勾配(CAMGCG)法を適用し、省通信クリロフ部分空間法と計算性能と収束特性を比較した。JUPITERコードにおいてCAMGCGソルバ問題サイズによらずロバーストな収束特性を有し、通信削減と収束特性向上を両立することから、通信削減のみを実現する省通信クリロフ部分空間法に対する優位性が高い。CAMGCGソルバを$$sim 900$$億自由度の大規模多相流体CFDシミュレーションに適用して反復回数を前処理付CG法の$$sim 1/800$$に削減し、Oakforest-PACSにおける8,000ノードまでの良好な強スケーリングとCG法の$$sim 11.6$$倍の性能向上を達成した。

論文

High performance LOBPCG method for solving multiple eigenvalues of Hubbard model; Efficiency of communication avoiding Neumann expansion preconditioner

山田 進; 今村 俊幸*; 町田 昌彦

Lecture Notes in Computer Science 10776, p.243 - 256, 2018/00

 被引用回数:0 パーセンタイル:100

本発表は科学研究費補助金(科研費)研究の一環として実施した量子問題計算に現れる大規模な対称疎行列であるハミルトニアン行列の複数の固有値および固有ベクトルを計算する際に用いる省通信ノイマン展開前処理の有効性についての報告である。具体的な成果は、ハミルトニアン行列の複数の固有値とそれに対応する固有ベクトルをLOBPCG法を用いて反復計算する際の収束性を向上させるための新規の前処理方法を提案し、実際の計算から既存の方法よりも短時間で計算できることを示したことである。さらに、問題の物理的性質を利用して前処理計算の通信回数を減少させるアルゴリズムを提案し、原子力機構のスパコンSGI ICEXおよび理化学研究所の京スパコンの数千コアを用いた並列計算において、高速化が実現することを確認した。この成果は、量子計算の高速計算だけでなく、今後大規模化していく並列計算機の有効利用に資する成果でもある。

論文

Application of a preconditioned Chebyshev basis communication-avoiding conjugate gradient method to a multiphase thermal-hydraulic CFD code

井戸村 泰宏; 伊奈 拓也*; 真弓 明恵; 山田 進; 今村 俊幸*

Lecture Notes in Computer Science 10776, p.257 - 273, 2018/00

前処理付チェビシェフ基底省通信共役勾配(P-CBCG)法を多相熱流体CFDコードJUPITERにおける圧力ポアソン方程式に適用し、8,208台のKNLプロセッサを搭載したOakforest-PACS上で計算性能と収束特性を前処理付共役勾配(P-CG)法や前処理付省通信共役勾配(P-CACG)法と比較した。P-CBCG法は収束特性のロバースト性を維持しつつ集団通信回数を削減する。このロバースト性向上により、P-CACG法と比べて一桁以上大きい省通信ステップ数を実現する。2,000プロセッサを用いた場合、P-CBCG法はP-CG法, P-CACG法と比べてそれぞれ1.38倍, 1.17倍高速であることを示した。

論文

Communication avoiding Neumann expansion preconditioner for LOBPCG method; Convergence property of exact diagonalization method for Hubbard model

山田 進; 今村 俊幸*; 町田 昌彦

Parallel Computing is Everywhere, p.27 - 36, 2018/00

本発表は科研費研究の一環として実施した固有値計算ソルバLOBPCG法の前処理に関する研究についての発表である。LOBPCG法は反復解法であり適切な前処理を用いることで収束性が向上することが知られているが、量子問題に表れるハバードモデルの固有値を計算する際に物理パラメータによっては既存の前処理では収束性が向上しないことがある。そこで、線形方程式の反復解法で前処理として使われているノイマン展開を利用した前処理を適用し、そのような問題に対しても収束性が向上することを見出した。さらに、問題の物理的性質を考慮し、演算回数は若干増加するが、通信回数を減少させる方法を提案した。この方法で開発したコードを、原子力機構の並列計算機SGI ICEXを用いて並列シミュレーションしたところ、これまでの方法よりも約20%高速に計算できることを確認した。この成果は、固有値問題に有効な前処理方法を見出しただけではなく、ネットワーク構造が複雑化してきている並列計算機での性能向上にも資する成果である。

論文

Application of a communication-avoiding generalized minimal residual method to a gyrokinetic five dimensional Eulerian code on many core platforms

井戸村 泰宏; 伊奈 拓也*; 真弓 明恵; 山田 進; 松本 和也*; 朝比 祐一*; 今村 俊幸*

Proceedings of 8th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems (ScalA 2017), p.7_1 - 7_8, 2017/11

ジャイロ運動論的5次元オイラーコードGT5Dに省通信一般化最小残差(CA-GMRES)法を適用し、一般化共役残差(GCR)法を用いたオリジナルコードとの性能比較をJAEA ICEX(Haswell)、Plasma Simulator(FX100)、Oakforest-PACS(KNL)において実施した。CA-GMRES法はGCR法に比べて約3.8倍の演算密度となることから、メモリとネットワークの帯域が制限された将来のエクサスケールアーキテクチャに適合する。性能評価の結果、GCR法に比べて計算カーネルは1.47$$sim$$2.39倍加速され、1,280ノード処理におけるデータ縮約通信は全体コストの5$$sim$$13%から約1%に削減された。

論文

Quadruple-precision BLAS using Bailey's arithmetic with FMA instruction; Its performance and applications

山田 進; 伊奈 拓也*; 佐々 成正; 井戸村 泰宏; 町田 昌彦; 今村 俊幸*

Proceedings of 2017 IEEE International Parallel & Distributed Processing Symposium Workshops (IPDPSW) (Internet), p.1418 - 1425, 2017/08

 被引用回数:3 パーセンタイル:21.83

本発表では、BaileyのDouble-Doubleアルゴリズムを利用した4倍精度基本線形代数演算ライブラリ「BLAS」の高速化と、それを4倍精度固有値計算ルーチンに適用した際の計算性能の向上について発表する。特筆すべき成果は、積和演算の中間結果を高精度で保持して計算できるFMA命令を利用することで、我々がこれまでに開発した4倍精度BLASと比較し、代表的なルーチンで20$$sim$$45%の高速化を実現したことである。さらに、4倍精度固有値ソルバ「QPEigenK」が利用している4倍精度BLASをFMA命令を利用して開発したものに置き換えるだけで、原子力機構のICE Xおよび東京大学のFX10の2つのスパコンの大規模並列計算において10$$sim$$20%の高速化を実現した。この成果は、計算機の大規模化に伴って必要になりつつある高精度計算の高速な実行に資する成果である。

論文

Left-preconditioned communication-avoiding conjugate gradient methods for multiphase CFD simulations on the K computer

真弓 明恵; 井戸村 泰宏; 伊奈 拓也; 山田 進; 今村 俊幸*

Proceedings of 7th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems (ScalA 2016) (Internet), p.17 - 24, 2016/11

左前処理省通信共役勾配(LP-CA-CG)法を多相数値流体力学コードJUPITERの圧力Poisson方程式に適用した。LP-CA-CG法の演算密度を分析し、内積処理と三項間漸化式処理のループ分割を行うことで演算密度を大きく向上した。ブロックヤコビ前処理及びアンダーラップ前処理を適用した2つのLP-CA-CGソルバを開発した。京コンピュータ上では局所的な1対1通信のスケールが良好であることと、アンダーラップ前処理を適用すると収束性が悪くなることにより、ブロックヤコビ前処理ソルバにより良好な性能が得られた。このソルバは3万ノードまで良好な強スケーリングを示し、大域的集団通信のコストを69%削減することにより従来のCG法ソルバに比べて高い性能を達成した。

論文

Accumulated error in iterative use of FFT

佐々 成正; 山田 進; 町田 昌彦; 今村 俊幸*

Nonlinear Theory and Its Applications, IEICE (Internet), 7(3), p.354 - 361, 2016/07

フールエ変換を連続使用した場合の丸め誤差の累積誤差について議論を行った。偏微分方程式の数値計算において、フールエ変換を繰り返し連続使用した場合に丸め誤差が累積することを確認した。計算精度の毀損を補うため4倍精度高速フーリエ変換を用いた計算を行って有効性を確認した。

論文

High performance eigenvalue solver in exact-diagonalization method for Hubbard model on CUDA GPU

山田 進; 今村 俊幸*; 町田 昌彦

Parallel Computing; On the Road to Exascale, p.361 - 369, 2016/00

 被引用回数:0

本発表では簡単な演算を高速に実行できるアクセラレータ(補助演算装置)の1つであるGPUを用いてハバードモデルの計算に現れる固有値問題を高速に計算する手法について発表する。特筆すべき成果は、ハバードモデルの物理的性質、およびGPUの構造を考慮してデータの格納形式や計算方法を考案したところ、GPUで一般的に利用されている計算方法よりも約2倍高速に計算できることを実際のGPUを利用した計算から示したことである。さらに、6コアのCPUを用いた並列計算と比較しても、2$$sim$$3倍高速に計算できることを確認した。この成果は、今後高性能計算において主流になると考えられているアクセラレータを利用した計算機の有効利用に資する成果である。

論文

粒子ベースボリュームレンダリングによる大規模データの可視化技術

河村 拓馬; 井戸村 泰宏; 宮村 浩子; 今村 俊幸*; 武宮 博

システム制御情報学会論文誌, 28(5), p.221 - 227, 2015/05

スーパーコンピュータ上の大規模データをボリュームレンダリングで可視化することは、複雑なデータを解析し知見を得るために重要であるが、従来のクライアント/サーバ可視化システムでは可視化処理速度やデータ転送量の点問題があった。粒子ベースボリュームレンダリングを利用した遠隔可視化システムは、ボリュームデータをサイズの小さい可視化用粒子データに変換することで、対話的な可視化が可能なシステムである。粒子データの生成に、京やBX900等のスーパーコンピュータを利用することで、一億要素のデータを数秒で処理し、約1000並列までのストロングスケーリングを示した。

論文

Quality and performance of a pseudo-random number generator in massively parallel plasma particle simulations

松岡 清吉*; 佐竹 真介*; 井戸村 泰宏; 今村 俊幸*

Proceedings of Joint International Conference on Mathematics and Computation, Supercomputing in Nuclear Applications and the Monte Carlo Method (M&C + SNA + MC 2015) (CD-ROM), 13 Pages, 2015/04

プラズマ輸送のモンテカルロ粒子コードを用いて並列擬似乱数発生ライブラリKMATH_RANDOMの特性と性能を評価した。本ライブラリはジャンプルーチンを伴うメルセンヌ・ツイスタに基いて実装されており、京コンピュータのような超並列スーパーコンピュータに適し、容易に利用可能である。本ライブラリは擬似乱数発生器の特性と性能を劣化させることなく粒子コードの並列化を数千プロセスまで向上する。その結果、大量の乱数を効率的に発生させることが可能となり、粒子コードで数値ノイズに起因する非物理的な現象を除去できるようになった。

論文

Parallel computing design for exact diagonalization scheme on multi-band Hubbard cluster models

山田 進; 今村 俊幸*; 町田 昌彦

Parallel Computing; Accelerating Computational Science and Engineering (CSE), p.427 - 436, 2014/03

本発表は、科学研究費補助金研究課題に従い実施した多軌道強相関クラスタハバードモデル計算に現れる固有値計算ソルバの並列化を行う際の通信手法の最適化に関するものである。特筆すべき成果は、上記のモデルの物理的性質及び現在主流の並列計算機のアーキテクチャを考慮して並列化のための通信手法を提案し、実際に高性能計算を可能にしたことである。通常のハバードモデルのシミュレーションコードに対しては、アップスピンとダウンスピンを独立に扱える性質を利用して並列化・高速化を行うが、今回対象にした多軌道モデルでは、アップスピンとダウンスピンが同時に動くケースも考える必要があるため、これまでの方法では並列化ができなかった。そこで、モデルを分割する並列化方法を提案した。また、この並列化の際にデータを適切に分割することで、通信の競合を回避できることを指摘し、実際にこの通信手法が有効であることを原子力機構のBX900において確認した。なお、この成果は科学研究費補助金研究課題「2次元量子モデルに対するメニーコア並列計算機向き並列化・高速化手法の研究開発」の研究成果である一方、原子力材料のマルチスケールシミュレーション研究開発にも資する成果である。

論文

Communication-overlap techniques for improved strong scaling of gyrokinetic Eulerian code beyond 100k cores on the K-computer

井戸村 泰宏; 仲田 資季; 山田 進; 町田 昌彦; 今村 俊幸*; 渡邉 智彦*; 沼波 政倫*; 井上 晃*; 堤 重信*; 三吉 郁夫*; et al.

International Journal of High Performance Computing Applications, 28(1), p.73 - 86, 2014/02

 被引用回数:15 パーセンタイル:19.47(Computer Science, Hardware & Architecture)

A plasma turbulence research based on five dimensional (5D) gyrokinetic simulations is one of the most critical and demanding issues in fusion science. To pioneer new physics regimes both in problem sizes and in time scales, an improvement of strong scaling is essential. In this work, the strong scaling and the parallel efficiency of a gyrokinetic toroidal 5D Eularian code GT5D is dramatically improved by novel developing communication overlap techniques. On the K-computer, excellent strong scaling is achieved beyond 100 k cores with keeping the sustained performance of $$sim$$ 10% ($$sim$$ 307 TFlops using 196,608 cores), and simulations for next generation large-scale fusion experiments are significantly accelerated.

論文

Development of numerical techniques toward extreme scale fusion plasma turbulence simulations

井戸村 泰宏; 仲田 資季; 山田 進; 町田 昌彦; 今村 俊幸*; 渡邉 智彦*; 沼波 政倫*; 井上 晃*; 堤 重信*; 三吉 郁夫*; et al.

Proceedings of 31st JSST Annual Conference; International Conference on Simulation Technology (JSST 2012) (USB Flash Drive), p.234 - 242, 2012/09

A plasma turbulence research based on 5D gyrokinetic simulations is one of the most critical and demanding issues in fusion science. To pioneer new physics regimes both in problem sizes and in time scales, an improvement of strong scaling is essential. Overlap of computations and communications is a promising approach to improve strong scaling, but it often fails on practical applications with conventional MPI libraries. In this work, this classical issue is clarified, and resolved by developing communication overlap techniques with mpi_test and communication threads, which work even on conventional MPI libraries and network hardwares. These techniques dramatically improve the parallel efficiency of a gyrokinetic Eularian code GT5D on K and Helios, which adopt dedicated and commodity networks.

132 件中 1件目~20件目を表示