Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
朝比 祐一; Latu, G.*; Bigot, J.*; Grandgirard, V.*
Proceedings of Joint International Conference on Supercomputing in Nuclear Applications + Monte Carlo 2020 (SNA + MC 2020), p.218 - 224, 2020/10
エクサスケール計算機時代には、CPUやGPUの種類を問わずに高性能を発揮する性能可搬性が重要となることが予想される。発表者は、どのような技術を活用すれば運動論的モデルを採用するプラズマ乱流コードの高可搬性実装が可能となるかを調べた。運動論的コードの例として仏国CEAで開発されたGYSELAコードに着目し、当該コードを特徴付ける高次元性(4次元以上)とSemi-Lagrangianスキームといった特徴を抽出したミニアプリケーションを作成した。発表者はミニアプリケーションをOpenACC, OpenMP4.5およびKokkosを用いて並列化し、それぞれの手法の利点,欠点を調査した。OpenACCおよびOpenMP4.5は指示行を挿入することで、Kokkosは高レベルな抽象化を行うことで性能可搬実装を実現する。発表では、生産性,可読性,性能可搬性の観点からそれぞれの手法の利点,欠点を論じる。
長谷川 雄太; 小野寺 直幸; 井戸村 泰宏
Proceedings of Joint International Conference on Supercomputing in Nuclear Applications + Monte Carlo 2020 (SNA + MC 2020), p.236 - 242, 2020/10
都市域の風況および汚染物質拡散は建造物や植生に強く影響されるため、従来のメソスケールモデルで記述することは困難である。この問題を解決するため、細分化格子ボルツマン法(LBM)を用いたGPUベースのCFDコードの開発を進めており、現在、数メートル解像度の汚染物質拡散のリアルタイム解析を実現している。しかし、このような高解像度のシミュレーションでは流れは極めて強い乱流状態にあり、計算結果は様々な計算条件の影響で大きく変化する。本研究では、このようなカオス状態のシミュレーションにおいて計算の信頼性を向上させるため、アンサンブル計算を実装し、不確かさの統計的評価を可能とした。開発したコードを用いてオクラホマシティにおける野外拡散実験JU2003の検証計算を行った。結果として、風況が実験とよく一致するとともに、トレーサガス濃度の平均値がアンサンブル計算と実験値の間でFactor2の条件(計算値と実験値の比が1/2から2倍の間にあること)を満たすことを確認した。
小野寺 直幸; 井戸村 泰宏; Ali, Y.*; 山下 晋; 下川辺 隆史*; 青木 尊之*
Proceedings of Joint International Conference on Supercomputing in Nuclear Applications + Monte Carlo 2020 (SNA + MC 2020), p.210 - 215, 2020/10
本研究では、ブロック型局所細分化(AMR)法に基づくPoisson解法のGPU高速化を実施した。ブロック型AMR法はGPUに適したデータ構造であり、複雑な構造物で構成された原子炉等の解析に必須な解析手法である。これに、最新の前処理手法であるマルチグリッド(MG)法を共役勾配(CG)法へと組み合わせることで、計算の高速化を実現した。MG-CG法を構成する計算カーネルをGPUスーパーコンピュータであるTSUBAME3.0上にて測定した結果、ベクトル-ベクトル和、行列-ベクトル積、およびドット積の帯域幅は、ピークパフォーマンスの約60%となり、良好なパフォーマンスを実現した。更に、MG法の前処理手法として、3段のVサイクル法および各段に対してRed-Black SOR法を適用した手法を用いて、格子点の大規模問題の解析を実施した結果、元の前処理付きCG法と比較して、反復回数を30%未満に削減すると共に、2.5倍の計算の高速化を達成した。
小野寺 直幸; 井戸村 泰宏; Ali, Y.*; 下川辺 隆史*; 青木 尊之*
第25回計算工学講演会論文集(CD-ROM), 4 Pages, 2020/06
原子力機構では3次元多相流体解析手法としてJUPITERを開発している。本研究では、JUPITERの圧力Poisson方程式解法として、適合細分化格子(AMR)を用いたマルチグリッド前提条件付き共役勾配法(P-CG)を開発した。計算の高速化として、全ての計算カーネルはCUDAを用いて実装すると共に、GPUスーパーコンピュータ上にて高い性能を発揮する様に最適化した。開発したマルチグリッド圧力Poisson解法は、オリジナルのP-CG法と比較して約1/7の反復回数で収束することが確認された。また、TSUBAME3.0上で8から216GPUまでの強スケーリング性能測定により、更なる3倍の高速化が達成された。
青木 尊之*; 長谷川 雄太
自動車技術, 74(4), p.18 - 23, 2020/04
LESに基づくCFD計算を用いて自転車競技の空力解析を行った。単独での走行および24人の集団走行では、算出された抗力は風洞実験と良く一致した。競合する2集団の走行について、集団内の選手の配置を複数検討した。72人の選手の集団走行として、GPUスーパコンピュータで22.3億格子を用いた大規模空力解析を実施した。
稲垣 厚至*; Wangsaputra, Y.*; 神田 学*; Ycel, M.*; 小野寺 直幸; 青木 尊之*
SOLA (Scientific Online Letters on the Atmosphere) (Internet), 16, p.120 - 124, 2020/00
被引用回数:0 パーセンタイル:100(Meteorology & Atmospheric Sciences)都市境界層を対象とした風況解析により、内層および外層のスケーリングと乱流強度分布の類似性を検討した。計算条件として、現実的な建物形状の上に発達する中立条件を仮定すると共に、計算領域19.2km4.8km
高さ1kmに対して2m格子を設定した。乱流強度分布は計算領域内で局所的に定義できる。内層と外層に対してスケーリング則を当てはめることで、表面形状に関係なく、内層と外層内の乱流強度予測のばらつきを減らすことが可能となる。スケーリングされたプロファイル間のばらつきは、各層のスケーリングパラメーターの不一致に起因するが、長さまたは速度の比率からなる無次元パラメーターを導入することで、それらの類似性を示した。
松本 和也*; 井戸村 泰宏; 伊奈 拓也*; 真弓 明恵; 山田 進
Journal of Supercomputing, 75(12), p.8115 - 8146, 2019/12
被引用回数:0 パーセンタイル:100(Computer Science, Hardware & Architecture)ジャイロ運動論的トロイダル5次元オイラーコードGT5Dにおける反復法線形ソルバの性能向上に向けて省通信一般化最小残差法(CA-GMRES)をCPU-GPUハイブリッドクラスタで実装した。CA-GMRESに加え、計算量を削減するために我々が提案した修正版CA-GMRES(M-CA-GMRES)の実装と評価も行った。本研究から、集団通信回数の最小化と密行列積演算による高効率演算というCA-GMRESの利点が実証された。性能評価は1ノードあたりNVIDIA Tesla P100 GPU4台を搭載したReedbush-L GPUクラスタで実施した。この結果、M-CA-GMRESによりCA-GMRES, 一般化共役残差法(GCR), GMRESに比べてそれぞれ1.09x, 1.22x, 1.50xの高速化が示された。
Ali, Y.*; 小野寺 直幸; 井戸村 泰宏; 伊奈 拓也*; 今村 俊幸*
Proceedings of 10th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems (ScalA 2019), p.1 - 8, 2019/11
被引用回数:3 パーセンタイル:1.37大規模線形問題の反復法ソルバはCFDコードで共通に用いられる。前処理付共役勾配(P-CG)法は最も広く用いられている反復法の一つである。しかしながら、P-CG法では、特に演算加速環境において、大域的集団通信が重要なボトルネックとなる。この問題を解決するために、省通信版のP-CG法がますます重要になっている。本論文では多相CFDコードJUPITERにおけるP-CG法と前処理付チェビシェフ基底省通信CG(P-CBCG)法を最新のV100GPUに移植する。全てのGPUカーネルは高度に最適化され約90%のルーフライン性能を達成し、ブロックヤコビ前処理はGPUの高い演算性能を引き出すように再設計し、さらに残された袖通信のボトルネックは通信と計算のオーバーラップによって回避した。P-CG法とP-CBCG法の全体性能は大域的集団通信と袖通信の省通信特性によって左右され、GPUあたりのノード間通信帯域が重要となることが示された。開発したGPUソルバはKNLにおける以前のCPUソルバの2倍に加速され、Summitにおいて7,680GPUまで良好な強スケーリングを達成した。
小野寺 直幸; 井戸村 泰宏; 河村 拓馬; 上澤 伸一郎; 山下 晋; 吉田 啓之
Proceedings of 27th International Conference on Nuclear Engineering (ICONE-27) (Internet), 6 Pages, 2019/05
福島第一原子力発電所の廃炉の方法の一つとして、乾式法が挙げられる。日本原子力研究開発機構(JAEA)では、空冷性能のCFD評価手法としてJUPITERコードを開発している。しかしながら、JUPITERコードにおいて、複雑な原子炉内構造物を捉えた解析を実施するためには、非常の多くの計算資源と計算時間が必要となる。このような問題に対して、本研究ではGPUスーパーコンピュータに適した格子ボルツマン法に基づくCityLBMコードを開発している。CityLBMにてDry methodを模擬したJAEAの実験に対して検証計算を行なった結果、JUPITERコードと同様の結果が得られることが示された。また、同じ解像度および同数の並列数にて計算速度の比較を行った結果、GPUを用いたCityLBM法は、CPUを用いたJUPITERの1/6の計算時間にて解析が行えることが示された。以上の結果より、CityLBMは熱流動解析コードの有効な手法の一つであることが示された。
小野寺 直幸; 井戸村 泰宏; Ali, Y.*; 下川辺 隆史*
Proceedings of 9th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems (ScalA 2018) (Internet), p.9 - 16, 2018/11
被引用回数:2 パーセンタイル:14.22計算の高速化に向けて適合細分化格子(AMR)法を適用した格子ボルツマン法(LBM)に対して、通信削減マルチタイムステップ法(CRMT)を提案した。本手法はテンポラルブロッキング法に基づく定式化を行うことで、GPU計算で大きなボトルネックとなる通信回数の削減が可能となる。東京工業大学のTSUBAMEおよび東京大学のReedbushスーパーコンピュータにて性能測定を実施した結果、通信コストが64%に削減され、200GPUまでの弱および強スケーリング結果が改善された。以上の高速化により、2km四方の計算領域に対して1m解像度の風速5msの実時間解析が可能であることが示された。
小野寺 直幸; 井戸村 泰宏
Lecture Notes in Computer Science 10776, p.128 - 145, 2018/00
被引用回数:6 パーセンタイル:4.45本研究では、局所細分化格子を適用した格子ボルツマン法を開発した。計算コードは、東京工業大学のGPUベースのスーパーコンピュータTSUBAME3.0を用いて開発を行い、最新のPascalアーキテクチャに対して最適化を行なった。1から36ノードを用いた弱スケーリングの性能測定では、NVIDIA TESLA P100を用いたGPU計算がBroadwellによるCPU計算の10倍以上の高速化が達成された。
下川辺 隆史*; 遠藤 敏夫*; 小野寺 直幸; 青木 尊之*
Proceedings of 2017 IEEE International Conference on Cluster Computing (IEEE Cluster 2017) (Internet), p.525 - 529, 2017/09
ステンシルに基づくCFDコードは、規則的なメモリアクセスを持つため、GPUで高い性能を得ることができる。しかしながら、GPUはCPUと比較して、メモリ容量が小さいため、CPUと同様の大きさの問題を解くことができない。そこで、本研究では、CPUのホストメモリとCPUのデバイスメモリの局所性を向上させることが可能な、テンポラルブロッキング法を用いることで、GPUのメモリ容量を超える大きさの計算を可能とした。本研究で開発したフレームワークでは、複雑なコーディングは必要とせずに、テンポラルブロッキング法を含む並列計算用のコードを生成できる。フレームワークを用いて開発した気流解析コードでは、TSUBAME2.5において、GPUのメモリ容量の2倍の計算規模においても、通常のメモリ容量の計算の80%程度の実効性能を達成した。
稲垣 厚至*; 神田 学*; Ahmad, N. H.*; 八木 綾子*; 小野寺 直幸; 青木 尊之*
Boundary-Layer Meteorology, 164(2), p.161 - 181, 2017/08
被引用回数:5 パーセンタイル:63.4(Meteorology & Atmospheric Sciences)本研究では、東京都市部に対して、中立安定状態における大気境界層に対する数値解析を行なった。GPUを用いた並列計算を実施することで、19.2km4.8km
1kmの領域に対して2m解像度のラージエディ・シミュレーションが可能となった。大規模計算結果より、境界層上部の乱流統計量や境界層全域におよび特徴的なストリーク構造等の再現が可能であることが確認された。
松本 和也; 朝比 祐一*; 伊奈 拓也; 井戸村 泰宏
no journal, ,
核融合プラズマ流体解析コードGT5Dの主要計算カーネルをGPUクラスタにおいて実装し、性能評価を行った結果を述べる。本研究ではコード内で性能ボトルネックとなっている反復法行列ソルバに対してGPU上でのチューニングを行い、実測性能とルーフラインモデルにより算出した達成可能な実効性能との比較をする。また、複数GPUを使用するためにGPU間直接通信技術を用いた実装についても述べる。
小野寺 直幸; 大橋 訓英*
no journal, ,
荒天下での船舶の操縦性性能は安全性に直結するため、重要な研究課題の一つである。船舶の運動を詳細に解析するためには、固気液三相流に対して大規模解析を行う必要がある。本研究では格子ボルツマン法に多相流モデルを適用し解析を行った。格子ボルツマン法は連続的なメモリアクセスを行う計算手法であるため大規模計算に適した手法である。計算コードはGPUの言語であるCUDAに基づき書かれており、東京工業大学のスパコンTSUBAMEにおいて良い実行性能が得られている。また提案した多相流解析モデルは、気相と液相に対してそれぞれ独立に解析を行うことで、非定常な現象に対しても安定に解析が行うことが可能な手法である。本発表では有効性を確認するために、実際のバルクキャリアデータを読み込んだ700120
400格子点の解析を行い、高密度比の条件下において安定な解析が行えることを示した。
松本 和也*; 井戸村 泰宏; 伊奈 拓也*; 真弓 明恵; 山田 進
no journal, ,
省通信クリロフ法はメニーコアプロセッサやアクセラレータに基づくスーパーコンピュータにおける通信処理のボトルネックに対する有望な解決策となっている。本研究ではGPUクラスタHA-PACSに省通信GMRES法を実装し、原子力流体コードの非対称行列ソルバに関して性能評価を実施した。評価結果から、省通信GMRES法はGMRES法やGCR法といった従来のクリロフ法に比べて大幅に高速であることが示された。
小野寺 直幸; 井戸村 泰宏
no journal, ,
原子力安全保障の観点から、放射性物質の環境動態のリアルタイムシミュレーションが非常に重要である。本研究ではAMR法を用いた格子ボルツマン法に基づくCFDコードを開発した。計算コードは、最新のPascal GPUアーキテクチャで高性能を達成するように最適化されるとともに、テンポラルブロッキング法を導入することによって、MPI通信の通信量の削減に成功した。
小野寺 直幸; 井戸村 泰宏; Ali, Y.*
no journal, ,
放射性物質のリアルタイムシミュレーションは核セキュリティの観点から非常に重要である。都市は多くの建物や路地を含むため、その詳細な気流を解析するためには大規模なCFDの実施が必要となる。ブロックベースのAMR法に基づく格子ボルツマン法を用いることで、マルチスケールの気流解析が実現できる。計算コードはリアルタイムシミュレーションを実施するために、GPUを用いて開発を行なっている。本研究では並列計算性能の向上のために、テンポラルブロッキング法を用いた省通信型マルチタイムステップアルゴリズムを提案した。日本原子力研究開発機構のGPUクラスタ(NVIDIA P100)に対して性能測定を行なった結果、488MLUPSの非常に高い計算性能の達成および、通信量の削減が確認された。
小野寺 直幸
no journal, ,
近年、低消費電力および演算性能の高さよりGPUによる科学技術計算が注目されている。本研究では、GPUを用いた格子ボルツマン法による計算コード手法を構築することで、高精度な風況解析手法を実現した。計算コードの高速化として、最新のPascalアーキテクチャに対する最適化およびテンポラルブロッキング法を用いた通信削減アルゴリズムを採用した。ノードあたり4GPUおよび2CPUを搭載するTSUBAME3.0を用いた強スケーリングの性能測定においては、1ノードで30倍、36ノードで10倍の高速化が達成された。
Ali, Y.*; 伊奈 拓也*; 小野寺 直幸; 井戸村 泰宏
no journal, ,
圧力ポアソン方程式のクリロフ部分空間法ソルバは大規模多相CFDシミュレーションにおいて全計算コストのを占める。このポアソンソルバを加速するためにブロックヤコビ(BJ)前処理付きチェビシェフ基底共役勾配法(CBCG)ソルバをP100GPUに移植した。CBCGソルバはBJ前処理, 疎行列ベクトル積(SpMV), 非正方行列積から構成される。本研究ではスレッド・ブロック並列処理と効率的なコアレスドロードのためにBJ前処理を再設計し、非正方行列積にBatched GEMMを適用した。上記最適化により全ての主要カーネルでルーフラインに基づく理論性能の
を達成し、CPUノードに比べて一桁以上のノード性能向上が得られた。