Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
小野寺 直幸; 井戸村 泰宏; 長谷川 雄太; 朝比 祐一; 稲垣 厚至*; 下瀬 健一*; 平野 洪賓*
計算工学講演会論文集(CD-ROM), 28, 4 Pages, 2023/05
我々の研究グループでは、都市全域を含む広域の風況場から細かな路地等を捉えたマルチスケールの風況シミュレーションコードCityLBMの開発を進めている。CityLBMは、格子ボルツマン法に適合細分化格子を適用した省メモリ化、および、GPUスーパーコンピュータによる高性能計算により、数km四方に対してリアルタイムのアンサンブルシミュレーションが可能となる。一方、実現象には、モデル化できない複雑な境界条件が含まれているため、観測データをシミュレーションに反映させるためのデータ同化技術が必要である。本研究では、現実の風況を再現するために、アンサンブルカルマンフィルターに基づく地表面温度バイアスの最適化手法を提案した。CityLBMの検証として、東京都心部を対象とした観測システムシミュレーション実験を実施し、地表面近傍の温度から、境界条件として与えている地表面温度を推定する。
朝比 祐一; 小野寺 直幸; 長谷川 雄太; 下川辺 隆史*; 芝 隼人*; 井戸村 泰宏
Boundary-Layer Meteorology, 34 Pages, 2023/01
被引用回数:0 パーセンタイル:0.01(Meteorology & Atmospheric Sciences)定点観測された風向などの時系列データおよび汚染物質放出点を入力として、汚染物質の地表面拡散分布を予測する機械学習モデルを開発した。問題設定としては、一様風が都市部へ流入し、都市部内にランダムに設置された汚染物質放出点から汚染物質が拡散するという状況を扱っている。機械学習モデルとしては、汚染物質放出点から汚染物質の拡散分布を予測するCNNモデルを用いた。風向などの時系列データは、Transformerや多層パーセプトロンによってEncodeし、CNNへと引き渡す。これによって、現実的に取得可能な定点測時系列データのみを入力とし、実用上価値の高い汚染物質の地表面拡散分布の予測を可能とした。同一のモデルを用いて定点観測時系列データから汚染物質放出点の予測が可能であることも示した。
長谷川 雄太; 小野寺 直幸; 朝比 祐一; 井戸村 泰宏
第36回数値流体力学シンポジウム講演論文集(インターネット), 5 Pages, 2022/12
格子ボルツマン法と局所アンサンブル変換カルマンフィルタ(LBM-LETKF)による乱流のアンサンブルデータ同化をGPUに実装し、精度の検証を行なった。32GPUを用いて、格子点数2.3、アンサンブル数32の条件で、3次元角柱周りの流れ対してデータ同化実験を実施した。本実験におけるデータ同化の時間間隔は、カルマン渦周期の半分に設定した。精度として、揚力係数の誤差(normalized mean absolute error; NMAE)を測定したところ、データ同化なし、ナッジング法(より単純なデータ同化手法)による同化、およびLETKFのそれぞれにおいて、誤差は132%, 148%、および13.2%であった。これにより、観測頻度が低い本計算条件においては、ナッジング法のような簡易な手法では解に系統的な遅れが現れてデータ同化の精度を保つことができない一方で、LETKFでは良好なデータ同化精度を示すことが確認できた。
朝比 祐一; Padioleau, T.*; Latu, G.*; Bigot, J.*; Grandgirard, V.*; Obrejan, K.*
第36回数値流体力学シンポジウム講演論文集(インターネット), 8 Pages, 2022/12
本論文では、運動論的プラズマシミュレーションコードを例としてC++ parallel algorithm (stdpar)による性能可搬実装について論じる。言語標準の並列アルゴリズムstdparと抽象的高次元配列mdspanにより、可読性および生産性を損なわずに性能可搬な実装が可能であることを示す。抽象化により性能可搬性を実現するKokkosや、指示行によって性能可搬性を実現するOpenMPとの比較により、stdparの性能,可搬性,生産性などを論じる。Intel Icelake, NVIDIA V100およびA100 GPUにおいて、stdpar版のアプリケーションの性能はKokkos版に対し20%の範囲であった。将来的にAMDやIntel GPUにおいて利用可能になるという前提であれば、stdparはエクサスパコンにおいて有力な高生産かつ性能可搬な実装手法となり得る。
朝比 祐一; Padioleau, T.*; Latu, G.*; Bigot, J.*; Grandgirard, V.*; Obrejan, K.*
Proceedings of 2022 International Workshop on Performance, Portability, and Productivity in HPC (P3HPC) (Internet), p.68 - 80, 2022/11
被引用回数:0 パーセンタイル:0本論文では、C++ parallel algorithmによる性能可搬な運動論的プラズマシミュレーションコードの実装について論じる。言語標準の並列アルゴリズムstdparと抽象的高次元配列mdspanにより、可読性および生産性を損なわずに性能可搬な実装が可能であることを示す。Intel Icelake、NVIDIA V100およびA100 GPUにおいて、アプリケーションの性能はKokkos版に対し 20%の範囲であった。将来的にAMDやIntel GPUにおいて利用可能になるという前提であれば、C++ parallel algorithmはエクサスパコンにおいて有力な高生産かつ性能可搬な実装手法となり得る。
朝比 祐一; 小野寺 直幸; 長谷川 雄太; 下川辺 隆史*; 芝 隼人*; 井戸村 泰宏
計算工学講演会論文集(CD-ROM), 27, 5 Pages, 2022/06
都市風況解析コードCityLBMをAMD社のMI100 GPUへと移植し、CityLBMの性能をNVIDIA P100, V100, A100およびAMD MI100において測定した。ホスト間でのMPI通信を利用した場合、CityLBMの性能はMI100においてV100と比べ20%程度向上した。適合細分化格子法に起因する補間カーネルを除く演算カーネルでは、MI100においてV100と比べ性能向上を確認した。
長谷川 雄太; 今村 俊幸*; 伊奈 拓也; 小野寺 直幸; 朝比 祐一; 井戸村 泰宏
Proceedings of 13th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Heterogeneous Systems (ScalAH22) (Internet), p.10 - 17, 2022/00
格子ボルツマン法(LBM)に基づく数値流体力学シミュレーションおよび局所アンサンブル変換カルマンフィルタ(LETKF)によるアンサンブルデータ同化をNVIDIA A100 GPU搭載スパコンに対して実装し、および最適化した。LBMとLETKFの協働のため、データ転置通信を実装し、LETKFのデータ依存性に基づいて計算,ファイルI/O、および通信のオーバーラップにより通信を最適化した。2次元等方乱流,アンサンブル数,格子点数
の条件において、通信を最適化した実装は、LETKFを並列化しない単純な実装に対して3.85倍の高速化を達成した。LETKFの主要な計算カーネルは
の実対称密行列の固有値分解であり、その計算のため、バッチ形式固有値分解ソルバEigenGを新たに開発した。EigenGによるバッチ形式固有値分解は、既存ライブラリであるcuSolverに対して64倍の高速化を達成した。
長谷川 雄太; 青木 尊之*; 小林 宏充*; 井戸村 泰宏; 小野寺 直幸
Parallel Computing, 108, p.102851_1 - 102851_12, 2021/12
被引用回数:1 パーセンタイル:21.73(Computer Science, Theory & Methods)GPUスーパコンピュータに対して格子ボルツマン法(LBM: lattice Botltzmann method)およびforest-of-octreesに基づくブロック構造型の局所細分化格子(LMR: local mesh refinement)を用いた空力解析コードを実装し、その性能を評価した。性能評価の結果、従来の空間充填曲線(SFC; space-filling curve)に基づく領域分割アルゴリズムでは、本空力解析において袖領域通信のコストが過大となることがわかった。領域分割の改善手法として本稿では挿し木法を提案し、領域分割の局所性とトポロジーを改善し、従来のSFCに基づく手法に比べて通信コストを1/31/4に削減した。強スケーリング測定では、最大で1.82倍の高速化を示し、128GPUで2207MLUPS(mega-lattice update per second)の性能を達成した。弱スケーリング測定では、8
128GPUで93.4%の並列化効率を示し、最大規模の128GPU計算では44.73億格子点を用いて9620MLUPSの性能を達成した。
朝比 祐一; Latu, G.*; Bigot, J.*; Grandgirard, V.*
Proceedings of 2021 International Workshop on Performance, Portability, and Productivity in HPC (P3HPC) (Internet), p.79 - 91, 2021/11
本論文では、性能可搬な運動論的プラズマシミュレーションコードのための最適化手法について論じる。まず、性能可搬ライブラリKokkosと指示行(OpenACC/OpenMP)により、単一実装でCPU、GPUで実行可能な運動論的プラズマシミュレーションコードを開発した。これに最適化を施し、Intelや富士通のCPUおよびNvidia GPUにおいて最適化の効果を評価した。その結果、OpenACC/OpenMPでは1.07倍から1.39倍の性能向上が見られ、Kokkos版では、1.00倍から1.33倍の性能向上が見られた。複数の実装による様々なカーネルの最適化手法の効果を多数のデバイスにおいて調査した本成果は、最適化手法として幅広く利用可能と言える。Kokkosは複数のデータ構造やループ構造を単一コードによって表現することに長けており、CPUとGPU両方において高い性能を発揮するために適したフレームワークであると確認した。
長谷川 雄太; 青木 尊之*; 小林 宏充*; 井戸村 泰宏; 小野寺 直幸
計算工学講演会論文集(CD-ROM), 26, 6 Pages, 2021/05
Forest-of-octreesに基づく局所格子細分化法(LMR)を導入した格子ボルツマン法(LBM)に基づく空力解析コードに対し、挿し木法による領域分割の改善手法を提案した。従来の空間充填曲線に基づく領域分割法は、適合格子細分化法(AMR)やLMRで広く用いられているものの、GPUスパコン向けに実装された本空力解析コードにおいては袖領域通信が増大し計算のボトルネックとなるうることが確認された。本研究で提案する挿し木法は、粗い等間隔格子状の領域分割と細かい空間充填曲線に基づく分割のハイブリッドによる手法である。挿し木法により、領域分割の局所性と幾何形状が改善しており、通信量が従来の空間充填曲線に基づく手法に比べて3分の1に削減された。8GPU並列による性能検証では、コード全体で1.23倍の高速化が確認された。また、強スケーリングにおいてさらに性能の改善が見られ、128GPUの強スケーリングにおいては、従来手法に比べて1.82倍の高速化を示し、2207MLUPS (mega-lattice update per second)の計算性能を達成した。
小野寺 直幸; 井戸村 泰宏; 長谷川 雄太; 下川辺 隆史*; 青木 尊之*
計算工学講演会論文集(CD-ROM), 26, 3 Pages, 2021/05
本研究では、二相流体解析コードJUPITER-AMRに対して、圧力ポアソン方程式に対する混合精度前処理手法を開発した。マルチグリッド前処理手法として、3段のVサイクルの幾何学的MG法およびキャッシュを再利用したSOR(CR-SOR)法を適用した。原子力工学問題での性能測定として、バンドル体系に対する多相流体解析を実施した。計算速度として、単精度演算を適用する事で、倍精度演算の75%へと削減すると共に、強スケーリング性能においては、32台から96台のGPUを利用する事で1.88倍を実現した。
朝比 祐一; 畑山 そら*; 下川辺 隆史*; 小野寺 直幸; 長谷川 雄太; 井戸村 泰宏
計算工学講演会論文集(CD-ROM), 26, 4 Pages, 2021/05
多重解像度の定常流流れ場を符合付き距離関数から予測するConvolutional Neural networkモデルを開発した。高解像度の画像生成を可能とするネットワークPix2PixHDをパッチ化された高解像度データに適用することで、通常のPix2PixHDよりメモリ使用量を削減しつつ、高解像度流れ場の予測が可能であることを示した。
小野寺 直幸; 井戸村 泰宏; 長谷川 雄太; 山下 晋; 下川辺 隆史*; 青木 尊之*
Proceedings of International Conference on High Performance Computing in Asia-Pacific Region (HPC Asia 2021) (Internet), p.120 - 128, 2021/01
被引用回数:0 パーセンタイル:0.01本研究では、二相流体解析コードJUPITERに対して、マルチグリッド前処理付き共役勾配(MG-CG)法を開発した。MG法は、3段のVサイクルMG法に基づいて構築し、各段に対して、RB-SOR法およびGPUのキャッシュを再利用したCR-SORを開発・適用した。性能測定として、バンドル体系に対する気液二相流体解析を行った。RB-SOR法およびCR-SOR法を適用したMG-CG法では、MG法を適用しないPCG法と比較して、収束までの反復回数を15%と9%以下に削減するとともに、3.1倍, 5.9倍の計算速度が達成された。以上の結果から、本研究で開発したMG-CG法は、GPUを用いたスーパーコンピュータ上にて、効率的に大規模な二相流体解析が可能であることが示された。
朝比 祐一; Latu, G.*; Bigot, J.*; Grandgirard, V.*
Proceedings of Joint International Conference on Supercomputing in Nuclear Applications + Monte Carlo 2020 (SNA + MC 2020), p.218 - 224, 2020/10
エクサスケール計算機時代には、CPUやGPUの種類を問わずに高性能を発揮する性能可搬性が重要となることが予想される。発表者は、どのような技術を活用すれば運動論的モデルを採用するプラズマ乱流コードの高可搬性実装が可能となるかを調べた。運動論的コードの例として仏国CEAで開発されたGYSELAコードに着目し、当該コードを特徴付ける高次元性(4次元以上)とSemi-Lagrangianスキームといった特徴を抽出したミニアプリケーションを作成した。発表者はミニアプリケーションをOpenACC, OpenMP4.5およびKokkosを用いて並列化し、それぞれの手法の利点,欠点を調査した。OpenACCおよびOpenMP4.5は指示行を挿入することで、Kokkosは高レベルな抽象化を行うことで性能可搬実装を実現する。発表では、生産性,可読性,性能可搬性の観点からそれぞれの手法の利点,欠点を論じる。
長谷川 雄太; 小野寺 直幸; 井戸村 泰宏
Proceedings of Joint International Conference on Supercomputing in Nuclear Applications + Monte Carlo 2020 (SNA + MC 2020), p.236 - 242, 2020/10
都市域の風況および汚染物質拡散は建造物や植生に強く影響されるため、従来のメソスケールモデルで記述することは困難である。この問題を解決するため、細分化格子ボルツマン法(LBM)を用いたGPUベースのCFDコードの開発を進めており、現在、数メートル解像度の汚染物質拡散のリアルタイム解析を実現している。しかし、このような高解像度のシミュレーションでは流れは極めて強い乱流状態にあり、計算結果は様々な計算条件の影響で大きく変化する。本研究では、このようなカオス状態のシミュレーションにおいて計算の信頼性を向上させるため、アンサンブル計算を実装し、不確かさの統計的評価を可能とした。開発したコードを用いてオクラホマシティにおける野外拡散実験JU2003の検証計算を行った。結果として、風況が実験とよく一致するとともに、トレーサガス濃度の平均値がアンサンブル計算と実験値の間でFactor2の条件(計算値と実験値の比が1/2から2倍の間にあること)を満たすことを確認した。
小野寺 直幸; 井戸村 泰宏; Ali, Y.*; 山下 晋; 下川辺 隆史*; 青木 尊之*
Proceedings of Joint International Conference on Supercomputing in Nuclear Applications + Monte Carlo 2020 (SNA + MC 2020), p.210 - 215, 2020/10
本研究では、ブロック型局所細分化(AMR)法に基づくPoisson解法のGPU高速化を実施した。ブロック型AMR法はGPUに適したデータ構造であり、複雑な構造物で構成された原子炉等の解析に必須な解析手法である。これに、最新の前処理手法であるマルチグリッド(MG)法を共役勾配(CG)法へと組み合わせることで、計算の高速化を実現した。MG-CG法を構成する計算カーネルをGPUスーパーコンピュータであるTSUBAME3.0上にて測定した結果、ベクトル-ベクトル和、行列-ベクトル積、およびドット積の帯域幅は、ピークパフォーマンスの約60%となり、良好なパフォーマンスを実現した。更に、MG法の前処理手法として、3段のVサイクル法および各段に対してRed-Black SOR法を適用した手法を用いて、格子点の大規模問題の解析を実施した結果、元の前処理付きCG法と比較して、反復回数を30%未満に削減すると共に、2.5倍の計算の高速化を達成した。
小野寺 直幸; 井戸村 泰宏; Ali, Y.*; 下川辺 隆史*; 青木 尊之*
計算工学講演会論文集(CD-ROM), 25, 4 Pages, 2020/06
原子力機構では3次元多相流体解析手法としてJUPITERを開発している。本研究では、JUPITERの圧力Poisson方程式解法として、適合細分化格子(AMR)を用いたマルチグリッド前提条件付き共役勾配法(P-CG)を開発した。計算の高速化として、全ての計算カーネルはCUDAを用いて実装すると共に、GPUスーパーコンピュータ上にて高い性能を発揮する様に最適化した。開発したマルチグリッド圧力Poisson解法は、オリジナルのP-CG法と比較して約1/7の反復回数で収束することが確認された。また、TSUBAME3.0上で8から216GPUまでの強スケーリング性能測定により、更なる3倍の高速化が達成された。
青木 尊之*; 長谷川 雄太
自動車技術, 74(4), p.18 - 23, 2020/04
LESに基づくCFD計算を用いて自転車競技の空力解析を行った。単独での走行および24人の集団走行では、算出された抗力は風洞実験と良く一致した。競合する2集団の走行について、集団内の選手の配置を複数検討した。72人の選手の集団走行として、GPUスーパコンピュータで22.3億格子を用いた大規模空力解析を実施した。
稲垣 厚至*; Wangsaputra, Y.*; 神田 学*; Ycel, M.*; 小野寺 直幸; 青木 尊之*
SOLA (Scientific Online Letters on the Atmosphere) (Internet), 16, p.120 - 124, 2020/00
被引用回数:1 パーセンタイル:5.1(Meteorology & Atmospheric Sciences)都市境界層を対象とした風況解析により、内層および外層のスケーリングと乱流強度分布の類似性を検討した。計算条件として、現実的な建物形状の上に発達する中立条件を仮定すると共に、計算領域19.2km4.8km
高さ1kmに対して2m格子を設定した。乱流強度分布は計算領域内で局所的に定義できる。内層と外層に対してスケーリング則を当てはめることで、表面形状に関係なく、内層と外層内の乱流強度予測のばらつきを減らすことが可能となる。スケーリングされたプロファイル間のばらつきは、各層のスケーリングパラメーターの不一致に起因するが、長さまたは速度の比率からなる無次元パラメーターを導入することで、それらの類似性を示した。
松本 和也*; 井戸村 泰宏; 伊奈 拓也*; 真弓 明恵; 山田 進
Journal of Supercomputing, 75(12), p.8115 - 8146, 2019/12
被引用回数:2 パーセンタイル:25.96(Computer Science, Hardware & Architecture)ジャイロ運動論的トロイダル5次元オイラーコードGT5Dにおける反復法線形ソルバの性能向上に向けて省通信一般化最小残差法(CA-GMRES)をCPU-GPUハイブリッドクラスタで実装した。CA-GMRESに加え、計算量を削減するために我々が提案した修正版CA-GMRES(M-CA-GMRES)の実装と評価も行った。本研究から、集団通信回数の最小化と密行列積演算による高効率演算というCA-GMRESの利点が実証された。性能評価は1ノードあたりNVIDIA Tesla P100 GPU4台を搭載したReedbush-L GPUクラスタで実施した。この結果、M-CA-GMRESによりCA-GMRES, 一般化共役残差法(GCR), GMRESに比べてそれぞれ1.09x, 1.22x, 1.50xの高速化が示された。