JOPSS:検索結果一覧

検索結果：　2 件中 1件目～2件目を表示

発表形式

Initialising ...

選択項目を絞り込む

掲載資料名

Initialising ...

発表会議名

Initialising ...

筆頭著者名

Initialising ...

キーワード

Initialising ...

発表言語

Initialising ...

発行年

Initialising ...

開催年

Initialising ...

論文

Implementation and performance evaluation of a communication-avoiding GMRES method for stencil-based code on GPU cluster

松本和也*; 井戸村泰宏; 伊奈拓也*; 真弓明恵; 山田進

Journal of Supercomputing, 75(12), p.8115 - 8146, 2019/12

https://doi.org/10.1007/s11227-019-02983-7

被引用回数：2 パーセンタイル：20.81(Computer Science, Hardware & Architecture)

ジャイロ運動論的トロイダル5次元オイラーコードGT5Dにおける反復法線形ソルバの性能向上に向けて省通信一般化最小残差法(CA-GMRES)をCPU-GPUハイブリッドクラスタで実装した。CA-GMRESに加え、計算量を削減するために我々が提案した修正版CA-GMRES(M-CA-GMRES)の実装と評価も行った。本研究から、集団通信回数の最小化と密行列積演算による高効率演算というCA-GMRESの利点が実証された。性能評価は1ノードあたりNVIDIA Tesla P100 GPU4台を搭載したReedbush-L GPUクラスタで実施した。この結果、M-CA-GMRESによりCA-GMRES, 一般化共役残差法(GCR), GMRESに比べてそれぞれ1.09x, 1.22x, 1.50xの高速化が示された。

論文

An Estimation of complexity and computational costs for vertical block-cyclic distributed parallel LU factorization

今村俊幸

Journal of Supercomputing, 15(1), p.95 - 110, 2000/00

https://doi.org/10.1023/A:1008121726802

被引用回数：2 パーセンタイル：29.12(Computer Science, Hardware & Architecture)

本論文では分散メモリ型並列計算機に効果的な、縦ブロック分割の並列LU分解(VBPLU)について報告する。本手法は、ブロックアルゴリズムと通信の集団化という二つの最適化手法に基づいており性能向上が見込める。さらに長ベクトル演算を保障する点でベクトル計算機向けと予想できる。論文ではLog GPやSAD等で知られる並列化モデルに基づいた精密なモデル化を行うとともに、ブロック分割によって生じる負荷分散に関する一考察を与えている。さらに実機上での実験を通じてその結果の有効性を示し、スカラ機上で起こるキャッシュの問題について一解釈を与えることができた。VBPLUで行った解析手法は、ライブラリやコンパイラによるアルゴリズムの自動最適化に応用可能なものと考えられる。