原子力機構の大型計算機システムにおけるジョブスケジューリングシステムの運用改善
Operational improvements of the job scheduling system in the large-scale computer system at the Japan Atomic Energy Agency
河津 諒平 
Kawazu, Ryohei
国立研究開発法人日本原子力研究開発機構(以下、「原子力機構」という。)では、日本における原子力の総合研究開発機関として原子力に係わる様々な分野の研究開発を行っており、これらの研究開発の多くにおいて計算科学技術が活用されている。原子力機構のスーパーコンピュータシステムHPE SGI8600(以下、「大型計算機システム」という。)はデジタルツイン、機械学習、ビックデータ処理等の技術進展を背景に高まっている計算需要に応える重要インフラとして令和2年12月に導入したものであり、原子力機構の研究開発の推進において欠くことのできないものとなっている。大型計算機システムにおけるプログラムの実行タスク(以下、「ジョブ運用」という。)を効率化することは、計算資源の効率的な利用、すなわち、研究開発の効率化において有用である。ジョブ運用の効率化に向け、プログラム実行の待機時間(以下、「ジョブ待機時間」という。)を調査することにより、運用開始段階では分かれていたジョブの実行リストを管理するクラス(以下、「キュークラス」という。)の統合を行えばジョブ待機時間が改善され、運用が効率化されると推定された。そのことから、キュークラスの統合を令和4年度より施行することとした。本報告書では、ジョブ運用の効率化のために行った大型計算機システムの利用情報の分析からキュークラス統合までの流れ、キュークラス統合前後のジョブ待機時間の変化について報告する。
The Japan Atomic Energy Agency (JAEA) conducts research and development in various fields related to nuclear energy as a comprehensive research and development organization for nuclear power. Computational science and technology are utilized in many of these research and development activities. The supercomputer system HPE SGI8600 (hereinafter referred to as the "supercomputer") was introduced in December 2020 as critical infrastructure to meet the increasing computational demands driven by advancements in technologies such as digital twins, machine learning, and big data processing. It has become indispensable for promoting research and development at JAEA. Improving the efficiency of job operations and program waiting times (hereinafter referred to as "job waiting times") on the supercomputer, which is an essential infrastructure supporting JAEA's computational science and technology, is useful for enhancing research and development efficiency. This report presents the results of the investigation into the changes in job waiting times following the integration of queue classes, which was implemented in fiscal year 2022 to efficiently utilize computational resources. It summarizes the process from the analysis of the supercomputer's usage information to the improvements made for the integration of queue classes and the improvement of job waiting times.