検索対象:     
報告書番号:
※ 半角英数字
 年 ~ 
 年

Fault-tolerant mechanism of both job execution and file transfer for integrated nuclear energy simulation

原子力エネルギー統合シミュレーションのジョブ実行,ファイル転送における耐故障機能

立川 崇之; 手島 直哉*; 鈴木 喜雄   ; 武宮 博

Tatekawa, Takayuki; Teshima, Naoya*; Suzuki, Yoshio; Takemiya, Hiroshi

発電プラントの耐震評価や核融合プラズマの安定制御など原子力システムを対象とした統合シミュレーションを実施するには、さまざまな要素コードを長時間連携させた計算が必要となる。従来からさまざまな連携制御支援ツールが開発されているが、連携できるシミュレーションが限られたり、コードに大幅な修正を要するという問題が存在する。さらに、長時間に及ぶ連携実行では、計算機やネットワークの予期せぬ停止や、計算時間超過による処理の打ち切りが発生する可能性があり、それらへの対処も必要である。これらの要因により、統合シミュレーション実現には多大な労力を要していた。本研究では、要素コード間で授受されるデータファイルの仕様及び関係を定義する一般的な枠組みを構築し、多様なプログラムをほとんど修正することなしに連携可能とした。また、長時間継続実行を支援するために、シミュレーションの停止やファイル転送の障害を検知する機能と障害発生時点からの自動再実行機能を実現した。本機能を核融合,地震耐力等多用な原子力統合シミュレーションコードに適用し、1%以下のコード修正で1週間以上に及ぶ自動実行が可能であることを確認することで、有効性を検証した。

By integrating simulation codes which simulate physical process or part of nuclear energy facility, large-scale and detailed simulation can be carried out. Such integrated simulations require several weeks or months of CPU times. Avoiding unscheduled outage of computers or network, we have developed fault-tolerant mechanism for cooperative execution of the codes. The mechanism covers abnormal end of jobs on supercomputers and error of file transfers. When the computer causes unexpected outage, the mechanism tries to submit job of simulation to alternative computer. Furthermore, by comparison the size of the files between before and after transfer, the mechanism detects error of the transfer. In the fault-tolerant mechanism, because the relations between the jobs and the file transfers are connected, we can decide an execution order of the codes by the definition of file flow. Therefore we can operate integrated simulations in which the codes are executed sequentially or concurrently.

Access

:

- Accesses

InCites™

:

Altmetrics

:

[CLARIVATE ANALYTICS], [WEB OF SCIENCE], [HIGHLY CITED PAPER & CUP LOGO] and [HOT PAPER & FIRE LOGO] are trademarks of Clarivate Analytics, and/or its affiliated company or companies, and used herein by permission and/or license.