検索対象:     
報告書番号:
※ 半角英数字
 年 ~ 
 年

Fault-tolerant mechanism of both job execution and file transfer for integrated nuclear energy simulation

統合原子力エネルギーシミュレーションにおけるジョブ実行、ファイル転送に関する耐故障性機構

立川 崇之; 手島 直哉; 鈴木 喜雄; 武宮 博

Tatekawa, Takayuki; Teshima, Naoya; Suzuki, Yoshio; Takemiya, Hiroshi

原子力エネルギー分野では、さまざまな物理現象,大スケールのシステムの挙動を扱うための大規模な統合シミュレーションが開発されている。統合シミュレーションでは、各々のコードがシステム内の各々の物理過程,各パーツを取り扱うようにして、複数のコードを連携して実行する。各コードは別々の組織によって開発され、特定の計算機での実行に適したように最適化されていることが多く、グリッド基盤を活用した連携実行が有用である。大規模シミュレーションは長時間にわたって実行されるため、実行中の耐故障性を考慮する必要がある。耐故障性は実行ジョブのみならず、ジョブ間のファイル転送に対しても考慮する必要がある。このため、われわれはエラー検知,ジョブ再投入,ジョブ間のファイル再転送機能を要する耐故障性機構を開発した。この機構を原子力エネルギーシステムに対して適用し、統合シミュレーションのエラー検知及び自動修復を行い、長時間実行を自動的に継続できることを示した。

In the nuclear field, various large-scale integrated simulations which cannot be executed with single job have been developed to reveal physical and engineering phenomena. Such integrated simulations are accomplished by coupling several simulation codes, each of which is charge of each physical process or each engineering part of whole system. Fault-tolerant (FT) mechanism is very important to run such simulations on the error-prone environment such as Grid. We developed functions of error detection, job re-submission, and file re-transfer and integrated them as a FT mechanism. Our test run of integrated nuclear energy application showed that the FT mechanism sustained the long run of the application by recovering the job failure automatically.

Access

:

- Accesses

InCites™

:

Altmetrics

:

[CLARIVATE ANALYTICS], [WEB OF SCIENCE], [HIGHLY CITED PAPER & CUP LOGO] and [HOT PAPER & FIRE LOGO] are trademarks of Clarivate Analytics, and/or its affiliated company or companies, and used herein by permission and/or license.