Development of the J-PARC time-series data archiver using a distributed database system, 2
菊澤 信宏 ; 池田 浩; 加藤 裕子; 吉位 明伸*
Kikuzawa, Nobuhiro; Ikeda, Hiroshi; Kato, Yuko; Yoshii, Akinobu*
J-PARCのLINAC, RCSから得られる制御に必要な大量な運転データは現在PostgreSQLに格納しているが、データ量は日々増え続けており、2020年には30TBから100TBに増えると予想されている。これらを安定的に保存・管理する課題に直面していため、HadoopおよびHBaseを利用したデータアーカイビングシステムの開発を進めている。現在までに基本的なシステムの構築を終え、過去データの移行および長期運用を始めているが、Hadoop/HBaseのバージョンが上がったことに伴って新しい機能が追加され、システムの構成の見直しを行った。これまで単一障害点であったマスターノードがHadoopの標準機能として冗長化されたが、これまでのハードウェアでは能力不足ということが明らかになったのでハードウェアを更新した。また、データを保存するテーブルの圧縮方式が新たに追加されたので、それについていくつかの種類の組み合わせでベンチマークテストを行った。これらの結果について報告する。
J-PARC (Japan Proton Accelerator Research Complex) consists of much equipment. In Linac and 3 GeV rapid cycling synchrotron ring (RCS), the data of over the 64,000 EPICS records for these equipment has been collected. The Data volume will be about 10 TB in 2020. The data have been being stored by a Relational Data Base (RDB) system using PostgreSQL, but it is not enough in availability, performance, and capability to increase of data volume flexibility. Hadoop/HBase, which is known as a distributed, scalable and big data store, has been proposed for our next-generation archive system to solve these problems. The archiving system was built and verified about data transition or database utilization. This report shows the result of the modification of the archive system.