【議事録詳報・後編】大量のデータ扱う方法 NIIが三位一体エコシステム構想を提示
前編では、ライフサイエンスとマテリアルの2分野が抱えるデータ基盤の課題と到達点を報告した。後編では、放射光施設SPring-8が直面するデータ処理とセキュリティの問題、そして国立情報学研究所(NII)が会合で初めて示したAI for Science向け基盤の全体構想を紹介する。
Photo by hamazou/ Adobe Stock
SPring-8、1日2.3PBのデータ処理とセキュリティ強化が急務
放射光分野のデータ問題は、スケールが桁違いだ。兵庫県佐用町にある大型放射光施設SPring-8は、1周1.5キロの加速器から非常に強力なX線を生み出し、材料・医薬品・食品・インフラなど幅広い分野の研究に使われている。年間延べ1万4,000人日の利用者が訪れ、約2割が民間企業だ。2029年度には現行の約100倍の輝度を持つ「SPring-8-Ⅱ」への高度化が予定されており、発生するデータ量はさらに大幅に増える見通しだ。
理化学研究所放射光科学研究センター データ処理系開発チームリーダーの初井宇記氏が紹介した事例では、独自開発のX線画像検出器「CITIUS」を使った実験で1日2.3ペタバイトものデータが発生する。この膨大なデータをリアルタイムで圧縮・解析し、実験中に「今の測定は正しくできているか」を即座に判断できる仕組みを、独自開発のFPGA演算加速ボードで実現した。コンクリートやアスファルトの劣化解析では、スーパーコンピュータ「富岳」とAIを組み合わせることで2〜5年の寿命延長につながる知見が得られ始めており、年間の維持コスト削減への大きな効果が期待されているという。
一方で2つの深刻な課題が浮き彫りになった。1つは、データがビームライン近傍・データセンター・富岳の3か所に分散していることだ。研究者は解析のたびにデータの場所と計算機の組み合わせを自ら管理しなければならず、IT専門家でない研究者にとって大きな負担になっている。もう1つはセキュリティだ。先端半導体を開発する企業などは「データを施設の外に出したくない」という強い要求を持っており、警備員の配置や物理的な通信経路の隔離といった高水準の対応を求めてくる。これに対応するため、NTTと共同でIOWN(Innovative Optical and Wireless Network)という光通信技術を用いた専用帯域確保型のデータ転送の研究開発を進めていると初井氏は報告した。
NIIが三位一体エコシステム構想を提示、6月報告書へ
これら3分野の報告を踏まえ、NII副所長・アーキテクチャ科学研究系教授の合田憲人氏は、AI for Scienceに必要な基盤の全体像を整理した図を初めて示した。「データ創出(実験装置)」「計算資源」「データ・AI基盤」の3つを独立したシステムではなく、一体のエコシステムとして設計することが不可欠だというのが核心だ。AIが蓄積されたデータから知識を生み出し、その知識が実験装置の制御や自動化に活用され、新たな実験データがまた基盤に蓄積されるという好循環を作ることが目標となる。
3分野へのヒアリングを通じて合田氏が整理した共通ニーズは大きく4つある。分野特化型のAIモデル構築支援とメタデータ自動生成、実験の自動化や論文審査の負荷軽減といった研究支援の自動化、機密データを安全に扱えるローカルAI環境の整備、そして高度な計算基盤を使いこなす人材育成と知見の共有だ。特に最後の人材育成は、インフラを整えても使いこなせる人がいなければ意味がないとして、ハードウェアと並んで重要な課題と位置づけられた。
ワーキンググループの委員からは、すべてを一つの共通基盤に統合しようとするのではなく、認証など共通化できる部分は共通化しつつ、分野特有の機能は各分野が整備するという二層構造が現実的だという整理が示された。文部科学省学術基盤整備室は、データ基盤・計算基盤・実験基盤を一体としたパッケージで予算要求を行う方針を表明した。ワーキンググループは2026年6月の取りまとめに向けて審議を継続している。