【議事録詳報・前編】AI for Science基盤整備へ加速 研究データが「使える状態」にない現実
研究にAIを活用する「AI for Science」という考え方が、いま日本の科学政策の中心に据えられている。AIが科学研究を本当に支援できるようになるには、大量の研究データをAIが読み込める形で蓄積・整理する基盤が欠かせない。ところが現状では、分野ごとにバラバラなデータベースが乱立しており、AIが横断的に活用できる状態にはなっていない。この問題をどう解決するかを議論する場が、文部科学省の科学技術・学術審議会情報委員会「AI for Scienceを支える研究データの管理・利活用と流通の在り方ワーキンググループ」だ。
Photo by hamazou/ Adobe Stock
2026年5月22日に開催された第5回会合では、ライフサイエンス・マテリアル・放射光という異なる3分野の専門家が現場の実態を報告し、共通する課題と分野ごとの到達点を共有した。議事録は2026年6月25日に文部科学省ウェブサイトで公開された。ゲストスピーカーとして、情報・システム研究機構データサイエンス共同利用基盤施設(DBCLS)教授の五斗進氏、国立研究開発法人物質・材料研究機構(NIMS)技術開発・共用部門 部門長の出村雅彦氏、理化学研究所放射光科学研究センター データ処理系開発チームリーダーの初井宇記氏が参加した。6月の取りまとめに向けた報告書の骨子案も事務局から示されている。
そもそも何が問題なのか
AI for Scienceを実現する上での根本的な障壁は、研究データが「使える状態」になっていないことだ。世界中の研究者が日々膨大なデータを生み出しているにもかかわらず、そのデータは分野ごとに異なる形式・異なるシステムで管理されており、AIが横断的に学習できる状態にはなっていない。
問題はそれだけではない。データを保管するストレージは機関ごとに個別調達・個別管理されており、研究者が退職すると貴重なデータが散逸するリスクもある。また、研究者がデータを解析しようとすると、データの保管場所と計算機が別々の施設にあるため、転送や管理の手間が研究の足かせになっている。さらに、施設や機関ごとにIDとパスワードの管理が分断されており、複数の施設を横断して使う際にはそのたびに別の認証手続きが必要になる。こうした問題が積み重なった結果、AI活用の土台となるデータ基盤の整備が大幅に遅れているのが現状だ。
ライフサイエンスの知識グラフに2,200億トリプル蓄積
ライフサイエンス分野が扱うデータの多様さと規模は際立っている。生物学・医学・薬学・農学など研究分野が広く、データの種類も塩基配列から疾患情報、タンパク質の立体構造まで幅広い。塩基配列だけでも世界全体で100ペタバイトクラスのデータが蓄積されており、世界では7,000件から1万件規模のデータベースが存在している。
五斗氏が参画するDBCLSは、こうした多様なデータを「誰でも見つけられ、誰でも使えて、システムをまたいで活用でき、再利用できる」というFAIR原則(Findable・Accessible・Interoperable・Reusable)に基づいて整理・統合する取組を長年進めてきた。文部科学省が推進するナショナルライフサイエンスデータベースプロジェクト(NLDP)のもとで、約2,500件のデータベースを収録したカタログと819件を対象とした横断検索基盤を整備している。さらに、異なるデータベース間の情報を「知識グラフ」という形式でつなぎ、AIが理解しやすい構造に変換したRDFポータルには現在2,200億トリプルのデータが蓄積されている。欧州のグループとも連携し、合計5,000件規模のデータベースをカバーする体制も整えている。
一方で、データが研究者の手元にとどまり公開されない問題も根深い。塩基配列の分野では論文投稿時にジャーナル側がデータベースへの登録を義務化しており、それが定着の大きな力になっているが、義務化されていない分野ではデータが出てこないのが実情だ。五斗氏は「データシェアリングのポリシーを国としてトップダウンで決める司令塔機能が必要だ」と訴え、共通認証機構の整備や大規模ストレージの共同利用など、NIIが国レベルの共通基盤として担うべき役割への期待を示した。
NIMSは400万ファイルを蓄積、知識化での提供へ
マテリアル分野では、データをAIに活用できる形で収集・整備するという取組が、他分野に先行して進んでいる。NIMSは文部科学省が推進するマテリアルDXプラットフォーム事業のもとで、マテリアル先端リサーチインフラ事業(ARIM)・NIMSデータ中核拠点事業(MDPF)・データ創出・活用型マテリアル研究開発プロジェクト(DxMT)という3つの事業を一体的に推進しており、世界最大規模の材料データベースを構築してきた。無機材料の結晶構造データベース「AtomWork-Adv」、高分子構造データベース「PoLyInfo」はその代表例だ。
これまでのデータベースは主に論文から専門家が手作業でデータを抽出・整理したものだったが、NIMSが力を入れているのはそれだけではない。研究現場で日々生まれる実験データ(ワーキングデータ)を直接収集する取組を2023年度に本格化させた。計測装置から出てくるデータを自動で構造化して蓄積するシステム「RDE」をARIMの参画26機関に展開し、3年間で約400万ファイルを蓄積した。これらのデータは年度末から最大2年間のエンバーゴ期間を経て広域共有の対象となる。2025年9月には論文未発表の実験データをライセンス提供するサービスも開始しており、同様の取組は世界的にも先例がないと出村氏は述べた。機械学習を活用したデータ解析基盤「pinax」は2025年12月23日に一般公開されている。
出村氏が特に強調したのは、AIの時代における「データの提供の仕方」が根本から変わるという点だ。これまではデータそのものを渡すことが中心だったが、今後はデータを学習させたAIや、そこから抽出した知識を提供することが主流になる。データが少なくても、蓄積データから知識を引き出すことで、まだ実験していない未知の領域にも対応できるようになるからだ。企業秘密に関わるデータを外部に渡さずに知識だけを共有する「秘密計算」技術についても、産業技術総合研究所との共同検証実験などを通じてすでに着手していると報告した。
後編では、放射光施設SPring-8が直面する1日2.3ペタバイトのデータ処理問題と、国立情報学研究所(NII)が提示した三位一体のエコシステム構想を報告する。