宇宙物理・宇宙論に特化した大規模言語モデルで、GPT-4oレベルの性能を達成

高エネルギー加速器研究機構(KEK)
KEK 量子場計測システム国際拠点(WPI-QUP)
KEK 素粒子原子核研究所(IPNS)

Question

高度に専門化された天文学のAIアシスタントを、大規模言語モデル(LLM)を使い、わずか80億のパラメータで構築することで、GPT-4oのような遙かに膨大なパラメータを持つ、計算コストの高い汎用AIの性能に匹敵するものができるでしょうか?

Findings

KEKのWPI-QUP/IPNSのタイメン・デ・ハーン(Tijmen de Haan)助教が中心となり、天文学、宇宙物理学、宇宙論、天体装置に関する公開されている約250,000の論文で学習させた大規模言語モデル「AstroSage-8B」を開発しました。OpenAIのGPT-4oと比べるとコストは1000分の一程度であるのに対し、ベンチマーク試験においてこのモデルの正答率は80.9%に達し、OpenAIのGPT-4oの正答率をわずかに上回りました。

Meaning

今回の研究は、特定のテーマに関して注意深く厳選されたデータを与えれば、継続的な事前学習、教師ありの追加学習と、モデル統合などの手法を組み合わせることで、小規模で、オープンウェイトなモデルが実現でき、非常に大規模なモデルを凌駕できることを示しました。これは、予算が限られている学術機関が強力なAIを導入する障壁を下げるだけでなく、自律的な研究ツールの開発にも道を開くものです。

概要

小型で高度に専門化されたAIは、巨大で汎用的なAIの性能に匹敵するか、それを上回ることができるでしょうか?これが、KEKの量子場計測システム国際拠点(WPI-QUP)及び素粒子原子核研究所(IPNS)の研究者であるタイメン・デ・ハーン(Tijmen de Haan)助教と共同研究者たちが問いかけた質問です。AstroSage-8Bは、この問いに 「イエス」で答えます。新聞の見出しを飾るほとんどのAIは、数千億から数兆の数値「ウェイト」を含み、訓練と運用に莫大な費用をかけています。デ・ハーン博士はGPT-4oの100分の1以下である80億パラメータのモデルに、天文学、宇宙物理、宇宙論、宇宙科学、天体装置など、宇宙に関する領域を理解し推論することを学習させたのです。特別に訓練したAIの強力さを示す今回の結果は、2025年4月21日に『サイエンティフィック・リポーツ』誌に掲載されました。

ベンチマーク性能図: 今回開発したAstroSage-8B(★)と他のAIモデルとのベンチマークテスト[2]での比較。それぞれのモデルでは、ほぼ斜めに引いた線に沿っており、性能があがればコストが高くなる。 AstroSageの性能はGPT-4o()をわずかに上回る一方、約1000分の1のコストで動作しており、目的に特化したモデルが費用対効果の高いAIを生み出すことを示している。人間の専門家の正答率は灰色の横線で示している。

詳しくは  プレスリリース  をご参照ください。

お問い合わせ先

高エネルギー加速器研究機構(KEK)広報室
Tel : 029-879-6047
e-mail : press@kek.jp