OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功

★AIDB会員限定Discordを開設いたしました！ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします！↓

OpenAIは新しいフレームワーク「PRM」を発表しました。これは、大規模言語モデル（LLM）の数学能力を向上させるためのもので、AIが問題を解く際の誤りをプロセスベースで特定・修正する能力を強化します。このフレームワークで訓練した大規模言語モデルは、DeepMind社の作成した数学問題集（MTAHデータセット）において他のモデルを凌駕し最も優れたパフォーマンスを見せました。

また、この手法は数学だけでなく推論能力を必要とする広範な問題の解決にも応用できる可能性があり、注目を集めています。

参照論文情報

タイトル：Let’s Verify Step by Step

著者：Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

URL：https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf

ブログ：https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

GitHub：https://github.com/openai/prm800k

AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

Microsoft、人間とLLMとの効率的なコラボレーションを”ローコードLLM”で実現へ　論文から解説

ChatGPTなどLLMを特定の専門的タスクに強くするプラットフォーム「OpenAGI」登場　論文から詳しく解説

GPTが「心の理論」をもつかどうかはプロンプト次第

大規模言語モデルと抽象言語オブジェクトでデジタルネイチャーを目指す

誤りを生むステップを特定・修正したい

ステップごとにAIの解法プロセス評価を行う「PRM」

実験結果とその解釈

一般的な問題解決にも応用できる可能性
- 文章の理解
- 論理的な議論の構築

データセット「PRM800K」が使用可能

まとめ

誤りを生むステップを特定・修正したい

AIが問題を解く際の誤り（幻覚）を特定し修正することは、これまでのモデルでは十分に行えるものではありませんでした。これは、推論のプロセスにおいて「どのステップ」で間違えたのか特定できない問題に起因しています。この問題はAIが特に数学的問題を解く能力を向上させるための大きな障害となっていました。

「数学的な問題」は、複雑な論理的思考を必要とする問題の代表的なものです。数学的な問題を解く過程は一連のステップに分けられます。しかし、これまでのAIモデルでは、これらのステップを個別に評価し、間違いを特定することが難しかったのです。

現状の課題の整理

AIモデルが生成した解答が間違っている場合、どのステップで間違ったのかを特定することが難しい。

間違ったステップを特定できたとしても、その間違いを修正するための適切なフィードバックを提供することが難しい。

ステップごとにAIの解法プロセス評価を行う「PRM」

PRMの概要

OpenAIが開発した新しいフレームワーク「PRM（Process-Level Reasoning Models）」は、AIが数学的問題を解く際の誤りを特定し修正する能力を大幅に向上させます。PRMを使用することで、数学的問題解決の各ステップを評価し、間違いを特定する能力を持つAIモデルを訓練できることが実験で明らかになっています。また、この技術を応用すると数学に限らずAIモデルの推論能力が向上する可能性もあります。

PRMの仕組み「プロセス監督」

PRMの核心的なアイデアは、「プロセス監督（process supervision）」です。「プロセス監督」とは、モデルが生成した解答の各ステップが正しいかどうかを評価するというものです。具体的には、モデルが数学的問題を解く際に生成した各ステップの解答に対して、そのステップが正しいかどうかを示すラベル（正解ラベル）を付与します。そして、これらの正解ラベルを用いてモデルを訓練します。

このプロセス監督により、モデルは各ステップでの間違いを特定し、それを修正する能力を獲得します。具体的には、モデルが間違ったステップを生成した場合、そのステップの正解ラベルが「間違い」であることから、モデルはそのステップが間違っていることを学習します。そして、その間違いを修正するためのフィードバックを受け取ることで、モデルは次回から同じ間違いを避けるようになります。

また、PRMは「ステップレベルの正確さ」を指標としています。これは、モデルが生成した解答の各ステップが正しいかどうかを評価する指標で、モデルの性能を評価するための重要な基準となります。

PRMの特徴まとめ

PRMの主な特徴は以下の通りです：

本記事を読むにはAIDBのアカウントが必要です。

※ログイン/初回登録後、下記ボタンを押してください。

■サポートのお願い

AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

要約の品質を評価する新たなツール「SEAHORSE」の登場

大規模言語モデルが自身でPythonツールを作成し活用するようにする新フレームワーク「LATM」登場

AIDB