プロンプトを遺伝的アルゴリズムで自動最適化するプロンプトエンジニアリング手法『Promptbreeder（プロンプトブリーダー）』

★AIDB会員限定Discordを開設いたしました！ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします！↓

DeepMindによる最新の研究で、プロンプトエンジニアリングの新たな手法が発表されました。その手法は遺伝的アルゴリズムを用いてプロンプトを最適化するもので『Promptbreeder（プロンプトブリーダー）』と名付けられています。

Promptbreederは、従来のCoT（ステップバイステップ）手法を上回る性能を持つとされています。プロンプトエンジニアリングの分野において、新たな可能性を切り開くかもしれません。

参照論文情報

タイトル：Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution

著者：Chrisantha Fernando, Dylan Banarse, Henryk Michalewski, Simon Osindero, Tim Rocktäschel

所属：Google DeepMind

URL：https://doi.org/10.48550/arXiv.2309.16797

https://twitter.com/ai_database/status/1709747013649395900

AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

■LLMの出力から誤り（ハルシネーション）を減らす新手法『CoVe（Chain-of-Verification）』と実行プロンプト

■LLMに自身のハルシネーション（幻覚）を「自覚」させ、減らす方法

従来の課題

手作りのプロンプト戦略

現在、プロンプトエンジニアリングの分野で広く用いられているChain-of-Thought（CoT）やその派生テクニックは、基本的には手作りです。特定のタスクや問題に対して最適なプロンプトを設計する際に、人の専門家が手動でプロンプトを生成しています。

自動化の必要性

手作りのアプローチは効果的である場合も多いですが、スケーラビリティに欠けるという問題があります。大規模言語モデル（LLM）が多様なタスクで使用される現代においては、プロンプトの自動生成や最適化が求められています。

CoTの限界

CoTは算数、常識、記号的な推論能力を大幅に向上させることができますが、その効果は強力なLLMでより顕著です。高度なモデルでさえもCoTで改善できるのはすなわち、手動での調整によるコストが重要なものになっていくことも意味します。

研究者のアイデア

上述のように従来のプロンプト戦略が手作りであるという課題に対処するため、研究者らは新たな手法を開発しました。その手法は『Promptbreeder（プロンプトブリーダー）：PB』と名付けられています。この手法は、プロンプトを自動で最適化することを目的としています。

PBのフレームワーク

PBのフレームワークは主に以下の3つのステップで構成されています。

① 初期設定

問題説明

最初に、解決すべき問題についての説明を用意します。プロンプトが最適化される目的を明確にするためです。

一般的な「思考スタイル」

次に、一般的な「思考スタイル」を設定します。プロンプトがどのような方向性で問題解決を行うかを示すガイドラインです。

変異プロンプトの初期セット

最後に、変異プロンプトの初期セットを用意します。遺伝的アルゴリズムによる最適化の出発点となるプロンプトの集合です。

② 遺伝的アルゴリズム

このフレームワークでは、標準的な二項トーナメント遺伝的アルゴリズムを使用しています。これにより、変異プロンプトの集合から最適なプロンプトを選び出します。

遺伝的アルゴリズムについての一般的な説明は後述します。

③ 適性評価

選ばれたプロンプトの性能は、トレーニングデータのランダムなバッチを用いて評価されます。これにより、プロンプトが実際の問題解決においてどれだけ効果的であるかが判断されます。

このフレームワークによって、手作りのプロンプト戦略に依存することなく、効率的にプロンプトを最適化することが可能です。

遺伝的アルゴリズムとは

遺伝的アルゴリズムは、自然界の進化プロセスを模倣した最適化手法の一つです。このアルゴリズムは、特定の問題に対する「最適解」を見つけるために使用されます。

遺伝的アルゴリズムでは、最初に、解の「集団」を生成します。これは、問題解決のための様々なアプローチを表す解のセットです。

評価プロセスと選択プロセス

各解は「適応度関数」によって評価されます。この関数は、解がどれだけ問題に適しているかを数値で示します。

そして、評価された解から、次世代に引き継がれる解が選択されます。通常、適応度が高い解が選ばれる確率が高くなります。選択された解同士が「交叉」され、新しい解が生成されます。さらに、新しい解はランダムな「変異」を受けることがあります。これにより、解の多様性が保たれます。

このプロセスは数世代にわたって繰り返され、最終的には最適解に近づくことが期待されます。

PBとの関連性

Promptbreeder（PB）は、この遺伝的アルゴリズムを応用してプロンプトを最適化する手法です。具体的には、プロンプトの「集団」を生成し、それを評価、選択、組み合わせ、変異させて、最適なプロンプトを見つけ出します。

PBの性能

Promptbreeder（PB）の性能評価は、詳細な実験によって行われています。以下にその主要なポイントをまとめます。

比較対象：Chain-of-ThoughtとPlan-and-Solve

この研究では、最先端のプロンプト戦略である「Chain-of-Thought（CoT）」と「Plan-and-Solve（PS）」を比較対象としています。

CoTは、LLM（Large Language Models）に対して中間の推論ステップを提供することで、算術、常識、および記号的推論能力を大幅に向上させます。
プロンプト例：

深呼吸して、ステップバイステップで取り組んでください。

一方、Plan-and-Solveは、LLMに問題を解決するための計画を最初に作成させ、その後で問題を解決させます。
プロンプト例：

まずは問題を理解し、関連する変数とそれに対応する数値を抽出しましょう。次に、計画を立ててください。その後、その計画に従って中間変数を計算し、問題をステップバイステップで解決し、答えを出しましょう。

ベンチマーク：一般的な算術と常識推論

性能評価のベンチマークとして、一般的な算術問題と常識推論の問題が用いられています。PBの性能が多様な問題解決能力に対してどれだけ優れているかが評価されます。

実験結果：上回るパフォーマンス

実験の結果、PBはChain-of-Thought（CoT）とPlan-and-Solve（PS）のいずれも上回るパフォーマンスを発揮しました。具体的な数値は下記のとおりです。

本記事を読むにはAIDBのアカウントが必要です。

※ログイン/初回登録後、下記ボタンを押してください。

■サポートのお願い

AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

OpenAIは、DALL·E 3の論文を通して「画像生成AIの安全性は前進した」ことを報告しています。

LLMは世界モデルを持ち「物事がどのように位置づけられ、時間がどのように進行するか」を理解する可能性

AIDB