従来の小さなニューラルネットワークでも「メタ学習」でChatGPTを凌駕するほど高度な生成AIができるとの報告、Nature誌

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

ニューヨーク大学をはじめとする研究チームが、Nature誌にて革新的な研究を公表しました。報告によれば、従来型のニューラルネットワークでも、ChatGPTなどの先端的な生成AIを上回る性能を発揮する可能性が示されています。

この新技術は、限られたデータ量であっても高い効果を発揮するとされ、生成AIにおける多くの課題—コスト、資源、データの制約—を解決する新たな進路を開く可能性があります。

研究で提案されたAIモデルは、「人間に匹敵する言語の汎用性」を有すると評価されています。もしそれが真実であれば、現行の大規模言語モデルがまだ達成していない、新次元の能力に到達しています。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

・タイトル:Human-like systematic generalization through a meta-learning neural network
・著者:Brenden M. Lake, Marco Baroni
・所属:New York University, ICREA, Universitat Pompeu Fabra
・URL:https://doi.org/10.1038/s41586-023-06668-3
・訓練データとモデル:https://github.com/brendenlake/MLC

従来の課題や背景

大規模言語モデル(LLM)は通常、数百GB以上のテキストデータを用いて訓練されます。このデータ依存性は、LLMが高精度でテキスト生成を行える一方で、新規の構造や未知の単語、概念への適応力が低いという課題を引き起こしています。

人工ニューラルネットワーク(ANN)は、特定のタスクに焦点を当てた訓練が可能ですが、学習した要素を新しい状況で効果的に組み合わせる、いわゆる「一般化」の能力に制限があります。ANNは、GPTやBERTなどの先進的なテキスト生成モデルの基礎ともなっています。

LLMの訓練と運用には、膨大な計算コストとエネルギーが必要です。これが、商用環境やリソースに制限がある研究環境での導入を困難にしています。

これらの課題を解決するための新しいアプローチとして、MLC(メタ学習による体系性)が開発されました。MLCは、訓練データに過度に依存せず、新規の構造や未知の単語にも効率的に適応できる設計がされています。

本記事の関連研究:GPT-4などのLLMが「AはB」から「BはA」を導かない『逆転の呪い』における誤解なき解釈と対策

『メタ学習による体系性(MLC)』とは

MLCの概念図





研究者たちは、人工ニューラルネットワークに新しいフレームワークとして『メタ学習による体系性(MLC)』を導入しました。このフレームワークは、先進的な大規模言語モデル(LLM)を超越する可能性を持つとされています。

特徴

MLCは、特定の問題に特化したデータ、パラメータ、設定が不要です。「メタ学習」の活用により、新規のタスクや未知の概念にも効率的に適応できるからです。

さらに、MLCはメタ学習を用いて、体系的な一般化と人間のバイアスをデータから学習するように設計されています。メタ学習についての詳細は後に説明します。

MLCはテキスト生成を含む多くの生成AIタスクにも適用可能です。MLCが標準的なトランスフォーマーアーキテクチャを使用し、そのコンポジショナルスキルを最適化することで、体系的な一般化が可能になるためです。

限界と課題

MLCは多くの面で優れていますが、すべての課題を解決しているわけではありません。例えば、MLCはメタ学習の枠組み外で出現する全く新しい構造に対する処理能力が限定的です。

本記事の関連研究:LLMは世界モデルを持ち「物事がどのように位置づけられ、時間がどのように進行するか」を理解する可能性

そもそも「メタ学習」とは

メタ学習とは、簡潔に言えば「学習のプロセス自体を学習する手法」です。本研究において、メタ学習は極めて重要な役割を担っています。メタ学習は動的に変わるエピソードに対して最適化を施し、各エピソードで異なるシーケンス間変換(seq2seq)タスクを設定します。

本研究において、メタ学習は人間に近い一般化能力を実現するための鍵とされています。メタ学習を用いることで、システムはデータから体系的な一般化と人間のバイアスを効率的に学習することが可能です。ただし、メタ学習単独では、訓練フェーズで遭遇するエピソードに含まれる全く新しい構造に対して、その処理能力は一定の制限があります。

本記事の関連研究:メタ認知をさせてLLMの能力を上げる手法「メタ認知プロンプティング」

MLCの性能評価

本研究における核心部分であるMLCの性能はどのように評価されたのかを説明します。

本記事を読むにはAIDBのアカウントが必要です。


※ログイン/初回登録後、下記ボタンを押してください。


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP