LLMに自身のハルシネーション（幻覚）を「自覚」させ、減らす方法

★AIDB会員限定Discordを開設いたしました！ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします！↓

LLMは非常に大規模なテキストデータから学習を行い、人間のようなテキストを生成することが可能です。しかし、時に「ハルシネーション（幻覚）」という問題が起こります。これはLLMが実在しない情報や参照を生成してしまう現象を指します。

Microsoftとスタンフォード大学の研究者チームは、このハルシネーション現象に焦点を当てた研究を行いました。そして、LLMが生成した参照（引用文献などの情報）が幻覚かどうかを判断する方法を探求しています。

参照論文情報

タイトル：Do Language Models Know When They’re Hallucinating References?

著者：Ayush Agrawal, Mirac Suzgun, Lester Mackey, Adam Tauman Kalai

所属：Microsoft Research India, Stanford University, Microsoft Research

URL：https://doi.org/10.48550/arXiv.2305.18248

ハルシネーションについて

定義

LLM（Large Language Models）は、実在しない情報や参照を事実のように生成することがあります。これを「ハルシネーション（Hallucination：幻覚）」と呼びます。ハルシネーションは、言語モデルが訓練データに基づいて”いない”内容のテキストを生成する現象を指します。

その影響

ハルシネーションは、言語モデルが文献レビューを生成する際や関連研究の探索と引用に利用される場合によくない影響を与えます。この問題は、特に「参照のハルシネーション（Hallucinating References）」として知られ、研究が進められています。また、これが公衆の注意を引くようになり、特に医療分野での問題として指摘されています。ハルシネーションは、ユーザーがモデルをより信頼するようになるにつれて、問題が増大するとされています。

評価方法

ハルシネーションの評価は通常、言語モデルの訓練データへのアクセスを必要とします。しかし、今回紹介する研究では、ウェブ検索での完全一致を基準にしてハルシネーションを評価する方法を提案しています。

調査と検証

このセクションでは、研究者が行った調査プロセスについて詳しく説明します。

質問テンプレートの利用

研究初期段階で、研究者は3つの異なる質問テンプレートを用いてLLMに質問を行いました。研究者らはLLMがどのような回答を生成するのか、そしてどのような質問がハルシネーションを引き起こしやすいのかを理解しようとしました。

詳細な質問を行う

次に、研究者はLLMにさらに詳細な質問を行いました。このステップは、調査インタビューからインスパイアを受けたもので、一貫性を評価するために複数の質問を行う手法を採用しています。LLMがどのように回答を構築し、それが一貫しているかどうかを評価しました。

AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

体系的な調査

最後に、研究者は体系的な調査を行いました。この段階では、どのような質問がハルシネーションを引き起こしやすいかを比較しました。さまざまな質問テンプレートを使用して、LLMの回答の一貫性と正確性を評価しました。

この一連の検証プロセスを通じて、研究者はLLMのハルシネーションの傾向とその原因を深く理解することができました。

検証結果

このセクションでは、研究者が得た主な検証結果について説明します。

幻覚の削減方法

研究者は、幻覚を減らすためには「生成パイプライン」の変更が有効であると結論づけました。この変更は、LLMがテキストを生成する際のプロセスを改善し、ハルシネーションを減らすことを目指しています。

生成パイプラインとは

「生成パイプライン」とは、LLMが大量のテキストデータからパターンを学び取り、新しいテキストを生成するための段階的なプロセスを指します。このパイプラインは、テキスト生成の各段階で行われる一連の操作から構成されており、それぞれの段階がテキストの品質に影響を与えます。

生成パイプラインの変更は、LLMが生成するテキストの品質を向上させるために不可欠です。そして、ハルシネーションを減らすためには、生成プロセス自体を見直し、改善する必要があります。

幻覚を減らす工夫

このセクションでは、言語モデルがハルシネーションを減らすために取り入れることができる工夫について説明します。

本記事を読むにはAIDBのアカウントが必要です。

※ログイン/初回登録後、下記ボタンを押してください。

■サポートのお願い

AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

「GPTの書いた文章」と「人間の書いた文章」、信頼されやすいのはどっち？検証の結果

AIのテキスト・イラスト生成によるCO2排出量は人間より約100〜1000倍以上「少ない」との報告

AIDB