LLMに自身のハルシネーション(幻覚)を「自覚」させ、減らす方法

   

最終更新日:2023/09/19

LLMは非常に大規模なテキストデータから学習を行い、人間のようなテキストを生成することが可能です。しかし、時に「ハルシネーション(幻覚)」という問題が起こります。これはLLMが実在しない情報や参照を生成してしまう現象を指します。

Microsoftとスタンフォード大学の研究者チームは、このハルシネーション現象に焦点を当てた研究を行いました。そして、LLMが生成した参照(引用文献などの情報)が幻覚かどうかを判断する方法を探求しています。

参照論文情報

  • タイトル:Do Language Models Know When They’re Hallucinating References?
  • 著者:Ayush Agrawal, Mirac Suzgun, Lester Mackey, Adam Tauman Kalai
  • 所属:Microsoft Research India, Stanford University, Microsoft Research
  • URL:https://doi.org/10.48550/arXiv.2305.18248

ハルシネーションについて

定義

LLM(Large Language Models)は、実在しない情報や参照を事実のように生成することがあります。これを「ハルシネーション(Hallucination:幻覚)」と呼びます。ハルシネーションは、言語モデルが訓練データに基づいて”いない”内容のテキストを生成する現象を指します。

その影響

ハルシネーションは、言語モデルが文献レビューを生成する際や関連研究の探索と引用に利用される場合によくない影響を与えます。この問題は、特に「参照のハルシネーション(Hallucinating References)」として知られ、研究が進められています。また、これが公衆の注意を引くようになり、特に医療分野での問題として指摘されています。ハルシネーションは、ユーザーがモデルをより信頼するようになるにつれて、問題が増大するとされています。

評価方法

ハルシネーションの評価は通常、言語モデルの訓練データへのアクセスを必要とします。しかし、今回紹介する研究では、ウェブ検索での完全一致を基準にしてハルシネーションを評価する方法を提案しています。

調査と検証

このセクションでは、研究者が行った調査プロセスについて詳しく説明します。

質問テンプレートの利用

研究初期段階で、研究者は3つの異なる質問テンプレートを用いてLLMに質問を行いました。研究者らはLLMがどのような回答を生成するのか、そしてどのような質問がハルシネーションを引き起こしやすいのかを理解しようとしました。

詳細な質問を行う

次に、研究者はLLMにさらに詳細な質問を行いました。このステップは、調査インタビューからインスパイアを受けたもので、一貫性を評価するために複数の質問を行う手法を採用しています。LLMがどのように回答を構築し、それが一貫しているかどうかを評価しました。



■毎朝AIの最新研究に自動でキャッチアップできるニュースレターはこちら↓


体系的な調査

最後に、研究者は体系的な調査を行いました。この段階では、どのような質問がハルシネーションを引き起こしやすいかを比較しました。さまざまな質問テンプレートを使用して、LLMの回答の一貫性と正確性を評価しました。

この一連の検証プロセスを通じて、研究者はLLMのハルシネーションの傾向とその原因を深く理解することができました。

検証結果

このセクションでは、研究者が得た主な検証結果について説明します。

幻覚の削減方法

研究者は、幻覚を減らすためには「生成パイプライン」の変更が有効であると結論づけました。この変更は、LLMがテキストを生成する際のプロセスを改善し、ハルシネーションを減らすことを目指しています。

生成パイプラインとは

「生成パイプライン」とは、LLMが大量のテキストデータからパターンを学び取り、新しいテキストを生成するための段階的なプロセスを指します。このパイプラインは、テキスト生成の各段階で行われる一連の操作から構成されており、それぞれの段階がテキストの品質に影響を与えます。

生成パイプラインの変更は、LLMが生成するテキストの品質を向上させるために不可欠です。そして、ハルシネーションを減らすためには、生成プロセス自体を見直し、改善する必要があります。

幻覚を減らす工夫

このセクションでは、言語モデルがハルシネーションを減らすために取り入れることができる工夫について説明します。

1. 前処理の導入

前処理は、テキスト生成プロセスの初期段階で行われる工程であり、この段階でテキストの正確さを確保するためのステップを導入することが重要です。たとえば、言語モデルがテキストを生成する前に、

「引用する文献や参照する情報が実在するものであることを確認してください」

といった指示を行うことで、ハルシネーションのリスクを減らすことができます。

2. 後処理の導入

後処理はテキスト生成プロセスの後段に位置し、この段階で生成したテキストをレビューし、ハルシネーションを識別して修正するためのステップを導入することが有効です。具体的には、

「上記で生成したテキストはすべて事実に基づいていますか?」

といった質問を行い、テキストの正確さを確認することが推奨されます。

これらの前処理と後処理のステップをLLM自身が行うことができます。このことから、研究者らは、LLMはハルシネーションを一定程度「自覚」することが可能であると表現しています。この「自覚」能力を利用することを忘れず、LLMに一手間かけさせることで自身の生成したテキストの品質を向上させることが重要です。

まとめ

この研究では、Large Language Models (LLM) が自身で生成したテキストに含まれるハルシネーション(幻覚)を一定程度「自覚」する能力を持つことが明らかにされました。Microsoftとスタンフォードの研究者チームは、この問題を解決するための方法を提案しています。

この研究は、LLMがハルシネーションを一定程度自覚できる能力を持つことを示しています。そして、この自覚能力を利用して、ハルシネーションを減らす工夫を行うことが可能です。この研究は、言語モデルの更なる改善と開発に向けた重要な一歩となります。

関連研究


■サポートのお願い
AIDBを便利だと思っていただける方に、任意の金額でサポートしていただけますと幸いです。

    AI新着論文を自動で取得し、日本語サマリーを毎日メールで受け取るサービスに申し込みが殺到しています。
    毎日新しく出版されるAIの論文にキャッチアップするのは、「手間がかかる」「読解が難しい」といった問題あります。
    AIDBは、オートで新着論文の探索を行い、❶論文情報❷日本語サマリーを複数掲載するニュースレターサービスを行っています。

    ■サービス概要
    ① AI新着論文の情報を毎日5件自動で収集
    ② 論文のサマリーを記載
    ③ キーワードをカスタマイズ可能
    ④ 受け取り時間帯を指定可能

    下記のフォームから簡単に申し込みが開始できます。
    価格は現在¥500/月で、3日間は無料でトライアルができます。

    キーワードを詳細にカスタマイズしたり、受け取り時間帯を指定するには、こちらのページから申し込みを行なってください。
    下記のボタンからトライアルを開始した場合、デフォルトの設定(生成AI関連の論文)でサービスをご提供します。
    キーワードや時間帯のご変更は申し込み後も可能です。

    ※初めの3日間は無料です。4日目から引き落としを開始いたします。

    業界/カテゴリー

    PAGE TOP