GPT-4をセラピストとして実行し、「認知の歪み」を診断させるためのフレームワーク『Diagnosis of Thought (DoT)』と実行プロンプト

★AIDB会員限定Discordを開設いたしました！ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします！↓

近年、精神療法の領域でAIの活用に注目が集まっています。そんな中、カーネギーメロン大学などの研究者らによって新たなフレームワーク『Diagnosis of Thought (DoT)』が考案されました。このフレームワークは、LLMによって人々の「認知の歪み」を診断する目的に特化しており、専門家によって高く評価されています。

認知の歪みとは、例えば「0か100か」のような極端な考え方や、他人の考えを勝手に推測するなど、不健康な思考パターンのことを指します。

DoTフレームワークを用いた診断結果は、人間の専門家が出す診断結果とも高い一致性を示しており、その有用性が確認されています。

（追記）なお、本フレームワークに基づくMyGPTを作成しました。記事末尾にURLを記載するため、興味のある方はぜひお試しください。

AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

・タイトル：Empowering Psychotherapy with Large Language Models: Cognitive Distortion Detection through Diagnosis of Thought Prompting
・著者：Zhiyu Chen, Yujie Lu, William Yang Wang
・所属：Carnegie Mellon University, University of California, Santa Barbara
・URL：https://doi.org/10.48550/arXiv.2310.07146

従来の課題や背景

1. メンタルヘルスの重要性と専門家の不足

メンタルヘルスは現代社会において非常に重要な問題です。世界保健機関（WHO）によれば、世界中で約8人に1人が何らかの精神的な障害を持っています。

さらにWHO資料によると、特定の精神健康状態を持つ人々のケアを受けるグローバルな推定値は50％未満であり、うつ病の人々の40％、精神病の人々の29％がケアを受けているとのことです。精神的な健康問題に対する対応は十分とは言えません。専門家の不足、サービスの質の低さ、高額な治療費、社会的な偏見などが主な理由です。

2. 既存システムの限界

上記の背景から、さまざまな機関によってメンタルヘルス支援の自動化システムが開発されています。しかし現在のシステムは、感情分析や共感に特化しています。患者の思考や認知を深く理解し、モデル化する能力に欠けていると考えられています。

多くの既存研究は、テキスト内容から一般的な精神的健康問題（例：うつ病、不安）を識別することを目的としています。また、対話構造の研究も行われていますが、専門的な精神療法の知識に基づいた深い調査が不足しています。

3. 「認知の歪み」検出における課題

「認知の歪み」検出は、認知行動療法（CBT）などのクラシックな治療手法で重要な要素です。しかし、この分野で使用可能な高品質なデータセットは非常に少なく、多くのデータはプライバシーの問題から公開されていません。これが、AIを用いた精神療法研究の大きな障壁となっています。

上記の課題を解決するための新しい手法やフレームワークの開発が必要とされています。

『Diagnosis of Thought (DoT)』フレームワーク

上述の背景から研究者らは、精神的な健康問題を診断するための新しいフレームワーク『Diagnosis of Thought (DoT)』を開発しました。このフレームワークは、Large Language Model（LLM）を用いて、ユーザーの「認知の歪み」を評価および分類するためのものです。

フレームワークの3つのフェーズ

DoTフレームワークは、以下の3つのフェーズで患者と対話します。

1. 主観性評価（Subjectivity Assessment）

まず、ユーザーの発言から事実と主観を分離します。具体的には、ユーザーの発言に含まれる客観的な事実と主観的な解釈や意見を識別します。

2. 対比的推論（Contrastive Reasoning）

次に、ユーザーの思考を支持または反証する推論プロセスを共有します。同じ状況に対して二つの異なる解釈を対比させることで、認知の歪みをより明確に識別します。

3. スキーマ分析（Schema Analysis）

その後、ユーザーが依存している認知構造（スキーマ）を理解します。スキーマとは、我々の知識、信念、期待を整理する認知構造を指します。ユーザーがどのようなスキーマに依存しているかを理解することで、その認知モードや歪みについて多くのことを明らかにします。

認知の歪みに関する分類の例

下記は、DoTフレームワークで分類される「認知の歪み」の例です。心理学の研究から引用されています。

Personalization（過度な責任感）：

状況の責任を自分に置くこと。実際には多くの要因が関与しているが、それが個人のコントロール外であることを認識しない。

Mind Reading（他者の思考の推測）：

他者が何を考え、どんな動機で行動しているのかを疑う。

Overgeneralization（過度な一般化）：

限られた情報に基づいて大きな結論を導く。

All-or-nothing thinking（二項対立的思考）：

状況を0か100かで見る、または二つの結果しか考えられない。

Emotional reasoning（感情的推論）：

ある事実に対する自分の感じ方が、事実に対する認識を捻じ曲げてしまう。

Labeling（ラベリング）：

人や物に対して、限られた情報からラベルを付ける。

Magnification（拡大解釈）：

状況のネガティブな部分を強調するか、ポジティブな部分を低く評価する。

Mental filter（メンタルフィルター）：

状況のネガティブな部分だけに注意を向ける。

Should statements（「すべき」の思考）：

他人がどのように振る舞うべきかを決めつける。

Fortune-telling（未来の予測）：

特定の方向で物事が進行することを期待する、または事態が悪くなると決めつける。

DoTの性能実験

研究者らは厳密かつ詳細な実験設定を用いて、LLMが認知の歪みをどの程度正確に評価・分類できるかを検証しました。

1. データセットの選定

この研究では、ShreevastavaとFoltz（2021）によって提案された「認知の歪み」検出データセットが使用されました。このデータセットは、Therapist QAデータセットに基づいて専門家によって注釈が付けられています。2,531の患者の発話例が含まれており、それぞれが10種類の一般的な認知の歪みに注釈が付けられています。

2. 実験設定

研究者らは、最近の代表的なLLM（Large Language Models）であるChatGPT（gpt-3.5-turbo）、Vicuna、およびGPT-4を使用して実験を行いました。

LLMは、一般的な指示に基づいてプロンプトされ、目標とする認知の歪みのタイプ（前項にて解説）が指定されました。

3. 評価指標

認知の歪みの評価と分類に対してはF-1スコアが測定されました。このスコアは、真陽性、真陰性、偽陽性、偽陰性の数に基づいて計算され、モデルの性能を総合的に評価するために使用されました。

各実験は5回実行され、その平均値と標準偏差が報告されました。

関連研究：人の音声からAIが「性格」を予測

実験の結果

実験の結果はDoTフレームワークとGPT-4が精神療法において有用なツールである可能性を強く示しています。

以下はその詳細です。

1. 認知の歪みを高精度に評価＆分類

研究者らは、DoT（Diagnosis of Thought）フレームワークが認知の歪みの評価と分類において高い性能を示したことを報告しています。

GPT-3.5を用いた場合でも、歪みの評価スコアはフルトレーニングの性能を上回り、歪みの分類スコアはフルトレーニングの性能に迫る結果が得られました。

2. GPT-4の特別な性能

さらに驚くべきことに、GPT-4は歪みの分類においてフルトレーニングの性能を大きく上回る結果を示しました。GPT-4は本タスクにおいて非常に強力な能力を持っている可能性があります。

3. 専門家による評価

人間の専門家による評価も行われました。UpWorkから雇われた精神療法の専門家（認定臨床心理士、カウンセリング心理学の博士課程の学生など）が、生成された診断を評価しました。その結果、GPT-4によるこの診断方法は「包括的である」と84.5%の専門家が評価しました。

研究者らによる主な結論

1. DoTフレームワークの有用性

研究者らは、DoT（Diagnosis of Thought）フレームワークが精神療法の専門家による補助ツールとして非常に有用であると結論付けました。このフレームワークは、認知の歪みの評価と分類において顕著な改善をもたらし、その診断プロセスにおける解釈を提供します。

2. AIと精神療法の協力

この研究は、AIと精神療法の協力を先導するものとして位置づけられています。最終的な目標は、精神健康支援システムを大幅に強化することができる専門的で安全なAI駆動の支援を構築することです。

関連研究：人の「嘘」はAIにバレる。

プロンプト例

このセクションでは、『Diagnosis of Thought (DoT)』フレームワークを使用して、ユーザー（患者）がどのように認知の歪みを評価・分類できるかについてのプロンプト例を紹介します。

本プロンプト例は、論文で提案されているフレームワークに基づいて具体化したものです。

まずは主な「認知の歪み」に関する知識を整理して与える

下記のプロンプトをLLMに与えます。

本記事を読むにはAIDBのアカウントが必要です。

※ログイン/初回登録後、下記ボタンを押してください。

■サポートのお願い

AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

LLMがソフトウェアエンジリアリングにおいて現時点で役に立つこと＆課題。Metaなどの研究者らが報告

LLMにナレッジグラフ（知識グラフ）を連携させることで、タスク遂行能力を大幅に向上させるフレームワーク『Graph Neural Prompting（GNP）』

AIDB

GPT-4をセラピストとして実行し、「認知の歪み」を診断させるためのフレームワーク『Diagnosis of Thought (DoT)』と実行プロンプト