【AIと色】人工知能に色識別ゲームをさせたら、人に似た分類をした。【AI×エンタメ】(論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

人間の言語の効率性はすごい

人間がコミュニケーションを行う際には、「正確性の向上」と「複雑さの回避」のトレードオフにより最適化された言葉を使用しています。
例えば正確さを最大限に追求する場合、全ての知覚的な経験に異なる言葉を割り当てます。複雑さの回避を最大限追求する場合、全ての経験を1つの言葉で表現します。

このような言語の最適化を研究する上で、”色の名前付け” が注目されることが多いです。色の名前付け方法をAIが学習できるとしたら、AIは人間と同じくらい効率的に言語を使用できるようになるのでしょうか。

色の名前付けをAIに学習させてAIのコミュニケーションシステムを開発するタスクにおいて、実際にどんな研究が行われているのでしょうか。Facebook AI ResearchのRahma Chaabouniらの研究を紹介します。

研究者らは、深層学習技術を用いてニューラルネットワークを訓練し、人間の言語に近い効率性をもつコミュニケーションシステムを開発することを試みました。

Facebookの挑戦

まずはRahma Chaabouniらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
人間の言語に近いコミュニケーションができるAIを開発する。

✔️解決手法
ニューラルネットワーク(NN)に単純な色識別ゲームを行わせることで命名システムを構築し、人間の言語の効率性との関係を評価する。

✔️結果
AIが人間と同じように言語を扱うことが強く示唆された。

ミッションから説明していきます。

深層学習による言語の効率性の表現可能性

注目しているのは、強力なAIのメカニズムが、人間の行動の自明でない特性を反映しているのかどうかということです。もし反映しているのであれば、人間と深層学習の収束パターンには、共通点があるという仮説を立てることができます。システムは、与えられた複雑さに対して可能な限り最大の精度を達成した場合、効率的であるといえます。この効率の関係は、図3に示される曲線で表すことができます。
この曲線上にあるシステムが最適であると考えられています。先行研究では、色名付けシステムが曲線で示される理論限界に著しく近く、定量化可能な方法で効率的だと実証されています。

機械の言語処理における特徴の分析

Rahma Chaabouniらは、機械の言語処理特徴と人間の言語処理特徴を比較しました。

データセット

データセットにはWorld Color Survey (WCS)を使用しました。WCSには,110の言語で書かれた330のカラーチップ(図1)の名称が含まれています。それぞれの色を、3次元ベクトルとして表現します。特に、色の類似性は、人間の知覚感度と相関があることから、ユークリッド距離に基づいて測定しています。

図1 WCSのカラーチップ

識別ゲーム

2つのニューラルネットワーク(SpeakerとListenerと呼ぶ)が行う識別ゲームを実装します。(図2)

1. 一様分布からカラーチップcが引き出され、Speakerに与えられます。
2. Speakerは、サイズ|V|の語彙に対する確率分布p(W|c)を出力します。
確率は灰色のグラデーションに従って色にマッピングされています(色が濃いほど確率が高いことを示します)。単語wはp(W|c)からサンプリングされ、Listenerに与えられます。
3. Listenerは、w、ターゲットチップCt(図2における1)、ディストラクタチップCd(図2における2)を与えられ、ターゲットの推測を表す確率を両方に割り当てます(図2では、Listener はターゲットの位置に高い確率を正しく割り当てられています)。

図2 識別ゲームの成功例

識別ニーズ

普遍的な傾向がある一方、色の命名方法にはばらつきも見られます。Rahma Chaabouniらは、文化によって識別の必要性が異なるという仮説を立てました。
直感的には、高度に工業化された社会では、異なる商品を特徴づける微妙に異なる色調を識別する必要があるかもしれません。しかし、工業化があまり進んでいない社会では、より粗い識別で十分かもしれません。
識別ニーズとして、具体的には、ターゲットとディストラクタのユークリッド距離の最小許容値を設定します。ターゲットとディストラクタの最小距離が小さい場合は識別欲求が高い社会を模擬しており、最小距離が大きい場合は識別欲求が低い社会を模擬しています。最小距離は、330個の異なるカラーチップ間の一対の距離のリストのn番目のパーセンタイルで定量化します。例えば、パーセンタイル=50の場合、ターゲットカラーCiに対して、ディストラクタCjは候補色の中から以下のように一様にサンプリングされます。

つまり、330の色から2色取り出してユークリッド距離を測定していき、その中央値より大きい値となるようにサンプリングを行います。

機械と人間の言語処理における共通点を発見

結果、言語処理において、NNシステムと人間が似通った特徴を有していることがわかりました。

異なる識別ニーズを持つコミュニティを考えるするために、ターゲットとディストラクタの最小距離を変化させて識別ゲームを行いました。(パーセンタイル) < 20では、ターゲットとディストラクタのペアが近すぎて、学習収束しません。(パーセンタイル)= 80以上では、どのターゲットに対しても十分に遠いディストラクタが存在しません。そこで、(パーセンタイル)∈{20,30,40,50,60,70,80}でゲームを行いました。

図3の曲線に沿って、人間とNNの名前付けシステムがどのように広がっていくかを見ると、2つの印象的な観察ができます。
まず、NNシステムは、人間の言語と同様に、理論限界の近くに位置しています。人間とNNシステムを比較すると、NNシステムの効率性は人間の範囲内に収まることがわかります。
次に、人間とNNシステムの両方が、曲線の狭い領域に分布しています。これは明らかに曲線の低複雑度側に偏っていることがわかります。

図3 精度と複雑性の関係

以上のことから、識別ゲームで学習した標準的なNNは、人間の色識別システムと同様に、効率的なコミュニケーションをサポートし、複雑さが低いシステムを開発します。

Rahma Chaabouniらは、色識別ゲームを行うように訓練されたNNが、人間の言語に酷似したネーミングシステムを開発することを示しました。
最近の研究では、一般的な手法で訓練された深層NNエージェントが色名付けゲームを行うと、本研究におけるゲームとの重要な違いにもかかわらず、同様に人間のような複雑さと精度のトレードオフが生じることが報告されています。
これは、シミュレーションの詳細とは無関係に、深層学習ネットワークが精度と複雑さのトレードオフを自然に最適化する傾向があることを示す、重要な証拠です。

研究紹介は以上です。

AIが、人間と同じような正確さと複雑性のトレードオフを行いながら言語を扱うことを示す研究でした。AIが人間と遜色ない意思疎通ができる日はすぐそこまできているのかもしれません。


この記事で取り扱った論文:Rahma Chaabouni, Eugene Kharitonov, Emmanuel Dupoux, Marco Baroni,”Communicating artificial neural networks develop efficient color-naming systems”, PNAS March 23, 2021 118 (12) e2016569118 DOI

関連記事


業界/カテゴリー

PAGE TOP