人工知能にユーモアは理解できるのか【AI×社会】(論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

機械を通して人を知る

コンピュータによりユーモアを生成することは、人間の言動を理解する上で重要な要素です。ユーモアは主観的なものであって、個々人によってさまざまな解釈がなされます。人間は創造性や知識などによってユーモアを作り出しますが、この方法を理論的にモデル化することは、現在の機械学習から捉えられるように非常に困難です。

一部の研究者はユーモアの生成を人工知能のテーマの中で最も困難な課題として見なしています。また、ユーモアはすべての国・性別・年齢層で用いられている人間特有のものです。しかし、面白いと感じるユーモアは国や性別によって異なります。

ユーモアが人間の主観により評価され、コンピュータが作り出すことは困難であるという課題に対して、実際にどんな研究が行われているのでしょうか。アメリカ合衆国にあるミシガン大学のAparna Garimellaら研究者の発表を紹介します。

研究者らは、BERT自然言語処理モデルを拡張することで、ユーモアのある物語生成を試みました。

▼論文情報

著者:Aparna Garimella, Carmen Banea, Nabil Hossain and Rada Mihalcea
タイトル:””Judge me by my size (noun), do you?” YodaLib: A Demographic-Aware Humor Generation Framework”
arxiv
URL:DOI

ユーモアのある文章を生成する試み

まずはAparna Garimellaらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
コンピュータにより面白い文章を生成したい。

✔️解決手法
BERT自然言語処理モデルを拡張することにより、面白い単語を予測した。

✔️結果
生成された文章が面白いと判定された。

ミッションから説明していきます。

面白い物語とはなんなのか

ユーモアは主観的に発せられることから、コンピュータによって生成することは非常に難しいです。さらに、国・性別・年齢などの統計学的な違いによって面白いかどうかも分かれてしまいます。

このような背景からAparna GarimellaらはYodaLibという自動ユーモア生成フレームワークを提案しました。このシステムは国や地域なども考慮し、ユーモアを生成するものです。このシステムはまず、物語の文を埋めるために候補の単語を選択します。次に、文章が面白くなっているかどうかを判定します。最後に、面白い文章を個々に結合して、ユーモアがある物語を形成します。

自然言語処理モデルを用いて面白い単語を予測

Aparna GarimellaらはBERT自然言語処理モデルを用いることによって、ユーモアのある単語生成を行いました。

データセット

データセットを説明する上で、まずMad Libsを紹介します。これはパーティゲームの一種で、あらかじめ用意された物語の空欄に入れる適当な言葉を当てはめ、完成した文章を読み上げて遊ぶ言葉遊びゲームです。タイトルと物語で形成され、一部の単語は隠されています。プレイヤーはヒント(人物の名前など)を物語を読まずに埋めます。

下文はMat Libの文章の一部です。

「お洒落なキャンプでのアシスタントフレンドの仕事に叔母を推薦したいと思います。彼女は食事に関する学位を取っています。両親にルドーの遊び方を教えた経験があります。」

しかし、Aparna GarimellaらはMad Libsに似たFun Libsを用いています。Mad Libsは著作権で保護されていてデータセット化することが困難です。また、Fun Libsを使用することによって、他論文の結果と比較することができます。

審査員の選択

物語が面白いかどうかを判定する審査員は、言語・人口統計調査を介して選択されています。審査員は4段階で物語の面白さを評価します。また、スパム回答を排除するために検証質問が提示され、年齢層・国籍・性別・職業・収入を回答し終了となります。

地域差を考慮した単語予測モデル

Mad Libsのような物語を生成するには、テキストに合致した単語を空白に自動入力するステップから始まります。これを行うためには、BERTというGoogleが作成した自然言語処理モデルなどのフレームワークなどによって予測できます。空欄に入る単語を予測するために、Wikipediaのデータセットでトレーニングされています。この予測は地域差を考慮していないため、さらにインドとアメリカ合衆国の著者によって書かれたブログにより訓練を行います。

下表はユーモア分類データセットのサイズを示しています。プレイヤーに面白い物語を作成するように指示したため、データセットは面白いクラスに偏っています。

上記のデータセットを使用することにより、FunnyBERTをファインチューニングします。これはBERTに基づくユーモア分類器であり地域を考慮してユーモアがあるかどうかを判定することができます。具体的には、入力のペア(隠された文, 入力文)を使用してBERTをファインチューニングします。

YodaLib

Aparna Garimellaらは、ユーモアのある物語生成のためのYodaLibを構築しました。MadLibsのような物語について、単語の選択とランク付けから始め、物語を完成させることが目標です。FunnyBERTにより単語を選択することによって、文章を完成させます。

ユーモアのある文章の生成に成功

結果、インドとアメリカの両地域で、YodaLibが生成した文章は面白いと判定されました。

下図はインド・アメリカ面白さの平均を示しています。4段階で評価しているため、最高の値は4となります。FTとYodaLibによって作られた物語は、MLMよりも数値が高くなっています。MLMはBERTに基づいていて、文章の流れに適している単語を埋めるため、ユーモアが少ないと考えられます。YodaLibは平均して高い数値を記録していることから、ユーモアのある文章が作り出されていることが分かります。

FT: プレイヤーが作った物語
MLM: 文章中の単語を隠し、予測するタスク
YodaLib: Aparna Garimellaらが提案した手法

下の文章はYodaLibによる文章生成の結果です。上の文章はインド地域で面白いと判定されるように作成された文章で、下文はアメリカ地域用に生成されたものです。左右でそれぞれ、人が埋めたものとYodaLibにより埋めた単語を表しています。

「広告は、会社が製品・サービス・(夢/光学機器)を(買う/焼く)ために人をだます手法です … それはこれらのものに(ばかげた/さらに)注意を引きます。企業は広告を利用して、製品の悪い点ではなくいい点を示すことによって、製品を(忘れさせ/投げつけ)ようとしています。例えば(ハンバーガ/ダイナマイト)をおいしく見せるために、茶色の食用色素で塗装し、(くすみ/優雅になるの)を防ぐために(油/ワニ)を入れ、ゴマを超接着することができます。広告は新たな(身代わり/病気)となり、売り上げを増やすことが可能です。(役に立たない/厳しいものになる)こともあります。 …」

研究紹介は以上です。ユーモアの生成は人工知能の重要なテーマの一つであると考えられます。この研究によってコンピュータによるユーモアの生成が成し遂げられるといいですね。


関連記事


業界/カテゴリー

PAGE TOP